ショートセッション
講演形式
ショートセッション
講演時間
08月24日(木) 16:30 〜 16:55
講演ルーム
第8会場
受講スキル
・オーディオのAI処理に興味ある方
・効果音制作技術や制作プロセスに興味ある方
得られる知見
・Transformerモデルとその画像・オーディオへの適用についての概要
・擬音的発話(口まね)音声のみから効果音合成する手法と新たな制作プロセス
・AI学習のためのデータセットの課題
セッションの内容
DALL·E 2や、MidJouney、Stable Diffusion等の画像生成AIや、GPTなどの大規模言語モデル(LLM)による対話型テキスト生成AIなど、AI技術の発展や実利用が広がるなか、ゲームやアニメ・映画制作における効果音制作においても、今後はAI技術の活用が見込まれます。我々は、GPT等の自然言語処理で主に使われている系列変換モデルTransformerを用いて、擬音的な発話音声*のみ*から効果音合成する手法について研究しています。文字列や言語の音素に依存しない手法であり、口真似での微妙な表現にも対応できることを確認しています。本セッションでは、Transformerの概要説明と、それをオーディオデータに適用する一手法と音合成技術について紹介します。そして、本研究で具体的な題材としている爆発音を対象とした効果音・擬音発話データセットと合成例を示します。さらに、人とAIがインタラクティブにサウンド制作する今後の制作プロセスについて考察します。