インタラクティブセッション
講演形式
インタラクティブセッション
講演ルーム
受講スキル
・オーディオのAI処理に興味ある方
・効果音制作技術や制作プロセスに興味ある方
得られる知見
・擬音的発話(口まね)音声のみから効果音合成する手法と新たな制作プロセス
・AI学習のためのデータセットの課題
セッションの内容
MidJouneyやStable Diffusionによる画像生成AIや、GPTなどの大規模言語モデル(LLM)による対話型テキスト生成AIなど、AI技術の発展や実利用が広がるなか、ゲームやアニメ・映画制作における効果音制作においても、今後はAI技術の活用が見込まれます。我々は、Stable Diffusionの一部やGPT等で使われている系列変換モデルTransformerを用いて、擬音的な発話音声のみから効果音合成する手法について研究しています。文字列や言語の音素に依存しない手法であり、微妙な表現にも対応できることを確認しています。本インタラクティブセッションでは、学習済モデルを用いた爆発音合成例を示すのと、その場で自身の擬音的発話による爆発音合成を体験してもらいます。