Applied Machine Learning in Voice-Based Moderation Systems/音声ベースのモデレーションシステムにおける機械学習の応用について
テリー・チェン
増野 宏之
- セッション分野
-
ENG(エンジニアリング)
- セッション関連分野
-
SND
- キーワード
-
AI/ML
- セッション難易度
- 求められるスキル
- Familiarity with basic machine learning concepts
Basic understanding of real-time voice processing and signal processing techniques (for audio engineers)
Experience in game development, middleware, ML engineering, or audio technology (a plus)
機械学習の基本概念について理解されている方
音声エンジニア向けのリアルタイム音声処理と信号処理技術の基本的理解のある方
ゲーム開発、ミドルウェア、MLエンジニアリング、または音声技術等の経験をお持ちの方 - 得られる知見
- Participants will leave with a comprehensive understanding of:
General Takeaways:
• End-to-end workflow for applying machine learning in voice moderation
• Strategies for optimizing ML pipelines for latency-sensitive applications
• Challenges and solutions for deploying real-time voice moderation at scale
Technical & Audio Engineering-Specific Takeaways:
• Best practices in audio feature extraction for ML models (MFCCs, spectrograms, and embeddings)
• Impact of voice codecs (e.g., Opus, AAC, SILK) on ML-based speech analysis
• Real-time audio processing optimizations and latency considerations for moderation systems
本セッションでは以下の点について総合的に説明します。
総合的なポイント:
• 音声モデレーションに機械学習を適用するためのエンドツーエンドのワークフロー
• 遅延にセンシティブなアプリケーション向けのMLパイプライン最適化戦略
• リアルタイム音声モデレーションのスケール展開における課題と解決策
技術的・音声工学特化ポイント:
• MLモデル向け音声特徴抽出のベストプラクティス(MFCC、スペクトログラム、埋め込み表現)
• 音声コーデック(例:Opus、AAC、SILK)がMLベースの音声分析に与える影響
• モデレーションシステムにおけるリアルタイム音声処理の最適化と遅延に関する考慮点 - 写真撮影 / SNS投稿
セッション内容
As voice chat becomes central to online games, moderating spoken content in real time has become a global challenge. This session offers a deep technical dive into how machine learning powers voice-based moderation, covering VAD, STT, LID, and classifiers for age, gender, emotion, speech modes, and disruptive audio.
We’ll explore feature extraction (MFCCs, spectrograms, embeddings), model architectures, and training strategies, along with engineering insights for audio professionals—including real-time constraints and codec effects. The session also compares regulatory and deployment challenges across the US and Japan, and concludes with industry trends and best practices for building ethical, scalable voice moderation systems.
音声チャットがオンラインゲームの中核となる中、リアルタイムでの音声コンテンツのモデレーションは世界的な課題となっています。本セッションでは、機械学習が音声ベースのモデレーションをどのように支えるかについて、VAD(音声区間検出)、STT(音声認識)、LID(言語識別)、さらには話者の年齢、性別、感情や、発話モード、そして妨害音声の分類器など、技術面について深堀りした解説を行います。
特徴抽出(MFCC、スペクトログラム、埋め込み表現 )、音声認識モデルのアーキテクチャ、音声認識トレーニングに加え、音声エンジニア向けのリアルタイム処理制約やコーデックの影響などのエンジニアリングについても考察します。また、米国と日本における規制と展開の課題比較を行い、社会環境に合致したスケーラブルな音声モデレーションシステム構築のための業界動向とベストプラクティスを紹介します。
講演者
-
テリー・チェン
Modulate Inc.
-
増野 宏之
株式会社CRI・ミドルウェア