
1.基本目標
セサミは、音声アシスタントに自然で感情的な対話能力を与え、「恐怖の谷」効果を越えて真の「声のプレゼンス」(Voice Presence)を実現し、機械による会話を人間の感覚に近づけるための技術的ブレークスルーを起こしている。コミュニケーションにおける現実感と信頼感
2.主な技術的課題
- 感情と文脈が欠けている既存の音声アシスタントは、感情表現、対話のテンポ、文脈への適応性に欠け、その結果、硬い対話になっています。
- マルチモーダル理解従来のTTSモデルは、テキスト、音声、感情といった多次元の情報を同時に処理する必要があるため、リアルタイムのダイナミックな対話シナリオに適応することが困難であった。
- リアルタイム性と効率性従来の2段階音声合成(意味→音響)は、待ち時間の問題があり、リアルタイムのインタラクション要件を満たすことができません。
3.解決策:会話音声モデル(CSM)
- エンド・ツー・エンドのマルチモーダルアーキテクチャ::
- バックボーンネットワークLlama-based Transformerは、テキストと音声のトークンを処理して、その下にある意味トークン(レイヤー0)を予測します。
- コーデック残響トークンのレイヤー生成(レイヤー1からレイヤーN-1)。
- RVQトークン化音声を意味トークン(高レベル特徴)と音響トークン(詳細特徴)に分解し、残差ベクトル定量化(RVQ)によって生成効率を最適化する。
- 償却戦略の計算トレーニング中に1/16の音声フレームに対してのみ音響トークンを予測することで、生成品質を維持しながらメモリ消費量を削減。
4.実験と評価
- データセット同社は合計100万時間分の英語音声データを保有しており、会話や感情表現などのシナリオをカバーしている。
- モデルサイズ::
- タイニー:1Bバックボーン+100Mデコーダー
- 小型:3Bバックボーン+250Mデコーダー
- ミディアム:8Bバックボーン+300Mデコーダー
- 客観的指標::
- WER(ワードエラーレート)人間のレベルに近い(小型モデル2.9%)。
- スピーカーの類似性0.938(人間のベンチマーク0.940に近い)。
- 新インジケータ::
- 同音異義語の曖昧性解消(例:「リード」の発音区別):ミディアムモデルの精度87%。
- 発音の一貫性(例:"route "の異なる発音バリエーション):ミディアムモデル70%。
- 主観評価(CMOSテスト)::
- 文脈自由ヒトとCSMミディアムの嗜好率は拮抗していた(47.11 TP3T vs 52.91 TP3T)。
- 文脈的人間の録音はモデルを大幅に上回った(66.71 TP3T対33.31 TP3T)。
5.オープンソースと今後の計画
- ざいげんをひろげるコミュニティのコラボレーションを促進するために、Apache 2.0プロトコルの下でモデルコードと主要コンポーネントをオープンソース化する。
- 制限::
- 英語データへの依存と限られた多言語能力。
- 事前に訓練された言語モデルの知識が十分に活用されていない。
- 対話構造のモデリングが不十分(例:ターンテーキング、ポーズ)。
- 今後の方向性::
- 20以上の言語のサポートを拡大し、マルチモーダルなトレーニングデータを追加。
- 事前に訓練された言語モデルと音声モデルの融合を探る。
- 対話のダイナミクス(ペース配分、間合いなど)を暗黙的に学習する全二重対話モデルの開発。
6.まとめ
セサミのCSMモデルは、音声の自然さにおいて画期的な進歩を遂げたが、文脈理解や多言語対応にはまだ改善の余地がある。今後は、モデル規模の拡大、マルチモーダル融合、対話構造のモデリングなどを通じて、音声アシスタントがよりリアルでインテリジェントなインタラクション体験に向かうよう促進する必要がある。
-
¥免费下载コメントとリフレッシュ後にダウンロードログインしてダウンロード
📢 免責事項|ツール使用上の注意事項
1️⃣ 本記事の内容は掲載時点で判明している情報に基づいており、AIの技術やツールは頻繁に更新されるため、最新の公式説明書をご参照ください。
2️ ⃣ 推奨ツールは基本的なスクリーニングは受けていますが、深いセキュリティ検証は受けていませんので、ご自身で適合性とリスクを評価してください。
3️⃣ サードパーティのAIツールを使用する際は、データプライバシー保護に注意し、機密情報のアップロードを避けてください。
4️ ⃣ 本サイトは、ツールの誤用、技術的な障害、コンテンツの逸脱による直接的/間接的な損害について責任を負いません。
5️🏣ツールによっては有料会員登録が必要な場合があります。合理的な判断をお願いします。当サイトは投資アドバイスを含むものではありません。