音声の「恐怖の谷」を越える:セサミがエンド・ツー・エンドのマルチモーダルモデルCSMを発表

音声の「恐怖の谷」を越える:セサミがエンド・ツー・エンドのマルチモーダルモデルCSMを発表
SESAMEインターフェース

1.基本目標

セサミは、音声アシスタントに自然で感情的な対話能力を与え、「恐怖の谷」効果を越えて真の「声のプレゼンス」(Voice Presence)を実現し、機械による会話を人間の感覚に近づけるための技術的ブレークスルーを起こしている。コミュニケーションにおける現実感と信頼感

2.主な技術的課題

  • 感情と文脈が欠けている既存の音声アシスタントは、感情表現、対話のテンポ、文脈への適応性に欠け、その結果、硬い対話になっています。
  • マルチモーダル理解従来のTTSモデルは、テキスト、音声、感情といった多次元の情報を同時に処理する必要があるため、リアルタイムのダイナミックな対話シナリオに適応することが困難であった。
  • リアルタイム性と効率性従来の2段階音声合成(意味→音響)は、待ち時間の問題があり、リアルタイムのインタラクション要件を満たすことができません。

3.解決策:会話音声モデル(CSM)

  • エンド・ツー・エンドのマルチモーダルアーキテクチャ::
    • バックボーンネットワークLlama-based Transformerは、テキストと音声のトークンを処理して、その下にある意味トークン(レイヤー0)を予測します。
    • コーデック残響トークンのレイヤー生成(レイヤー1からレイヤーN-1)。
    • RVQトークン化音声を意味トークン(高レベル特徴)と音響トークン(詳細特徴)に分解し、残差ベクトル定量化(RVQ)によって生成効率を最適化する。
  • 償却戦略の計算トレーニング中に1/16の音声フレームに対してのみ音響トークンを予測することで、生成品質を維持しながらメモリ消費量を削減。

4.実験と評価

  • データセット同社は合計100万時間分の英語音声データを保有しており、会話や感情表現などのシナリオをカバーしている。
  • モデルサイズ::
    • タイニー:1Bバックボーン+100Mデコーダー
    • 小型:3Bバックボーン+250Mデコーダー
    • ミディアム:8Bバックボーン+300Mデコーダー
  • 客観的指標::
    • WER(ワードエラーレート)人間のレベルに近い(小型モデル2.9%)。
    • スピーカーの類似性0.938(人間のベンチマーク0.940に近い)。
    • 新インジケータ::
      • 同音異義語の曖昧性解消(例:「リード」の発音区別):ミディアムモデルの精度87%。
      • 発音の一貫性(例:"route "の異なる発音バリエーション):ミディアムモデル70%。
  • 主観評価(CMOSテスト)::
    • 文脈自由ヒトとCSMミディアムの嗜好率は拮抗していた(47.11 TP3T vs 52.91 TP3T)。
    • 文脈的人間の録音はモデルを大幅に上回った(66.71 TP3T対33.31 TP3T)。

5.オープンソースと今後の計画

  • ざいげんをひろげるコミュニティのコラボレーションを促進するために、Apache 2.0プロトコルの下でモデルコードと主要コンポーネントをオープンソース化する。
  • 制限::
    • 英語データへの依存と限られた多言語能力。
    • 事前に訓練された言語モデルの知識が十分に活用されていない。
    • 対話構造のモデリングが不十分(例:ターンテーキング、ポーズ)。
  • 今後の方向性::
    • 20以上の言語のサポートを拡大し、マルチモーダルなトレーニングデータを追加。
    • 事前に訓練された言語モデルと音声モデルの融合を探る。
    • 対話のダイナミクス(ペース配分、間合いなど)を暗黙的に学習する全二重対話モデルの開発。

6.まとめ

セサミのCSMモデルは、音声の自然さにおいて画期的な進歩を遂げたが、文脈理解や多言語対応にはまだ改善の余地がある。今後は、モデル規模の拡大、マルチモーダル融合、対話構造のモデリングなどを通じて、音声アシスタントがよりリアルでインテリジェントなインタラクション体験に向かうよう促進する必要がある。

    ダウンロード許可
    見る
    • 免费下载
      コメントとリフレッシュ後にダウンロード
      ログインしてダウンロード
    • {{attr.name}}:
    あなたの現在のレベルは
    ログインして無料でダウンロードログイン 小さな暗い反省室ではダウンロードは禁止されている! コメント後にページを更新してダウンロードするコメント 後でダウンロードするにはを支払う 選択してくださいログイン 本日のダウンロードは終了しました()! クレジットを支払う 後でダウンロードするすぐに支払う 後でダウンロードするにはを支払うすぐに支払う 現在のユーザーグループはダウンロードを許可していません。メンバーシップのアップグレード
    ダウンロードアクセスが許可されました 毎日資料をダウンロードできる回、今日も残る
    📢 免責事項|ツール使用上の注意事項
    1 本文の内容は公開されている既知の情報に基づいて整理したものです。AI技術及びツールは頻繁に更新されるため、公式の最新説明を基準としてください。
    2 推奨ツールは基本的なスクリーニングを経ています。ただし、詳細なセキュリティ検証は実施されていません。ご自身で適用性とリスクを評価してください。
    3 サードパーティのAIツールを使用する際は、データプライバシー保護に注意し、機密情報のアップロードを避けてください。
    4 本ウェブサイトは、ツールの誤用、技術的な不具合、または内容の誤りによって生じた直接的/間接的な損失について一切の責任を負いません。
    5 一部のツールは有料サブスクリプションを伴う場合があります。ご自身の判断でご利用ください。当サイトは一切の投資アドバイスを含みません。
    0 返信 A文章作者 M管理员
      ディスカッションはまだありません。 ご意見をお聞かせください。
    ❯❯❯❯❯❯❯❯❯❯❯❯❯❯❯
    パーソナルセンター
    カート
    クーポン
    今日でサインインしました
    新しいプライベートメッセージがある。 プライベートメッセージリスト
    検索