
Step-Audioは、インテリジェントな音声対話のためのオープンソースフレームワークのリポジトリです:
基本情報
- 多言語サポートREADMEドキュメントには、中国語、英語、日本語が用意されています。
- プロジェクト・リンク技術報告書やハギング・フェイス関連のモデルやデータセットへのリンクがあり、追加リソースに簡単にアクセスできる。
主な要素と特徴
1.中核機能
Step-Audioは、インテリジェントな音声インタラクションのための初の量産可能なオープンソース・フレームワークであり、音声理解と生成機能を以下の機能的特徴と調和させている:
- 多言語対話中国語、英語、日本語、その他の言語での会話をサポート。
- 感情トーン喜びや悲しみなど、さまざまな感情を表現する能力。
- くにことば広東語や四川語などの方言に対応。
- スピーチレート調整音声レートを調整できます。
- 韻律ラップのような様々なライミングスタイルに対応。
2.主要な技術革新
- 1300億のパラメータを持つマルチモーダルモデル
- は、音声認識、意味理解、対話、音声クローン、音声合成などのタスクを実行するために、理解能力と生成能力を統合した統一モデルである。
- 1300億のパラメータを持つStep-Audio-Chatのオープンソース版。
- ジェネレーティブ・データ・エンジン
- 従来のテキスト音声合成(TTS)のための手動データ収集への依存を排除し、1300億のパラメータを持つマルチモーダルモデルによって高品質の音声を生成します。
- 制御された音声合成のためのコマンド追従機能を強化した、リソース効率の高いStep-Audio-TTS-3Bモデルを訓練し、これらのデータを用いて一般に公開した。
- 繊細なボイスコントロール
- コマンドベースの制御設計により正確な制御を実現し、多様な音声生成ニーズを満たすため、幅広い感情(怒り、喜び、悲しみなど)、方言(広東語、四川語など)、発声スタイル(ラップ、アカペラ・ハミングなど)に対応している。
- 強化されたインテリジェンス
- ToolCallメカニズムの統合とロールプレイングの強化により、複雑なタスクにおけるインテリジェンスのパフォーマンスを向上。
3.モデル・アーキテクチャ
- デュアルコード本のフレームワーク音声ストリームは、並列セマンティック(16.7Hz、1024エントリーのコードブック)と音響(25Hz、4096エントリーのコードブック)タガーを2:3の時間インターリーブで組み合わせたデュアルコードブックフレームワークによってトークン化される。
- 言語モデル1,300億のパラメータに基づくテキストベースの大規模言語モデル(LLM)であるStep-1の連続的な音声プリトレーニングにより、Step-Audioの音声情報の効率的な処理能力を向上させ、正確な音声とテキストのアライメントを実現します。
- ボイスデコーダーデコーダは、意味情報と音響情報を含む離散的な音声トークンを、自然な音声を表す連続的な時間領域の波形に変換する際に重要な役割を果たします。このデコーダ・アーキテクチャは、合成音声の明瞭度と自然さを最適化するために、ストリーム・マッチング・モデルと、2コード・インターリーブ・アプローチで学習されたMel-to-waveformボコーダを組み合わせたものである。
- リアルタイム推論パイプライン最適化された推論パイプラインは、状態遷移を管理し、投機的な応答生成を調整し、主要なサブシステム間のシームレスな調整を保証するコアコントローラモジュールで設計されています。これらのサブシステムには、ユーザーの音声を検出するためのVAD(Voice Activity Detection)、リアルタイム音声処理のためのストリーミングオーディオタガー、応答を処理・生成するためのステップオーディオ言語モデルと音声デコーダー、対話の連続性を維持するためのコンテキストマネージャーなどが含まれる。
倉庫構造
リポジトリには以下の主なフォルダとファイルが含まれています:
ドッカーファイル
歌で応えるDockerfile-vllm
Dockerイメージのビルドに使用されるファイル。README.md
,README_CN.md
,README_JP.md
プロジェクトの説明、モデルの概要、使用方法などの情報を含む。要件.txt
歌で応える要件-vllm.txt
プロジェクトの実行に必要なPythonパッケージのリストです。資産
画像やPDFドキュメントなど、プロジェクトのアセットファイルを保存します。例
コードやデータの例を格納する。funasr_detach
発話に関する機能コードが含まれている可能性がある。スピーカー
音声関連のプロンプト音声ファイルや話者情報を格納。コージーボイス
スピーチに関するその他のリソースが含まれている場合があります。
モデルのダウンロードと使用
- モデルダウンロードStep-Audio-Tokenizer, Step-Audio-Chat, Step-Audio-TTS-3Bモデルを含む、Hugging FaceとModelscopeプラットフォーム用のモデルをダウンロードするためのリンクを提供します。
- モデル使用ドキュメントには、Step-Audioのモデルを実行するために必要な要件、例えばモデルごとに必要な最小GPUメモリなどの情報が記載されています。
ステップ・オーディオ
このリポジトリは、インテリジェントな音声対話のための包括的で強力なフレームワークを提供し、研究者と開発者の両方にとって貴重なオープンソースプロジェクトです。
-
¥免费下载コメントとリフレッシュ後にダウンロードログインしてダウンロード
📢 免責事項|ツール使用上の注意事項
1️⃣ 本記事の内容は掲載時点で判明している情報に基づいており、AIの技術やツールは頻繁に更新されるため、最新の公式説明書をご参照ください。
2️ ⃣ 推奨ツールは基本的なスクリーニングは受けていますが、深いセキュリティ検証は受けていませんので、ご自身で適合性とリスクを評価してください。
3️⃣ サードパーティのAIツールを使用する際は、データプライバシー保護に注意し、機密情報のアップロードを避けてください。
4️ ⃣ 本サイトは、ツールの誤用、技術的な障害、コンテンツの逸脱による直接的/間接的な損害について責任を負いません。
5️🏣ツールによっては有料会員登録が必要な場合があります。合理的な判断をお願いします。当サイトは投資アドバイスを含むものではありません。