
Step-Audioは、インテリジェントな音声対話のためのオープンソースフレームワークのリポジトリです:
基本情報
- 多言語サポートREADMEドキュメントには、中国語、英語、日本語が用意されています。
- プロジェクト・リンク技術報告書やハギング・フェイス関連のモデルやデータセットへのリンクがあり、追加リソースに簡単にアクセスできる。
主な要素と特徴
1.中核機能
Step-Audioは、インテリジェントな音声インタラクションのための初の量産可能なオープンソース・フレームワークであり、音声理解と生成機能を以下の機能的特徴と調和させている:
- 多言語対話中国語、英語、日本語、その他の言語での会話をサポート。
- 感情トーン喜びや悲しみなど、さまざまな感情を表現する能力。
- くにことば広東語や四川語などの方言に対応。
- スピーチレート調整音声レートを調整できます。
- 韻律ラップのような様々なライミングスタイルに対応。
2.主要な技術革新
- 1300億のパラメータを持つマルチモーダルモデル
- は、音声認識、意味理解、対話、音声クローン、音声合成などのタスクを実行するために、理解能力と生成能力を統合した統一モデルである。
- 1300億のパラメータを持つStep-Audio-Chatのオープンソース版。
- ジェネレーティブ・データ・エンジン
- 従来のテキスト音声合成(TTS)のための手動データ収集への依存を排除し、1300億のパラメータを持つマルチモーダルモデルによって高品質の音声を生成します。
- 制御された音声合成のためのコマンド追従機能を強化した、リソース効率の高いStep-Audio-TTS-3Bモデルを訓練し、これらのデータを用いて一般に公開した。
- 繊細なボイスコントロール
- コマンドベースの制御設計により正確な制御を実現し、多様な音声生成ニーズを満たすため、幅広い感情(怒り、喜び、悲しみなど)、方言(広東語、四川語など)、発声スタイル(ラップ、アカペラ・ハミングなど)に対応している。
- 強化されたインテリジェンス
- ToolCallメカニズムの統合とロールプレイングの強化により、複雑なタスクにおけるインテリジェンスのパフォーマンスを向上。
3.モデル・アーキテクチャ
- デュアルコード本のフレームワーク音声ストリームは、並列セマンティック(16.7Hz、1024エントリーのコードブック)と音響(25Hz、4096エントリーのコードブック)タガーを2:3の時間インターリーブで組み合わせたデュアルコードブックフレームワークによってトークン化される。
- 言語モデル1,300億のパラメータに基づくテキストベースの大規模言語モデル(LLM)であるStep-1の連続的な音声プリトレーニングにより、Step-Audioの音声情報の効率的な処理能力を向上させ、正確な音声とテキストのアライメントを実現します。
- ボイスデコーダーデコーダは、意味情報と音響情報を含む離散的な音声トークンを、自然な音声を表す連続的な時間領域の波形に変換する際に重要な役割を果たします。このデコーダ・アーキテクチャは、合成音声の明瞭度と自然さを最適化するために、ストリーム・マッチング・モデルと、2コード・インターリーブ・アプローチで学習されたMel-to-waveformボコーダを組み合わせたものである。
- リアルタイム推論パイプライン最適化された推論パイプラインは、状態遷移を管理し、投機的な応答生成を調整し、主要なサブシステム間のシームレスな調整を保証するコアコントローラモジュールで設計されています。これらのサブシステムには、ユーザーの音声を検出するためのVAD(Voice Activity Detection)、リアルタイム音声処理のためのストリーミングオーディオタガー、応答を処理・生成するためのステップオーディオ言語モデルと音声デコーダー、対話の連続性を維持するためのコンテキストマネージャーなどが含まれる。
倉庫構造
リポジトリには以下の主なフォルダとファイルが含まれています:
ドッカーファイル歌で応えるDockerfile-vllmDockerイメージのビルドに使用されるファイル。README.md,README_CN.md,README_JP.mdプロジェクトの説明、モデルの概要、使用方法などの情報を含む。要件.txt歌で応える要件-vllm.txtプロジェクトの実行に必要なPythonパッケージのリストです。資産画像やPDFドキュメントなど、プロジェクトのアセットファイルを保存します。例コードやデータの例を格納する。funasr_detach発話に関する機能コードが含まれている可能性がある。スピーカー音声関連のプロンプト音声ファイルや話者情報を格納。コージーボイススピーチに関するその他のリソースが含まれている場合があります。
モデルのダウンロードと使用
- モデルダウンロードStep-Audio-Tokenizer, Step-Audio-Chat, Step-Audio-TTS-3Bモデルを含む、Hugging FaceとModelscopeプラットフォーム用のモデルをダウンロードするためのリンクを提供します。
- モデル使用ドキュメントには、Step-Audioのモデルを実行するために必要な要件、例えばモデルごとに必要な最小GPUメモリなどの情報が記載されています。
ステップ・オーディオ このリポジトリは、インテリジェントな音声対話のための包括的で強力なフレームワークを提供し、研究者と開発者の両方にとって貴重なオープンソースプロジェクトです。
ダウンロード許可
見る- ¥免费下载コメントとリフレッシュ後にダウンロードログインしてダウンロード