LatentSyncは、ByteDanceが2023年にオープンソース化した革新的な技術であり、音声駆動型の高精度リップシンクを可能にする。この技術は、音声状態の潜在拡散モデルに基づいており、中間的な動き表現を必要とすることなく、動画内のキャラクターの唇の動きを音声と正確に同期させることができます。
コア機能
- エンド・ツー・エンドのリップ・シンクロ
LatentSyncは、複雑なオーディオビジュアル相関関係をモデル化し、高精度のリップシンクを達成するために、安定拡散の力を直接活用するエンドツーエンドのリップシンクフレームワークを使用しています。 - 時間表現アライメント(TREPA)
TREPAは、大規模な自己教師付きビデオモデルから抽出された時間表現を利用して、生成フレームと実フレームを整列させ、リップシンクの精度を維持しながら時間的整合性を高める。 - 最適化されたSyncNetモデル
SyncNetモデルのアーキテクチャ、トレーニングハイパーパラメータ、データ前処理方法を最適化することで、LatentSyncはリップシンクの精度を大幅に向上させました。HDTFテストセットの精度は91%から94%に向上しました。
アプリケーションシナリオ
- デジタル・ヒューマン・プロダクションLatentSyncは、音声に非常にマッチした人間の唇の動きをデジタルで生成することができ、バーチャル・キャスターやバーチャル・アシスタントなどのアプリケーションの臨場感を高めることができます。
- ポストプロダクション映画やテレビの制作現場では、LatentSyncをリップシンクのポストダビングに使用することで、手作業による調整を減らし、制作効率を向上させることができます。
- ゲームキャラクターアニメーションゲーム内のキャラクターに正確なリップシンクを提供し、プレイヤーの没入感を高めます。
使用方法
- コードを取得LatentSyncのGitHubプロジェクトページにアクセスし、コードをクローンまたはダウンロードしてください。
- 環境設定プロジェクトが提供するガイドラインに従って、必要な実行環境と依存関係を設定する。
- モデルトレーニングプロジェクトのドキュメントに従って、提供されたトレーニングデータセットを使用してモデルをトレーニングするか、事前にトレーニングされたモデルを使用します。
- 音声入力モデルの入力として処理される音声ファイルを提供する。
- ビデオの作成入力音声に同期した唇の動きのビデオを生成するためにモデルを実行します。
- 後処理必要に応じて、生成されたビデオの後処理と編集を行う。
ツールの特徴
- 高精度エンドツーエンドモデルアーキテクチャによる、音声と唇の動きの高精度同期。
- 時間の一貫性生成された映像の時間的整合性を確保するため、時間表現アライメント技術を導入。
- オープンソースシェアリングオープンソースプロジェクトであるため、LatentSyncのコードとモデルパラメータは一般に公開されており、開発者は簡単に使用し、2度開発することができます。
- パフォーマンスを最適化する既存のモデルを最適化することで、リップシンクの精度とモデルの収束速度が向上する。
LatentSyncのオープンソースは、音声駆動型リップシンク技術の新しいソリューションを提供し、デジタルピープル、映画・テレビ制作、ゲームアニメーションの分野を発展させます。開発者や研究者はこの技術を使って、よりリアルで自然なバーチャルキャラクターやアニメーションを作成することができます。
次のビデオでは、LatentSyncの使い方をより直感的に説明します:
LatentSync:ByteDance、オーディオ主導のビデオとデジタル人間制作の成果物をオープンソース化