簡単
InternVL 2.5は、OpenGVLabチームによって立ち上げられた新世代のMLLM(Multimodal Large Language Model)シリーズです。 InternVL 2.0のアップグレード版として、オリジナルのアーキテクチャを維持しながら、革新的な学習ストラテジーとデータ処理方法によって大幅な性能向上を達成しています。このオープンソースモデルは、多くのベンチマークテストにおいて優れた性能を発揮し、GPT-4oやClaude-3.5-Sonnetのような商用モデルと競合することさえあります。

コア・ハイライト
- ブレイクスルー・パフォーマンスMMMUベンチマークで70%を超える初のオープンソースMLLM
- 柔軟なアーキテクチャ1Bから78Bまで、さまざまなサイズのモデルを用意。
- 革新的なトレーニング戦略インクリメンタル・スケーリング・アプローチによるトレーニング・コストの大幅削減
- リアルシーンの最適化特殊技術によるウェブ画像への適応強化
キー機能
InternVL 2.5シリーズは、強力なマルチモーダル理解・生成機能を備えています:
- 図形理解絵の内容を正確に解析し、推論することができる。
- クロスモーダル・アライメント視覚情報と言語情報を効果的に結びつける
- 複合推論多段階の推論を必要とするタスクが得意
- マルチサイズ対応小規模なアプリケーションから企業レベルの要件まで、さまざまなバージョンが用意されています。
技術的ブレークスルー
1.プログレッシブ拡大戦略
開発チームは興味深い現象を発見した。視覚コーダーのトレーニングに小さな言語モデル(例えば20B)を使用しても、結果として得られる視覚的特徴は大きな言語モデル(例えば72B)で直接理解できるのだ。この発見に基づき、彼らは段階的学習アプローチを考案した:
- 計算コストを削減するために、まず小さなモデルでビジュアル・コーダーをトレーニングする。
- その後、再トレーニングすることなく、より大きなモデルにシームレスに移行する。
- 最終的な結果は、リソースの大幅な節約と高いパフォーマンスです。
2.革新的なトレーニング・テクニック
- ランダムJPEG圧縮モデルの頑健性を高めるためのウェブ画質の差異のモデル化
- 損失の重み付け長答と短答の勾配バイアスをバランスさせ、トレーニング効果を高める
3.データ最適化プログラム
- インテリジェント・フィルトレーションLLMスコアとルールベースのフィルタリングの組み合わせによる異常サンプルの削減
- データパッケージGPUの利用率を向上させ、トレーニングプロセスを加速させる
こんな方におすすめ
InternVL 2.5シリーズが適している:
- AI研究者:マルチモーダルモデリングの最前線を探りたい
- 開発者:視覚的-言語的相互作用アプリケーションを構築する必要性
- ビジネスユーザー:商用利用可能なオープンソースのビッグモデル・ソリューションを探している
- テクノファン:最新のAIに関心のある学習者
MPO最適化バージョン
InternVL2.5-MPOシリーズは、ハイブリッドプリファレンス最適化技術により、オリジナルより平均2ポイントの性能向上を実現。その中核となる技術革新は以下の通り:
- マルチモーダル嗜好データセット(MMPR)約300万個の高品質サンプル
- 混合プリファレンス最適化アルゴリズム (MPO)相対的嗜好と絶対的品質を同時に学ぶ
モデルの選択
InternVL 2.5は、軽量モデルから超大型モデルまで、幅広いモデルサイズを提供しています:
| モデルサイズ | 視覚コンポーネント | 言語コンポーネント | 適用シナリオ |
|---|---|---|---|
| 1B-8B | インターンViT-300M | 小規模LLM | モバイル/エッジ・コンピューティング |
| 26B-78B | インターンViT-6B | 大規模LLM | エンタープライズ・アプリケーション |
Hugging FaceとModelScopeのダウンロードリンクが各モデルに用意されており、簡単にアクセスできる。
概要
InternVL 2.5シリーズは、オープンソースのマルチモーダル・マクロモデリングの最新の進歩を代表するもので、革新的なトレーニング戦略とシステムの最適化により、性能と効率の優れたバランスを実現しています。研究用途と商業用途の両方に、非常に競争力のあるオプションを提供します。最も重要なことは、オープンソースプロジェクトとして、AIの民主化を促進することに大きく貢献することです。
公式リソース::
笑い草
オープンソースのマルチモーダル大規模モデル、InternVL 2.5、マルチモーダルAI、視覚言語モデル、MLLM、人工知能、モデル学習戦略、オープンソースAIツール