InternVL 2.5: 画像、ビデオ、テキスト、音声、3D、医療用マルチモダリティのサポート

簡単

InternVL 2.5は、OpenGVLabチームによって立ち上げられた新世代のMLLM(Multimodal Large Language Model)シリーズです。 InternVL 2.0のアップグレード版として、オリジナルのアーキテクチャを維持しながら、革新的な学習ストラテジーとデータ処理方法によって大幅な性能向上を達成しています。このオープンソースモデルは、多くのベンチマークテストにおいて優れた性能を発揮し、GPT-4oやClaude-3.5-Sonnetのような商用モデルと競合することさえあります。

InternVL 2.5: 画像、ビデオ、テキスト、音声、3D、医療用マルチモダリティのサポート
InternVL 2.5:画像、ビデオ、テキスト、音声、3D、医療用マルチモダリティのサポート 1

コア・ハイライト

  1. ブレイクスルー・パフォーマンスMMMUベンチマークで70%を超える初のオープンソースMLLM
  2. 柔軟なアーキテクチャ1Bから78Bまで、さまざまなサイズのモデルを用意。
  3. 革新的なトレーニング戦略インクリメンタル・スケーリング・アプローチによるトレーニング・コストの大幅削減
  4. リアルシーンの最適化特殊技術によるウェブ画像への適応強化

キー機能

InternVL 2.5シリーズは、強力なマルチモーダル理解・生成機能を備えています:

  • 図形理解絵の内容を正確に解析し、推論することができる。
  • クロスモーダル・アライメント視覚情報と言語情報を効果的に結びつける
  • 複合推論多段階の推論を必要とするタスクが得意
  • マルチサイズ対応小規模なアプリケーションから企業レベルの要件まで、さまざまなバージョンが用意されています。

技術的ブレークスルー

1.プログレッシブ拡大戦略

開発チームは興味深い現象を発見した。視覚コーダーのトレーニングに小さな言語モデル(例えば20B)を使用しても、結果として得られる視覚的特徴は大きな言語モデル(例えば72B)で直接理解できるのだ。この発見に基づき、彼らは段階的学習アプローチを考案した:

  1. 計算コストを削減するために、まず小さなモデルでビジュアル・コーダーをトレーニングする。
  2. その後、再トレーニングすることなく、より大きなモデルにシームレスに移行する。
  3. 最終的な結果は、リソースの大幅な節約と高いパフォーマンスです。

2.革新的なトレーニング・テクニック

  • ランダムJPEG圧縮モデルの頑健性を高めるためのウェブ画質の差異のモデル化
  • 損失の重み付け長答と短答の勾配バイアスをバランスさせ、トレーニング効果を高める

3.データ最適化プログラム

  • インテリジェント・フィルトレーションLLMスコアとルールベースのフィルタリングの組み合わせによる異常サンプルの削減
  • データパッケージGPUの利用率を向上させ、トレーニングプロセスを加速させる

こんな方におすすめ

InternVL 2.5シリーズが適している:

  • AI研究者:マルチモーダルモデリングの最前線を探りたい
  • 開発者:視覚的-言語的相互作用アプリケーションを構築する必要性
  • ビジネスユーザー:商用利用可能なオープンソースのビッグモデル・ソリューションを探している
  • テクノファン:最新のAIに関心のある学習者

MPO最適化バージョン

InternVL2.5-MPOシリーズは、ハイブリッドプリファレンス最適化技術により、オリジナルより平均2ポイントの性能向上を実現。その中核となる技術革新は以下の通り:

  1. マルチモーダル嗜好データセット(MMPR)約300万個の高品質サンプル
  2. 混合プリファレンス最適化アルゴリズム (MPO)相対的嗜好と絶対的品質を同時に学ぶ

モデルの選択

InternVL 2.5は、軽量モデルから超大型モデルまで、幅広いモデルサイズを提供しています:

モデルサイズ視覚コンポーネント言語コンポーネント適用シナリオ
1B-8BインターンViT-300M小規模LLMモバイル/エッジ・コンピューティング
26B-78BインターンViT-6B大規模LLMエンタープライズ・アプリケーション

Hugging FaceとModelScopeのダウンロードリンクが各モデルに用意されており、簡単にアクセスできる。

概要

InternVL 2.5シリーズは、オープンソースのマルチモーダル・マクロモデリングの最新の進歩を代表するもので、革新的なトレーニング戦略とシステムの最適化により、性能と効率の優れたバランスを実現しています。研究用途と商業用途の両方に、非常に競争力のあるオプションを提供します。最も重要なことは、オープンソースプロジェクトとして、AIの民主化を促進することに大きく貢献することです。

公式リソース::

笑い草

オープンソースのマルチモーダル大規模モデル、InternVL 2.5、マルチモーダルAI、視覚言語モデル、MLLM、人工知能、モデル学習戦略、オープンソースAIツール

📢 免責事項|ツール使用上の注意事項
1 本文の内容は公開されている既知の情報に基づいて整理したものです。AI技術及びツールは頻繁に更新されるため、公式の最新説明を基準としてください。
2 推奨ツールは基本的なスクリーニングを経ています。ただし、詳細なセキュリティ検証は実施されていません。ご自身で適用性とリスクを評価してください。
3 サードパーティのAIツールを使用する際は、データプライバシー保護に注意し、機密情報のアップロードを避けてください。
4 本ウェブサイトは、ツールの誤用、技術的な不具合、または内容の誤りによって生じた直接的/間接的な損失について一切の責任を負いません。
5 一部のツールは有料サブスクリプションを伴う場合があります。ご自身の判断でご利用ください。当サイトは一切の投資アドバイスを含みません。
0 返信 A文章作者 M管理员
    ディスカッションはまだありません。 ご意見をお聞かせください。
❯❯❯❯❯❯❯❯❯❯❯❯❯❯❯
パーソナルセンター
カート
クーポン
今日でサインインしました
新しいプライベートメッセージがある。 プライベートメッセージリスト
検索