개요
InternVL 2.5는 OpenGVLab 팀에서 출시한 차세대 MLLM(Multimodal Large Language Model) 시리즈입니다. InternVL 2.0의 업그레이드 버전으로, 기존 아키텍처를 유지하면서 혁신적인 학습 전략과 데이터 처리 방법을 통해 상당한 성능 향상을 달성했습니다. 이 오픈 소스 모델은 여러 벤치마크 테스트에서 우수한 성능을 보였으며, GPT-4o 및 Claude-3.5-Sonnet과 같은 상용 모델과도 경쟁할 수 있습니다.

핵심 하이라이트
- 획기적인 성능MMMU 벤치마크에서 70% 이상의 점수를 획득한 최초의 오픈소스 MLLM
- 유연한 아키텍처1B부터 78B까지 다양한 사이즈의 모델을 제공합니다.
- 혁신적인 교육 전략점진적 확장 방식을 사용하여 교육 비용 대폭 절감
- 실제 장면 최적화특수 기술을 통해 웹 이미지에 대한 적응력 향상
주요 기능
InternVL 2.5 시리즈는 강력한 멀티 모달 이해 및 생성 기능을 갖추고 있습니다:
- 그래픽 이해사진의 내용을 정확하게 파싱하고 추론할 수 있습니다.
- 크로스 모달 정렬시각적 정보와 언어적 정보를 효과적으로 연결하기
- 복잡한 추론다단계 추론이 필요한 작업에 탁월함
- 멀티 사이즈 적응소규모 애플리케이션부터 엔터프라이즈급 요구 사항까지 다양한 버전이 제공됩니다.
기술 혁신
1. 점진적 확장 전략
개발팀은 시각 코더를 훈련하는 데 더 작은 언어 모델(예: 20B)을 사용하더라도 그 결과 시각적 특징을 더 큰 언어 모델(예: 72B)로 직접 이해할 수 있다는 흥미로운 현상을 발견했습니다. 이 발견을 바탕으로 연구팀은 단계적 훈련 접근 방식을 설계했습니다:
- 계산 비용을 줄이기 위해 먼저 작은 모델로 비주얼 코더를 훈련시킵니다.
- 그런 다음 재교육 없이 더 큰 모델로 원활하게 마이그레이션할 수 있습니다.
- 결과적으로 리소스를 크게 절약하면서 고성능을 구현할 수 있습니다.
2. 혁신적인 교육 기술
- 무작위 JPEG 압축웹 이미지 품질 차이 모델링을 통한 모델 견고성 향상
- 손실 가중치장답과 단답의 기울기 편향성을 균형 있게 조정하여 교육 효과 향상
3. 데이터 최적화 프로그램
- 지능형 필터링비정상적인 샘플을 줄이기 위해 규칙 기반 필터링과 결합된 LLM 점수 사용
- 데이터 패키징GPU 활용도 향상 및 훈련 프로세스 가속화
사람에게 적합
InternVL 2.5 시리즈가 적합합니다:
- AI 연구자: 멀티모달 모델링의 최전선을 탐험하고 싶으신가요?
- 개발자: 시각적-언어적 상호 작용 애플리케이션 구축 필요
- 비즈니스 사용자: 상용 오픈 소스 빅 모델 솔루션 찾기
- 테크노필: 최신 AI 발전에 관심이 있는 학습자
MPO 최적화 버전
InternVL2.5-MPO 시리즈는 하이브리드 환경 설정 최적화 기술을 통해 기존 제품 대비 평균 2%의 성능 향상을 제공합니다. 핵심 혁신은 다음과 같습니다:
- 멀티모달 선호도 데이터세트(MMPR)약 3백만 개의 고품질 샘플
- 혼합 선호도 최적화 알고리즘(MPO)상대적 선호도와 절대적 품질에 대해 동시에 학습하기
모델 선택
InternVL 2.5는 경량부터 초대형까지 다양한 모델 크기를 제공합니다:
| 모델 크기 | 시각적 구성 요소 | 언어 구성 요소 | 적용 가능한 시나리오 |
|---|---|---|---|
| 1B-8B | InternViT-300M | 소규모 LLM | 모바일/엣지 컴퓨팅 |
| 26B-78B | InternViT-6B | 대규모 LLM | 엔터프라이즈 애플리케이션 |
각 모델마다 Hugging Face 및 ModelScope 다운로드 링크가 제공되므로 쉽게 액세스할 수 있습니다.
요약
InternVL 2.5 시리즈는 혁신적인 트레이닝 전략과 시스템 최적화를 통해 성능과 효율성 사이에서 탁월한 균형을 이루는 오픈 소스 멀티모달 매크로 모델링의 최신 발전을 대표합니다. 연구 및 상업용 애플리케이션 모두에 매우 경쟁력 있는 옵션을 제공합니다. 무엇보다도 오픈 소스 프로젝트로서 AI의 민주화를 촉진하는 데 크게 기여하고 있습니다.
공식 리소스::
바이워드
오픈 소스 멀티모달 대형 모델, InternVL 2.5, 멀티모달 AI, 시각 언어 모델, MLLM, 인공 지능, 모델 훈련 전략, 오픈 소스 AI 도구