InternVL 2.5: 이미지, 비디오, 텍스트, 음성, 3D, 의료용 멀티모달리티 지원

개요

InternVL 2.5는 OpenGVLab 팀에서 출시한 차세대 MLLM(Multimodal Large Language Model) 시리즈입니다. InternVL 2.0의 업그레이드 버전으로, 기존 아키텍처를 유지하면서 혁신적인 학습 전략과 데이터 처리 방법을 통해 상당한 성능 향상을 달성했습니다. 이 오픈 소스 모델은 여러 벤치마크 테스트에서 우수한 성능을 보였으며, GPT-4o 및 Claude-3.5-Sonnet과 같은 상용 모델과도 경쟁할 수 있습니다.

InternVL 2.5: 이미지, 비디오, 텍스트, 음성, 3D, 의료용 멀티모달리티 지원
InternVL 2.5: 이미지, 비디오, 텍스트, 음성, 3D, 의료용 멀티모달리티 지원 1

핵심 하이라이트

  1. 획기적인 성능MMMU 벤치마크에서 70% 이상의 점수를 획득한 최초의 오픈소스 MLLM
  2. 유연한 아키텍처1B부터 78B까지 다양한 사이즈의 모델을 제공합니다.
  3. 혁신적인 교육 전략점진적 확장 방식을 사용하여 교육 비용 대폭 절감
  4. 실제 장면 최적화특수 기술을 통해 웹 이미지에 대한 적응력 향상

주요 기능

InternVL 2.5 시리즈는 강력한 멀티 모달 이해 및 생성 기능을 갖추고 있습니다:

  • 그래픽 이해사진의 내용을 정확하게 파싱하고 추론할 수 있습니다.
  • 크로스 모달 정렬시각적 정보와 언어적 정보를 효과적으로 연결하기
  • 복잡한 추론다단계 추론이 필요한 작업에 탁월함
  • 멀티 사이즈 적응소규모 애플리케이션부터 엔터프라이즈급 요구 사항까지 다양한 버전이 제공됩니다.

기술 혁신

1. 점진적 확장 전략

개발팀은 시각 코더를 훈련하는 데 더 작은 언어 모델(예: 20B)을 사용하더라도 그 결과 시각적 특징을 더 큰 언어 모델(예: 72B)로 직접 이해할 수 있다는 흥미로운 현상을 발견했습니다. 이 발견을 바탕으로 연구팀은 단계적 훈련 접근 방식을 설계했습니다:

  1. 계산 비용을 줄이기 위해 먼저 작은 모델로 비주얼 코더를 훈련시킵니다.
  2. 그런 다음 재교육 없이 더 큰 모델로 원활하게 마이그레이션할 수 있습니다.
  3. 결과적으로 리소스를 크게 절약하면서 고성능을 구현할 수 있습니다.

2. 혁신적인 교육 기술

  • 무작위 JPEG 압축웹 이미지 품질 차이 모델링을 통한 모델 견고성 향상
  • 손실 가중치장답과 단답의 기울기 편향성을 균형 있게 조정하여 교육 효과 향상

3. 데이터 최적화 프로그램

  • 지능형 필터링비정상적인 샘플을 줄이기 위해 규칙 기반 필터링과 결합된 LLM 점수 사용
  • 데이터 패키징GPU 활용도 향상 및 훈련 프로세스 가속화

사람에게 적합

InternVL 2.5 시리즈가 적합합니다:

  • AI 연구자: 멀티모달 모델링의 최전선을 탐험하고 싶으신가요?
  • 개발자: 시각적-언어적 상호 작용 애플리케이션 구축 필요
  • 비즈니스 사용자: 상용 오픈 소스 빅 모델 솔루션 찾기
  • 테크노필: 최신 AI 발전에 관심이 있는 학습자

MPO 최적화 버전

InternVL2.5-MPO 시리즈는 하이브리드 환경 설정 최적화 기술을 통해 기존 제품 대비 평균 2%의 성능 향상을 제공합니다. 핵심 혁신은 다음과 같습니다:

  1. 멀티모달 선호도 데이터세트(MMPR)약 3백만 개의 고품질 샘플
  2. 혼합 선호도 최적화 알고리즘(MPO)상대적 선호도와 절대적 품질에 대해 동시에 학습하기

모델 선택

InternVL 2.5는 경량부터 초대형까지 다양한 모델 크기를 제공합니다:

모델 크기시각적 구성 요소언어 구성 요소적용 가능한 시나리오
1B-8BInternViT-300M소규모 LLM모바일/엣지 컴퓨팅
26B-78BInternViT-6B대규모 LLM엔터프라이즈 애플리케이션

각 모델마다 Hugging Face 및 ModelScope 다운로드 링크가 제공되므로 쉽게 액세스할 수 있습니다.

요약

InternVL 2.5 시리즈는 혁신적인 트레이닝 전략과 시스템 최적화를 통해 성능과 효율성 사이에서 탁월한 균형을 이루는 오픈 소스 멀티모달 매크로 모델링의 최신 발전을 대표합니다. 연구 및 상업용 애플리케이션 모두에 매우 경쟁력 있는 옵션을 제공합니다. 무엇보다도 오픈 소스 프로젝트로서 AI의 민주화를 촉진하는 데 크게 기여하고 있습니다.

공식 리소스::

바이워드

오픈 소스 멀티모달 대형 모델, InternVL 2.5, 멀티모달 AI, 시각 언어 모델, MLLM, 인공 지능, 모델 훈련 전략, 오픈 소스 AI 도구

📢 면책 조항 | 도구 사용 알림
1 본문 내용은 공개된 정보를 바탕으로 정리한 것으로, AI 기술 및 도구는 자주 업데이트되므로 공식 최신 설명을 기준으로 삼아 주십시오.
2 추천 도구는 기본적인 선별을 거쳤으나 심층적인 보안 검증을 수행하지 않았으므로, 사용 적합성과 위험성을 직접 평가하시기 바랍니다.
3 제3자 AI 도구를 사용할 때는 데이터 개인정보 보호에 유의하고, 민감한 정보를 업로드하지 않도록 주의하십시오.
4 본 웹사이트는 도구 오용, 기술적 결함 또는 콘텐츠 편차로 인한 직접적/간접적 손실에 대해 책임을 지지 않습니다.
5 일부 도구는 유료 구독이 필요할 수 있으니 신중하게 결정하시기 바랍니다. 본 사이트는 어떠한 투자 조언도 포함하지 않습니다.
0 댓글 A文章作者 M관리자
    당신의 의견을 말해 주세요.
❯❯❯❯❯❯❯❯❯❯❯❯❯❯❯
내 페이지
장바구니
할인쿠폰
오늘출석
새 메시지 메시지
검색