
ObjectMover는 CVPR 2025에 발표된 연구로 홍콩 대학교와 Adobe Research가 공동으로 제안했습니다. 이 연구의 핵심 목표는 오브젝트의 일관성을 유지하면서 조명 조정, 시점 조정, 가려진 영역 채우기, 그림자 및 반사 동기화 등 이미지에서 오브젝트 이동의 복잡한 과제를 해결하는 것입니다. 기존의 방법으로는 이러한 통합 문제를 해결하기 어렵기 때문에 연구팀은 비디오 생성 모델에 대한 선험적 지식을 활용하여 시퀀스 간 모델링을 통해 물체 움직임의 사실감을 생성할 것을 제안합니다.
핵심 혁신 포인트
- 비디오 선험적 마이그레이션
오브젝트 이동을 두 프레임 비디오의 특수한 경우로 간주하여 프레임 간 일관성을 위해 사전 학습된 비디오 생성 모델(예: 확산 모델)의 학습 능력을 활용합니다. 모델을 미세 조정하여 비디오 생성 작업에서 이미지 편집 작업으로 마이그레이션합니다. - 시퀀스 간 모델링
물체 이동 작업은 시퀀스 예측 문제로 재구성되며, 입력은 원본 이미지, 목표 물체 이미지, 명령 맵(이동 위치와 방향이 표시된 라벨)을 포함하며 출력은 이동 후 물체의 합성 이미지입니다. - 합성 데이터 세트 구축
대규모 오브젝트 움직임을 위한 실제 데이터의 부족을 해결하기 위해 최신 게임 엔진(예: 언리얼 엔진)을 사용하여 복잡한 라이팅, 텍스처 및 오클루전 시나리오를 포함하는 고품질 합성 데이터 쌍을 생성하여 모델 훈련의 다양성을 향상시킵니다. - 멀티태스킹 학습 전략
객체 이동, 제거, 삽입, 영상 데이터 삽입의 네 가지 하위 작업을 결합하여 통합 프레임워크를 통해 합성 데이터와 실제 영상 데이터로 모델을 학습시켜 실제 장면에 대한 모델의 일반화 능력을 향상시킵니다.
방법론적 프레임워크
- 모델 아키텍처
- 주요 임무(모바일)입력 이미지, 객체 이미지, 명령 맵, 확산 트랜스포머, 융합 시간 단계, 위치, 작업 임베딩을 통한 목표 프레임 생성.
- 하위 작업(제거/삽입)기본 작업과 유사하게 특정 편집 목표를 달성하기 위해 입력 조건을 조정합니다.
- 비디오 데이터 삽입프레임 간 일관성을 보장하기 위해 비디오 시퀀스까지 확장합니다.
- 기술 세부 정보
- 가우시안 노이즈 섭동 및 확산 모델은 단계적 노이즈 제거에 사용되어 충실도 높은 이미지를 생성합니다.
- 멀티태스크 학습을 통해 다양한 편집 작업에 맞게 모델 적응을 최적화합니다.
실험 및 결과
- 합성 데이터 유효성 검사자체 제작한 게임 엔진 데이터세트에서 익스트림 라이팅, 머티리얼, 오클루전을 처리하는 모델의 기능을 검증합니다.
- 실제 장면 일반화멀티태스크 학습을 통해 이 모델은 가려진 영역을 정확하게 보완하고 그림자 효과를 동기화하는 등 실제 이미지 편집에서 견고함을 보여줍니다.
- 절제 실험비디오 사전, 합성 데이터 및 멀티태스크 학습의 필요성을 검증하고 각 구성 요소의 성능 향상을 시연합니다.
적용된 값
ObjectMover는 영화 및 텔레비전 포스트 프로덕션, 가상 현실, 광고 디자인 등에서 효율적이고 사실적인 객체 위치 조정을 위해 널리 사용될 수 있는 이미지 편집을 위한 획기적인 솔루션을 제공합니다. 비디오 모델 기반 전이 학습 전략은 다른 이미지 생성 작업(예: 복원, 스타일화)을 해결하기 위한 새로운 아이디어를 제공합니다.
연구팀 및 오픈 소스
- 작성자신 유(홍콩 대학교), 티안유 왕(Adobe Research), 기타.
- 오픈 소스 프로그램이 웹페이지에는 코드가 오픈 소스임을 명시적으로 언급하지는 않지만, 향후 GitHub 또는 다른 플랫폼을 통해 공개될 수 있는 논문(추가 예정)에 대한 링크가 제공됩니다.
요약ObjectMover는 비디오 사전 및 시퀀스 모델링의 결합을 통해 이미지에서 물체의 움직임이라는 복잡한 문제를 성공적으로 해결하여 제너레이티브 이미지 편집의 새로운 벤치마크를 설정합니다. 데이터 합성 및 멀티태스크 학습에 대한 혁신적인 접근 방식의 돌파구는 컴퓨터 비전 분야에서 중요한 참조 가치가 있습니다.
- ¥무료 다운로드새로 고침 후 댓글 달기 및 다운로드로그인 후 다운로드