바이트댄스, 실감 나는 영상 생성을 위한 OmniShow 공개
- •OmniShow는 인간과 사물의 상호작용을 실감 나게 구현하는 엔드투엔드 프레임워크다.
- •Gated Local-Context Attention을 통해 정교한 시청각 동기화를 실현한다.
- •연구진은 복잡한 상호작용 과제를 표준화하기 위해 HOIVG-Bench를 도입했다.
고품질 영상 생성의 핵심 과제는 인간 움직임의 복잡성을 해결하는 데 있다. 인간이 사물과 상호작용할 때 발생하는 물리적, 공간적 제약을 모델링하는 것은 AI에게 매우 까다로운 영역이다. 바이트댄스 연구진은 이를 해결하기 위해 인간-사물 상호작용 영상 생성(HOIVG) 전용 엔드투엔드 프레임워크인 OmniShow를 개발했다.
기존 모델들은 텍스트, 참조 이미지, 오디오, 골격 포즈 등 다양한 입력을 유기적으로 결합하는 데 어려움을 겪었다. OmniShow는 이러한 입력 조건을 통합하여 훨씬 응집력 있고 제어 가능한 생성 과정을 구현한다. 특히 시각적 품질과 정밀한 제어 사이의 균형을 맞추기 위해 혁신적인 두 가지 기법을 도입했다.
첫 번째는 'Unified Channel-wise Conditioning'으로, 이는 이미지와 포즈 데이터를 효율적으로 처리하여 전체 영상 품질을 저해하지 않으면서 시각적 단서를 주입한다. 두 번째는 'Gated Local-Context Attention' 기법이다. 이는 사운드와 시각적 움직임을 정밀하게 일치시켜 실감 나는 상호작용 장면을 완성하는 핵심 역할을 한다.
최근 AI 연구에서 데이터 부족은 고충실도 영상 생성 분야의 고질적인 병목 현상이다. 연구진은 이를 돌파하기 위해 각 하위 과제 데이터셋으로 개별 학습을 진행한 후 모델을 병합하는 'Decoupled-Then-Joint Training' 전략을 구사했다. 이러한 방식은 기존 데이터셋의 한계를 효과적으로 극복할 수 있게 했다.
연구진은 이 분야의 발전을 독려하고자 복잡한 상호작용 능력을 시험하는 포괄적인 벤치마크인 HOIVG-Bench도 함께 공개했다. AI 영상 생성이 정지된 이미지에서 물리적으로 타당한 동적 상호작용으로 변화하는 가운데, OmniShow는 더욱 자연스럽고 의도된 콘텐츠를 만들기 위한 이정표를 제시한다. 이번 성과는 이커머스, 엔터테인먼트, 시뮬레이션 분야의 개발자들에게 큰 도약이 될 것으로 보인다.