앤트그룹, 모바일·웹 자동화 돕는 'UI-Venus-1.5' 공개
- •앤트그룹이 모바일과 웹 자동화를 통합 지원하는 GUI 에이전트 'UI-Venus-1.5'를 출시했다.
- •2B 및 8B 밀집 모델과 효율성을 극대화한 30B 혼합 전문가 모델(MoE) 버전으로 구성되었다.
- •모델 병합 기술을 통해 AndroidWorld 등 주요 벤치마크에서 세계 최고 수준의 성능을 기록했다.
앤트그룹(Ant Group)이 인간처럼 디지털 인터페이스를 탐색하고 조작할 수 있는 고도화된 에이전틱 AI 시스템 'UI-Venus-1.5'를 선보였다. 기존 모델들은 테스트 환경과 실제 일상 사용 환경 사이의 차이인 '리얼리티 갭'으로 인해 한계를 보였으나, 이 시스템은 모바일, 웹, 시각적 기반 작업을 단일 엔드투엔드 프레임워크 내에서 처리하는 통합적 접근 방식을 취한다. 이러한 구조적 통합 덕분에 비용이 많이 드는 멀티 에이전트 설정 없이도 더 빠르고 안정적인 디지털 비서 구현이 가능해졌다.
UI-Venus-1.5의 기술적 토대는 세 가지 핵심 요소로 구성된다. 우선 미드 트레이닝(Mid-Training) 단계에서 30개 데이터셋의 100억 개 토큰을 처리하여 모델에게 그래픽 의미와 아이콘 인식의 미세한 차이를 학습시켰다. 또한 연구진은 '전체 경로 롤아웃' 방식의 강화 학습을 적용했는데, 이는 AI가 복잡한 탐색을 수행하는 동안 자신의 모든 행동 순서로부터 스스로 배울 수 있게 한다. 마지막으로 모델 병합 기술을 활용해 웹과 모바일 등 서로 다른 환경에 특화된 전문 지식을 하나의 정교한 모델로 결합했다.
모델 제품군은 연산 성능을 아끼기 위해 네트워크의 특정 부분만 활성화하는 30B 규모의 혼합 전문가 모델(MoE)과 더불어, 2B 및 8B 크기의 밀집 모델을 함께 제공하여 범용성을 높였다. 실제로 AndroidWorld와 ScreenSpot-Pro 등 주요 벤치마크에서 기존 기록을 모두 갈아치우며 압도적인 성능을 입증했다. 특히 40개 이상의 주요 중국 애플리케이션을 지원함으로써 이론적 연구를 넘어 수백만 사용자의 실질적인 편의성을 높이는 가교 역할을 할 것으로 기대된다.