게임으로 측정하는 AI 지능: 새로운 표준 GameWorld
- •GameWorld 벤치마크는 34개의 브라우저 게임과 170개의 고유 과제를 통해 Multimodal Large Language Model을 평가한다.
- •이 프레임워크는 직접적인 키보드·마우스 제어와 의미론적 행동 파싱이라는 두 가지 제어 방식을 모두 지원한다.
- •연구 결과, 현재 최고 성능의 모델들도 게임 환경에서 인간 수준의 숙련도를 달성하는 데 큰 어려움을 겪는 것으로 나타났다.
현실 세계에서 AI 에이전트를 개발하는 과정은 종종 되돌릴 수 없는 결과라는 난관에 부딪힌다. 이를 해결하기 위해 연구자들은 AI가 실수를 통해 배우고 실험할 수 있는 안전한 환경인 비디오 게임을 샌드박스로 주목하고 있다. 새롭게 도입된 GameWorld 벤치마크는 이러한 AI 플레이어의 성능을 측정하는 공통된 기준을 제시하며, 복잡하고 시각적인 환경에서 어떤 모델이 실질적으로 지능을 발휘하는지 평가한다.
GameWorld의 핵심은 Multimodal Large Language Model을 테스트하는 것이다. 이는 텍스트 처리를 넘어 인간처럼 화면을 보고 시각적 데이터를 해석하는 AI 시스템을 의미한다. 연구진은 34개의 브라우저 게임과 170개의 세부 과제를 구성하여 AI 모델이 장기 전략을 계획하고 시각 정보를 인식하며 정확한 동작을 실행하는 능력을 종합적으로 평가한다.
이 벤치마크의 차별점은 AI의 조작 방식을 표준화했다는 점에 있다. 첫 번째 방식은 인간처럼 키보드와 마우스 입력을 직접 제어하는 것이며, 두 번째는 AI의 추론을 검증된 명령어로 변환하는 의미론적 행동 공간을 활용한다. 이러한 이중 접근법을 통해 연구자들은 모델의 시각 인식 문제인지, 아니면 인터페이스 제어 능력의 문제인지 명확히 파악할 수 있다.
가장 뼈아픈 시사점은 현재 AI 성능의 한계다. 가장 정교한 모델조차 다양한 게임 시나리오에서 인간 수준의 플레이를 일관되게 보여주지 못하고 있다. AI 에이전트들은 단순한 과제는 잘 수행하지만 메모리 관리나 갑작스러운 시각적 변화에 대응하는 등 실시간 게임의 복잡성 앞에서는 여전히 큰 한계를 드러낸다.
결국 GameWorld는 단순한 점수판을 넘어 재현 가능한 과학적 평가 체계를 구축했다는 점에서 의의가 크다. 검증 가능한 지표를 설정함으로써 AI 커뮤니티가 발전 과정을 체계적으로 추적할 수 있는 기반을 마련한 것이다. 자율 에이전트의 발전을 지켜보는 대학생들에게 이 프로젝트는 단순한 데모를 넘어 기술을 실제 환경에 배치하기 위한 필수적인 과학적 검증의 시대를 보여주고 있다.