Falcon Perception: 시각 인지 기술의 새로운 도약
2026년 4월 7일 (화)
- •0.6B 파라미터의 소형 모델 Falcon Perception이 대형 모델을 앞서는 객체 분할 성능을 입증했다.
- •트랜스포머 기반의 'Chain-of-Perception' 구조를 도입하여 정밀하고 가변적인 결과물 생성이 가능하다.
- •진단용 벤치마크 PBench를 통해 공간 추론 및 OCR 기반 작업에서의 우수성을 객관적으로 증명했다.
인공지능 업계가 모델의 크기를 키우는 데 집중하는 가운데, 기술 혁신 연구소(Technology Innovation Institute)는 효율적인 설계로 이를 돌파하는 Falcon Perception을 공개했다. 0.6B 파라미터 규모의 이 모델은 컴퓨터 비전 분야에서 체급을 뛰어넘는 성능을 보여준다. 기존 방식이 시각 시스템과 언어 시스템을 별도로 연결하는 복잡한 파이프라인을 사용했다면, Falcon Perception은 초기부터 시각 및 언어 데이터를 하나의 엔진에서 동시에 처리하는 Early-fusion 방식을 택했다.
핵심 혁신은 'Chain-of-Perception'이라 불리는 구조에 있다. 이 모델은 복잡한 정보를 한꺼번에 처리하지 않고, 객체의 위치와 크기를 식별한 뒤 정밀한 마스크를 생성하는 순차적 논리를 따른다. 마치 그림을 그릴 때 밑그림을 먼저 그리고 세부 묘사를 더하는 과정과 유사하여, 복잡한 환경에서도 매우 정확한 인지 능력을 발휘한다.
연구진은 또한 인공지능의 특정 능력을 측정하기 위해 PBench라는 진단 도구를 도입했다. 이는 단순히 모델의 크기만 키우는 것이 아니라, 구조적이고 논리적인 추론 능력을 중시하는 업계의 변화를 보여준다. 자율주행 로봇이나 문서 디지털화 등 다양한 분야에서, Falcon Perception은 효율적인 전문 아키텍처가 거대 모델의 격차를 얼마나 빠르게 좁히고 있는지 증명하고 있다.