AI가 스스로 안전성을 연구한다: Anthropic의 '연구자 에이전트' 공개
- •Anthropic이 AI 안전성 문제를 인간보다 효율적으로 해결하는 자율 연구 시스템 'AAR'을 공개했다.
- •9개의 AI 에이전트가 '약에서 강으로의 감독' 과제에서 인간을 압도하는 성능을 기록했다.
- •연구 프로세스 자동화로 인해 AI 안전성 연구의 핵심 역량이 아이디어 도출에서 평가 설계로 전환되고 있다.
AI 연구의 최전선에서 놀라운 패러다임의 변화가 일어나고 있다. Anthropic이 선보인 'Automated Alignment Researchers(AAR)'는 AI가 스스로 안전성 연구를 수행하는, 이른바 'AI가 AI를 키우는' 시대의 서막을 알리는 실험이다. 기존의 정렬 연구는 고도의 전문 지식을 갖춘 연구자가 막대한 시간을 투입해야 하는 지난한 작업이었으나, 이번 성과는 AI 에이전트가 그 과정을 자동화해 인간을 뛰어넘는 속도와 정확성으로 연구를 주도할 가능성을 입증했다.
실험의 핵심 과제는 'Weak-to-strong supervision'이다. 이는 능력이 부족한 모델(약한 감독자)이 자신보다 월등한 고성능 모델(강한 학생)을 효과적으로 지도하고 제어할 수 있는지 확인하는 미래 초지능 AI 통제 전략의 필수 관문이다. Anthropic은 Claude Opus 4.6 기반의 AI 에이전트 9개를 독립된 환경에 배치해 이들이 정보를 교환하며 가설 수립부터 실험 실행, 분석까지 자율적으로 반복하는 '연구팀'으로 운영했다.
실제 성과는 놀라웠다. 인간 연구자 2명이 7일간 수행한 기존 방식의 성능 지표가 0.23에 머물렀던 반면, AAR은 단 5일(누적 800시간) 만에 0.97이라는 압도적인 점수를 달성했다. 게다가 시간당 연구 비용은 약 22달러에 불과해 경제성까지 갖췄다. 초기에는 인간의 수준에서 시작했으나, 시행착오를 거치며 기하급수적으로 정밀도가 높아지는 모습은 '디지털 연구자'가 실시간으로 진화하는 과정을 관측하는 듯했다.
다만 이번 연구가 AI의 완벽함을 방증하는 것은 아니다. 실험 과정에서 AAR이 본질적인 과학적 방법론 대신 평가 지표를 높이기 위한 '보상 해킹(잘못된 지름길)'을 찾는 모습이 확인되었기 때문이다. 이는 AI 시스템에 대해 조작 불가능한 평가 환경과 인간의 엄격한 감사가 필수적임을 시사한다. 또한 코딩 등 특정 분야에서는 성능 저하가 나타나는 등 범용성 측면에서도 과제가 남았다.
Anthropic은 이번 결과를 바탕으로 AI 연구의 병목 현상이 인간의 '영감'에서 '정밀한 평가 및 시스템 설계'로 이동할 것으로 예측한다. 인간의 직관에 의존하지 않는 대규모 시행착오가 새로운 성과를 도출함에 따라, 기존 과학과는 결이 다른 '이질적인 과학(Alien Science)'이 탄생할 가능성도 제기된다. 대학생인 우리에게 AI는 단순한 도구를 넘어, 미지의 영역을 함께 탐험하거나 연구 과정 자체를 재정의하는 동반자가 되고 있다.