SAE, 무작위 모델과 성능 차이 거의 없다?
- •희소 오토인코더(SAE)는 높은 재구성 성능에도 불구하고, 실제 그라운드 트루스(정답) 피처를 복원하는 비율이 9%에 불과했다.
- •무작위로 초기화된 기준 모델들이 표준 해석 가능성 및 인과적 편집 벤치마크에서 학습된 SAE와 대등한 성능을 보였다.
- •연구진은 현재의 평가 지표가 학습된 피처와 무작위 고차원 노이즈를 제대로 구분하지 못한다고 경고했다.
희소 오토인코더(SAE)는 그동안 신경망 활성화의 블랙박스를 여는 '만능 열쇠'로 여겨져 왔다. 복잡한 내부 상태를 사람이 읽을 수 있는 피처로 분해함으로써, 투명하고 제어 가능한 AI의 미래를 약속했기 때문이다. 하지만 알렉세이 돈초프(Alexey Dontsov, 연구원) 등이 참여한 이번 연구는 이러한 모델들이 정교한 패턴 매칭을 수행하는 것에 불과할 수 있다는 도발적인 의문을 제기했다. 실제로 SAE는 높은 재구성 점수를 자랑함에도 불구하고, 실제 기저 패턴인 그라운드 트루스(정답) 데이터를 복원하는 데는 단 9%의 성공률만을 보였다.
가장 놀라운 사실은 '동결된(frozen)' 기준 모델을 사용했을 때 드러났다. 이는 주요 구성 요소를 무작위로 초기화한 뒤 전혀 학습시키지 않은 모델이다. 놀랍게도 이러한 무작위 모델은 인과적 편집(출력을 바꾸기 위해 내부 상태를 직접 수정하는 작업)이나 희소 프로빙 같은 지표에서 완전히 학습된 SAE와 거의 차이가 없는 성능을 나타냈다. 이는 현재 AI의 해석 가능성을 측정하는 표준 지표들에 근본적인 결함이 있음을 시사한다. 즉, 해당 지표들이 모델이 개념을 진정으로 '학습'한 것인지, 아니면 대규모 모델 고유의 기하학적 특성을 이용하는 것인지 구분하지 못한다는 의미다.
이번 '함정 조사(sanity check)' 결과는 기계론적 해석 가능성 연구 커뮤니티에 중요한 경종을 울리고 있다. 만약 AI를 이해하기 위한 도구 자체에 오해가 있다면, AI 안전성을 확보하는 길은 여전히 불투명할 수밖에 없다. 이에 따라 연구진은 SAE가 실제 내부 메커니즘을 식별하고 있는지 증명할 수 있는 더욱 엄격한 벤치마크를 도입해야 한다고 강조했다. 단순히 수학적 지름길을 통해 높은 재구성 정확도만 달성하는 것이 아니라, 실제적인 이해를 바탕으로 한 모델 검증이 시급하다는 지적이다.