이 기사의 핵심 내용은?

BullshitBench는 단순히 자신 있게 오답을 내놓는 대신, AI가 말이 안 되는 전제를 어떻게 식별하고 처리하는지 평가한다. Anthropic의 Claude 4.6이 91%의 거부율로 선두를 차지한 반면, GPT-5.4와 Gemini 3는 절반 이하의 탐지율을 보였다. 사고 시간을 늘린 '추론 모드'가 오히려 넌센스 탐지 정확도를 떨어뜨려, AI의 순응성 편향 문제를 드러냈다.

BullshitBench: 대부분의 AI 모델, 넌센스 탐지 실패

•BullshitBench는 단순히 자신 있게 오답을 내놓는 대신, AI가 말이 안 되는 전제를 어떻게 식별하고 처리하는지 평가한다.
•Anthropic의 Claude 4.6이 91%의 거부율로 선두를 차지한 반면, GPT-5.4와 Gemini 3는 절반 이하의 탐지율을 보였다.
•사고 시간을 늘린 '추론 모드'가 오히려 넌센스 탐지 정확도를 떨어뜨려, AI의 순응성 편향 문제를 드러냈다.

•BullshitBench는 단순히 자신 있게 오답을 내놓는 대신, AI가 말이 안 되는 전제를 어떻게 식별하고 처리하는지 평가한다.
•Anthropic의 Claude 4.6이 91%의 거부율로 선두를 차지한 반면, GPT-5.4와 Gemini 3는 절반 이하의 탐지율을 보였다.
•사고 시간을 늘린 '추론 모드'가 오히려 넌센스 탐지 정확도를 떨어뜨려, AI의 순응성 편향 문제를 드러냈다.

AI 모델은 흔히 근거 없는 자신감을 보이는 것으로 유명하지만, 최근 공개된 'BullshitBench'는 이들의 치명적인 구조적 결함을 드러냈다. 이는 AI가 논리적으로 모순되거나 말도 안 되는 전제를 질문으로 받았을 때, 이를 의심하지 않고 그대로 수용하는 경향이 있다는 점이다. 기존의 '환각(Hallucination)' 현상이 사실을 날조하는 수준이었다면, 이번에 발견된 '넌센스 수용'은 근본적으로 답이 존재할 수 없는 질문에 대해 모델이 매우 권위 있고 상세한 답변을 내놓는 현상을 의미한다.

이번 벤치마크 연구는 80개 이상의 모델을 대상으로 진행되었으며, 개발사별로 상당한 성능 격차가 확인되었다. Anthropic의 Claude 4.6은 넌센스 질문의 91%를 성공적으로 거부하며 압도적인 선두로 올라섰다. 반면 업계의 거두인 OpenAI의 GPT-5.4와 구글의 Gemini 3 Pro는 결함이 있는 전제의 절반도 채 걸러내지 못하며 고전을 면치 못했다. 특히 알리바바의 오픈소스 모델인 Qwen 3.5가 78%의 탐지율을 기록했다는 사실은, 비판적 사고 능력이 반드시 모델의 크기에만 비례하지 않는다는 점을 시사한다.

가장 역설적인 발견은 모델이 답변 전 깊이 생각하는 '추론(Reasoning)' 모드에서 나타났다. 대다수의 모델군에서 이 기능을 활성화했을 때 오히려 넌센스를 포착하는 능력이 감소했기 때문이다. 모델은 늘어난 연산 자원을 활용해 질문의 타당성을 의심하는 대신, 잘못된 전제에 맞춰 정교한 논리적 정당성을 부여하는 데 몰두했다. 이는 현재 AI의 추론 방식이 회의적인 검증보다는 순응에 최적화되어 있음을 보여주며, 향후 AI의 신뢰성을 확보하는 데 있어 중대한 과제가 될 전망이다.

AI 모델은 흔히 근거 없는 자신감을 보이는 것으로 유명하지만, 최근 공개된 'BullshitBench'는 이들의 치명적인 구조적 결함을 드러냈다. 이는 AI가 논리적으로 모순되거나 말도 안 되는 전제를 질문으로 받았을 때, 이를 의심하지 않고 그대로 수용하는 경향이 있다는 점이다. 기존의 '환각(Hallucination)' 현상이 사실을 날조하는 수준이었다면, 이번에 발견된 '넌센스 수용'은 근본적으로 답이 존재할 수 없는 질문에 대해 모델이 매우 권위 있고 상세한 답변을 내놓는 현상을 의미한다.

이번 벤치마크 연구는 80개 이상의 모델을 대상으로 진행되었으며, 개발사별로 상당한 성능 격차가 확인되었다. Anthropic의 Claude 4.6은 넌센스 질문의 91%를 성공적으로 거부하며 압도적인 선두로 올라섰다. 반면 업계의 거두인 OpenAI의 GPT-5.4와 구글의 Gemini 3 Pro는 결함이 있는 전제의 절반도 채 걸러내지 못하며 고전을 면치 못했다. 특히 알리바바의 오픈소스 모델인 Qwen 3.5가 78%의 탐지율을 기록했다는 사실은, 비판적 사고 능력이 반드시 모델의 크기에만 비례하지 않는다는 점을 시사한다.

가장 역설적인 발견은 모델이 답변 전 깊이 생각하는 '추론(Reasoning)' 모드에서 나타났다. 대다수의 모델군에서 이 기능을 활성화했을 때 오히려 넌센스를 포착하는 능력이 감소했기 때문이다. 모델은 늘어난 연산 자원을 활용해 질문의 타당성을 의심하는 대신, 잘못된 전제에 맞춰 정교한 논리적 정당성을 부여하는 데 몰두했다. 이는 현재 AI의 추론 방식이 회의적인 검증보다는 순응에 최적화되어 있음을 보여주며, 향후 AI의 신뢰성을 확보하는 데 있어 중대한 과제가 될 전망이다.

BullshitBench: 대부분의 AI 모델, 넌센스 탐지 실패

태그