구글의 디지털 워터마킹 시스템, 보안 취약점 노출
- •독립 연구자, 구글 Gemini의 디지털 워터마킹 핵심 기술을 분리하는 데 성공
- •SynthID 탐지 메커니즘이 표적 신호 조작을 통해 우회 가능하다는 점이 입증됨
- •생성형 AI 모델의 콘텐츠 출처 검증 방식에 대한 심각한 보안 결함 발견
합성 미디어가 실제와 구분하기 어려워진 시대에 디지털 워터마킹은 콘텐츠의 신뢰성을 지키는 핵심 방어 기제로 자리 잡았다. 이 시스템은 AI가 생성한 결과물에 눈에 보이지 않는 내구성 있는 표식을 삽입하여, 사람이 만든 것과 기계가 만든 것을 구분하도록 돕는다. 최근 구글의 독자적인 워터마킹 솔루션인 SynthID에 대한 보안 연구는 이러한 예방적 조치가 예상보다 훨씬 취약할 수 있음을 시사한다.
이번 연구에 따르면 탐지 시스템의 보안성은 이전의 기대만큼 견고하지 않다. 연구진은 모델의 출력 패턴을 체계적으로 분석하는 방식을 통해, 눈에 보이지 않는 표식을 식별하는 내부 메커니즘을 역공학(Reverse Engineering)으로 파악했다. 이는 공격자가 모델이 주입하는 노이즈의 분포를 이해하고 있다면, 정교한 암호화 방식의 서명조차 무력화할 수 있음을 의미한다.
비전문가에게 이는 위조 지폐 탐지 시스템과 유사한 개념으로 이해될 수 있다. 진본 지폐의 홀로그램 반사 방식을 완벽히 파악하면 탐지기를 속이는 위조품을 만들 수 있는 것과 같은 원리다. 이 경우 '위조'란 AI가 생성한 이미지의 픽셀 패턴을 아주 미세하게 수정하여, 탐지 소프트웨어가 SynthID가 주입한 고유한 디지털 서명을 더 이상 인식하지 못하게 만드는 과정을 뜻한다. 이는 생성형 AI의 발전 속도와 탐지 도구 간의 기술적 경쟁이 여전히 진행 중임을 보여주는 사례다.
이번 발견은 대중의 신뢰와 플랫폼 거버넌스 측면에서 매우 중요한 의미를 갖는다. 구글과 같은 기업이 허위 정보 확산을 방지하기 위해 이러한 마커에 의존하고 있는 상황에서, 이를 우회하는 방법이 존재한다는 사실은 콘텐츠 라벨의 신뢰도를 저하시킨다. 만약 사용자가 'AI 생성' 태그를 신뢰할 수 없다면, 정책적 도구로서의 워터마킹 가치는 크게 줄어들 수밖에 없다.
이번 사례는 AI 안전성을 위한 투명성과 엄격한 테스트의 필요성을 재확인시켜 준다. 보안 시스템의 내부 구조를 숨기는 방식인 난독화에만 의존하는 것은 결코 영구적인 해결책이 될 수 없다. 궁극적으로 업계는 단순히 신호를 삽입하는 방식을 넘어, 악의적인 공격자가 쉽게 제거하거나 우회할 수 없는 더욱 복잡하고 다층적인 검증 방법으로 전환해야 할 시점이다.