이 기사의 핵심 내용은?

구글이 향상된 추론 능력과 에이전트 워크플로우를 갖춘 4가지 크기의 Gemma 4를 출시했다. 모델은 음성 및 시각 데이터를 기본적으로 처리하며 최대 256K 컨텍스트 윈도우를 지원한다. 하드웨어 범용성을 높여 스마트폰부터 H100 GPU까지 로컬 환경에서 구동할 수 있다.

구글, 강력한 오픈형 AI 모델 Gemma 4 공개

•구글이 향상된 추론 능력과 에이전트 워크플로우를 갖춘 4가지 크기의 Gemma 4를 출시했다.
•모델은 음성 및 시각 데이터를 기본적으로 처리하며 최대 256K 컨텍스트 윈도우를 지원한다.
•하드웨어 범용성을 높여 스마트폰부터 H100 GPU까지 로컬 환경에서 구동할 수 있다.

인공지능 생태계가 폐쇄적인 블랙박스 시스템에서 벗어나 개발자들이 로컬 환경에서 강력한 모델을 직접 운용하는 방향으로 빠르게 재편되고 있다. 이번에 공개된 Gemma 4는 이러한 기술 민주화의 중대한 이정표로 평가받는다. 구글은 '파라미터당 지능' 효율에 집중함으로써, 대규모 데이터 센터 인프라 없이도 수준 높은 추론과 의사결정이 가능한 모델을 제시했다.

이번 라인업은 20억 파라미터의 효율적인 버전부터 310억 파라미터의 고성능 모델까지 총 4가지 크기로 구성된다. 이는 모바일 기기를 위한 경량형 어시스턴트부터 복잡한 데이터 분석 엔진까지 개발자의 다양한 요구사항을 충족한다. 특히 260억 파라미터 규모의 Mixture of Experts (MoE) 모델은 요청에 필요한 부분만 활성화하여 계산 비용을 최적화함으로써 성능과 효율성 사이의 균형을 맞췄다.

무엇보다 주목할 점은 에이전트 워크플로우에 대한 기본 지원이다. 과거에는 AI를 검색이나 계산 도구와 연결하기 위해 복잡한 우회 코드가 필요했으나, Gemma 4는 함수 호출과 구조화된 출력을 기본적으로 설계 단계부터 포함했다. 이로써 단순한 챗봇을 넘어 다단계 작업을 스스로 계획하고 도구를 실행하는 자율적인 AI 에이전트 구현이 가능해졌다.

텍스트 처리를 넘어 Gemma 4 전 라인업은 멀티모달 기능을 내재화했다. 설계부터 이미지, 영상, 오디오 입력을 이해하도록 훈련되었으며, 이는 개발자가 실제 세계를 인지하는 직관적인 애플리케이션을 구축하는 데 도움을 준다. 또한 140개 이상의 언어를 지원하고 최대 256K에 달하는 컨텍스트 윈도우를 제공하여 방대한 문서나 복잡한 대화 흐름도 정보 손실 없이 처리할 수 있다.

개인정보 보호와 데이터 주권을 중시하는 이들을 위해 Apache 2.0 라이선스를 채택한 점도 매력적이다. 구글은 모델 가중치를 공개함으로써 전 세계 개발자들이 자체 아키텍처를 기반으로 혁신적인 실험을 이어갈 수 있는 환경을 조성했다. 이제 로컬 워크스테이션이나 라즈베리 파이, 엔터프라이즈 하드웨어 등 코드와 데이터가 머무는 모든 곳에서 Gemma 4를 활용할 수 있다.

인공지능 생태계가 폐쇄적인 블랙박스 시스템에서 벗어나 개발자들이 로컬 환경에서 강력한 모델을 직접 운용하는 방향으로 빠르게 재편되고 있다. 이번에 공개된 Gemma 4는 이러한 기술 민주화의 중대한 이정표로 평가받는다. 구글은 '파라미터당 지능' 효율에 집중함으로써, 대규모 데이터 센터 인프라 없이도 수준 높은 추론과 의사결정이 가능한 모델을 제시했다.

이번 라인업은 20억 파라미터의 효율적인 버전부터 310억 파라미터의 고성능 모델까지 총 4가지 크기로 구성된다. 이는 모바일 기기를 위한 경량형 어시스턴트부터 복잡한 데이터 분석 엔진까지 개발자의 다양한 요구사항을 충족한다. 특히 260억 파라미터 규모의 Mixture of Experts (MoE) 모델은 요청에 필요한 부분만 활성화하여 계산 비용을 최적화함으로써 성능과 효율성 사이의 균형을 맞췄다.

무엇보다 주목할 점은 에이전트 워크플로우에 대한 기본 지원이다. 과거에는 AI를 검색이나 계산 도구와 연결하기 위해 복잡한 우회 코드가 필요했으나, Gemma 4는 함수 호출과 구조화된 출력을 기본적으로 설계 단계부터 포함했다. 이로써 단순한 챗봇을 넘어 다단계 작업을 스스로 계획하고 도구를 실행하는 자율적인 AI 에이전트 구현이 가능해졌다.

텍스트 처리를 넘어 Gemma 4 전 라인업은 멀티모달 기능을 내재화했다. 설계부터 이미지, 영상, 오디오 입력을 이해하도록 훈련되었으며, 이는 개발자가 실제 세계를 인지하는 직관적인 애플리케이션을 구축하는 데 도움을 준다. 또한 140개 이상의 언어를 지원하고 최대 256K에 달하는 컨텍스트 윈도우를 제공하여 방대한 문서나 복잡한 대화 흐름도 정보 손실 없이 처리할 수 있다.

개인정보 보호와 데이터 주권을 중시하는 이들을 위해 Apache 2.0 라이선스를 채택한 점도 매력적이다. 구글은 모델 가중치를 공개함으로써 전 세계 개발자들이 자체 아키텍처를 기반으로 혁신적인 실험을 이어갈 수 있는 환경을 조성했다. 이제 로컬 워크스테이션이나 라즈베리 파이, 엔터프라이즈 하드웨어 등 코드와 데이터가 머무는 모든 곳에서 Gemma 4를 활용할 수 있다.