OpenAI, WebSocket 도입으로 에이전트 워크플로우 효율 극대화
- •OpenAI, Responses API에 WebSocket 모드 도입으로 에이전트 처리 속도 최대 40% 향상
- •새로운 아키텍처로 초당 최대 4,000 토큰(Tokens) 처리 가능, 더욱 빠른 코딩 루프 구현
- •지속적 연결을 통한 상태 캐싱으로 복잡한 다단계 작업의 데이터 전송 효율성 증대
AI 에이전트는 코딩, 연구, 계획 등 다단계 작업을 자율적으로 수행하는 시스템이다. 그간 이러한 에이전트의 진화를 가로막는 가장 큰 걸림돌은 지연 시간(Latency)이었다. 에이전트가 사고하고 다음 단계를 실행할 때마다 모델 서버와 통신해야 하는데, 기존 웹 아키텍처는 매번 새로운 연결을 수립해야 하므로 매우 비효율적이다.
OpenAI는 이러한 문제를 해결하기 위해 표준 HTTP 요청 방식에서 WebSocket으로 전환했다. WebSocket은 지속적인 양방향 통신 채널을 생성하여 에이전트가 대화의 상태를 메모리에 유지할 수 있게 한다. 결과적으로 매번 문맥을 처음부터 다시 구축할 필요가 없어 불필요한 데이터 전송과 중복 과정을 획기적으로 줄일 수 있다.
이러한 변화는 실질적인 성과로 이어졌다. 주요 개발 도구들을 포함한 알파 사용자들은 다중 파일 워크플로우 속도가 약 40% 향상되었다고 보고했다. 특히 버그 수정이나 코드 생성을 위해 AI 에이전트를 활용하는 개발자들에게 이러한 응답 속도의 개선은 업무의 연속성을 유지하는 데 필수적이다.
또한 이 업데이트는 AI 시대에 인프라 공학이 얼마나 중요한지 잘 보여준다. 대중은 흔히 모델의 '두뇌'인 파라미터나 성능에만 집중하지만, 데이터가 사용자와 모델 사이를 오가는 '신경계' 또한 매우 중요하다. OpenAI가 WebSocket을 통해 지속적 연결을 지원하기로 한 것은 대화형 AI 애플리케이션 구축의 새로운 표준이 될 전망이다.
앞으로 모델의 추론(Inference) 속도가 계속해서 빨라짐에 따라, 전송 계층의 최적화는 단순히 모델 자체를 빠르게 만드는 것을 넘어 사용자 경험을 한 차원 높이는 핵심 요소가 될 것이다. 인프라와 모델의 조화로운 발전은 우리가 AI를 활용하는 방식을 근본적으로 바꿀 것으로 기대된다.