데이터 중심 AI의 표준, DataFlex 프레임워크 등장
2026년 4월 3일 (금)
- •DataFlex는 LLM 학습 과정에서 데이터 선정, 가중치 조정, 혼합 비율 설정을 하나의 프레임워크로 통합했다.
- •LLaMA-Factory 및 DeepSpeed ZeRO-3와 호환되어 데이터 중심 학습 워크플로우를 효율화한다.
- •다양한 오픈 웨이트 모델을 활용한 MMLU 벤치마크에서 기존 정적 학습 방식을 꾸준히 상회하는 성능을 입증했다.
DataFlex의 출시는 AI 모델 개발 방식이 모델의 크기를 키우는 '규모 중심'에서 '데이터 중심'으로 이동하고 있음을 보여준다. 그간 업계는 파라미터나 레이어를 추가하는 방식에 집중해 왔으나, 베이징대학교 연구진은 학습 데이터의 품질과 선정 방식이 모델 성능에 결정적인 영향을 미친다는 점을 증명했다. DataFlex는 개발자가 학습 과정에서 데이터를 관리하는 체계적인 가이드를 제공하며, 데이터 선정과 도메인 혼합, 재가중치 적용을 통합적으로 제어한다.
거대언어모델(LLM)을 학습하는 과정은 학생의 교육과정과 유사하다. 만약 학생이 무관하거나 저품질의 교재로만 공부한다면 이해도는 떨어질 수밖에 없다. DataFlex는 이러한 '교육과정'을 동적으로 구성하는 구조를 제공한다. 특히 기존의 LLaMA-Factory나 DeepSpeed ZeRO-3와 같은 도구와 원활하게 통합되어, 학습 인프라를 전면 수정하지 않고도 MMLU 같은 복잡한 벤치마크에서 성능을 체계적으로 향상할 수 있다.
이제 막 AI 연구를 시작하는 학생들에게 이 프레임워크는 연구의 재현성을 높이고 효율성을 극대화하는 중요한 도구가 될 전망이다. 전체 데이터셋을 활용해 길고 비용이 많이 드는 실험을 반복하는 대신, 가장 정보 가치가 높은 샘플만을 선별해 개발 속도를 높이고 컴퓨팅 자원을 절감할 수 있기 때문이다. 결국 DataFlex는 파편화된 학습 과정을 규격화된 모듈로 변환하여 혁신 과정에서의 시행착오를 줄이는 표준 역할을 수행한다.