넷플릭스, LLM 포스트 트레이닝 전용 프레임워크 자체 구축… "추천·개인화에 AI 본격 적용"
[테크수다 기자 도안구 eyeball@techsuda.com] 넷플릭스가 대규모 언어 모델(LLM)의 포스트 트레이닝을 대규모로 운영하기 위한 자체 프레임워크를 공개했다. AI 플랫폼 팀이 개발한 이 내부 시스템은 지도 파인튜닝(SFT), 직접 선호도 최적화(DPO), 강화학습(RL), 지식 증류 등 주요 포스트 트레이닝 워크플로우를 단일 플랫폼에서 지원한다. https://netflixtechblog.com/scaling-llm-post-training-at-netflix-0046f8790194

넷플릭스는 추천, 개인화, 검색 등 핵심 회원 경험에 LLM을 적용하기 위해 범용 파운데이션 모델을 자사 카탈로그와 이용자 상호작용 맥락에 맞춰 정밀하게 조정하고 있다고 13일(현지시간) 기술 블로그를 통해 밝혔다.
SFT를 넘어 강화학습까지, 아키텍처 전면 재설계
넷플릭스 포스트 트레이닝 프레임워크의 핵심은 데이터, 모델, 컴퓨팅, 워크플로우 네 가지 축의 모듈러 추상화다. 기반에는 넷플릭스 내부 ML 컴퓨팅 플랫폼 마코(Mako)가 AWS에서 GPU를 프로비저닝하며, 그 위에 PyTorch, Ray, vLLM 등 오픈소스 컴포넌트를 조합한다. 프레임워크는 Qwen3, Gemma3 등 최신 아키텍처와 MoE(Mixture-of-Experts) 변형을 지원하고, LoRA 통합, 고수준 샤딩 API, 비동기 온더플라이 시퀀스 패킹 등을 제공한다. 특히 시퀀스 길이 편차가 심한 내부 데이터셋에서 온더플라이 패킹은 유효 토큰 처리량을 최대 4.7배 향상시켰다고 넷플릭스 측은 설명했다.

초기 설계는 SFT 중심의 SPMD(Single Program, Multiple Data) 실행 모델을 전제했으나, 2025년 딥시크-R1과 GRPO 등 온폴리시 RL 기법이 확산되면서 아키텍처 전면 재설계가 필요해졌다. SFT의 학습 신호는 밀집적이고 즉각적인 반면, 온폴리시 RL은 희소하고 지연된 보상 신호에 기반하며 롤아웃 생성, 보상·참조 모델 추론, 정책 업데이트 간 명시적 조율을 요구한다. 넷플릭스는 오픈소스 Verl 라이브러리의 핵심 인프라를 통합해 Ray 액터 생명주기와 GPU 리소스 할당을 관리하는 하이브리드 컨트롤러 구조를 채택했다. 이를 통해 개발자가 SFT와 RL 워크플로우를 동일한 인터페이스에서 전환할 수 있도록 했다.
오픈소스 생태계 위에 차별적 가치 구축
넷플릭스는 허깅페이스 생태계와의 호환성을 핵심 설계 원칙으로 삼았다. 체크포인트는 표준 허깅페이스 형식으로 로드·저장하고, 토크나이저는 허깅페이스 AutoTokenizer를 단일 진실 소스로 채택했다. 초기에 SentencePiece, tiktoken 등에 직접 바인딩한 결과 훈련-서빙 간 무음 스큐가 발생했던 경험이 이 결정의 배경이다. 다만 모델 구현은 자체 최적화된 통합 정의를 유지해 FlexAttention, 메모리 효율적 청크 크로스엔트로피 등 프레임워크 수준 최적화를 적용한다. 새 모델 패밀리 지원 시에는 AI 코딩 에이전트가 변환 작업을 자동화하며, 랜덤 입력 기반 로짓 검증을 게이트로 활용해 지원 소요 시간을 단축한다고 밝혔다.
어휘 확장 시 특정 크기에서 cuBLAS 커널 대신 느린 CUTLASS 경로로 폴백되어 실행 시간이 3배 증가하는 성능 절벽도 발견했다. 프레임워크는 어휘 크기를 자동으로 64의 배수로 패딩해 이를 해결한다. 또한 자연어가 아닌 회원 상호작용 이벤트 시퀀스에 대한 트랜스포머 훈련, 비즈니스 메트릭 최적화를 위한 맞춤형 RL 루프 등 범용 LLM 도구가 다루지 않는 비표준 사용 사례도 지원한다. 넷플릭스 AI 플랫폼 팀은 "이 분야가 더 에이전틱하고 추론 집약적이며 멀티모달한 아키텍처로 이동함에 따라, 이 기반이 새로운 아이디어를 확장 가능한 생성형 AI 프로토타입으로 전환하는 데 기여할 것"이라고 말했다.
[테크수다 기자 도안구 eyeball@techsuda.com]
- 위 기사는 앤쓰로픽 클로드를 활용해 번역하고 정리했다.
테크가 전 산업 영역에 스며드는 소식에 관심이 많다. 1999년 정보시대 PCWEEK 테크 전문지 기자로 입문한 후 월간 텔레닷컴, 인터넷 미디어 블로터닷넷 창간 멤버로 활동했다. 개발자 잡지 마이크로소프트웨어 편집장을 거쳐 테크수다를 창간해 지금까지 활동하고 있다. 태블릿을 가지고 얼굴이 꽉 찬 방송, 스마트폰을 활용한 현장 라이브를 한국 최초로 진행했다.