큐타이, GPU 필요 없는 고성능 음성 AI '포켓 TTS' 출시… 노트북에서도 실시간 구동

[테크수다 기자 도안구 eyeball@techsuda.com] 프랑스의 AI 연구 기업 큐타이(Kyutai)가 고가의 그래픽처리장치(GPU) 없이 일반 중앙처리장치(CPU)에서도 원활하게 작동하는 초경량 텍스트 음성 변환(TTS) 모델 '포켓 TTS(Pocket TTS)'를 공개했다. 이는 음성 AI 기술의 접근성을 획기적으로 높인 것으로 평가받는다.

Pocket TTS: A high quality TTS that gives your CPU a voice
Our mission is to build and democratize artificial general intelligence through open science.

이번에 공개된 포켓 TTS는 1억 개(100M)의 파라미터를 가진 소형 모델로, 애플의 M3 칩이나 인텔 코어 울트라 프로세서가 탑재된 일반 노트북에서 실시간보다 빠른 속도로 구동된다. 이는 값비싼 클라우드 API나 고성능 GPU 서버에 의존해야 했던 기존 음성 AI 시장의 판도를 바꿀 기술적 진보로 꼽힌다.

성능 면에서도 탁월함을 입증했다. 포켓 TTS는 단 5초 분량의 음성 샘플만으로 화자의 톤, 억양, 감정뿐 아니라 녹음 환경의 음향 특성까지 정교하게 복제한다. 큐타이 측에 따르면, 이 모델의 단어 오류율(WER)은 1.84%로, 해당 모델보다 7배 이상 큰 경쟁 모델들보다 오히려 더 높은 정확도를 기록했다.

기술적 혁신의 핵심은 'CALM(Continuous Audio Language Models)' 프레임워크에 있다. 기존 모델들이 텍스트를 개별 토큰으로 변환한 뒤 처리하며 막대한 연산 능력을 요구했던 것과 달리, CALM은 오디오를 직접 예측하는 방식을 통해 계산 효율성을 극대화했다.

이 기술의 등장은 특히 데이터 보안과 비용 절감 측면에서 큰 의미를 갖는다. 사용자의 음성 데이터가 외부 클라우드 서버로 전송될 필요 없이 로컬 기기에서만 처리되기 때문에 의료, 법률, 기업 기밀 등 보안이 필수적인 분야에서 활용도가 높을 전망이다.

또한 1인 게임 개발자나 교육자들은 별도의 성우 비용이나 API 사용료 없이 고품질의 음성 콘텐츠를 제작할 수 있게 됐다. 루게릭병(ALS) 환자들이 자신의 목소리가 소실되기 전 개인 컴퓨터에 목소리를 안전하게 보존하는 용도로도 활용 가능하다.

큐타이는 포켓 TTS를 MIT 라이선스 기반의 완전한 오픈소스로 공개했으며, 훈련 코드와 8만 8천 시간 분량의 공개 데이터셋도 함께 배포하여 개발자들이 즉시 활용할 수 있도록 했다.

[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!