일레븐랩스, 감정·톤 그대로 90개 언어 더빙 'AI 더빙 v2' 공개

도안구

2026년 6월 16일

[테크수다 기자 도안구 eyeball@techsuda.com] 일레븐랩스(ElevenLabs)가 원본 음성의 감정과 톤을 90개 이상 언어로 옮기는 신규 인공지능(AI) 더빙 모델 '더빙 v2(Dubbing v2)'를 16일 공개했다. 이 모델은 화자의 감정과 억양, 말의 간격, 전달 방식까지 분석해 다국어 음성에 반영한다. 텍스트 스크립트에만 의존하던 기존 AI 더빙의 감정·전달력 손실 문제를 개선한 것이 특징이다. 회사는 한국 드라마와 웹툰, 게임 등 국내 지식재산(IP)의 글로벌 진출 비용과 시간을 크게 줄여줄 것으로 기대했다.

주요 내용:

원본 화자의 감정과 톤, 억양, 전달 방식을 분석해 90개 이상 언어 음성에 반영
자동 보이스 클로닝 및 음성 타이밍 자동 조정으로 별도 수동 작업 없이 다국어 더빙 생성
SBS 다큐멘터리 '괴물의 시간' 제작에 적용돼 방송 수준의 완성도 입증

'더빙 v2'는 원본 음성에 담긴 감정과 톤, 억양 등의 뉘앙스와 말의 간격을 반영해 다국어 음성을 생성한다. 단어를 그대로 옮기는 직역에서 벗어나 목표 언어 문맥에서 가장 자연스러운 표현으로 번역과 조정을 수행한다. 생성된 음성은 원본 음성의 시작과 종료 타이밍에 맞춰 정렬되며, 영상 자체를 조작하거나 립싱크를 강제로 만들지 않는다. 또 원본 화자의 음색과 피치, 톤을 자동으로 반영하는 보이스 클로닝(Voice Cloning) 기능으로 수동 작업 없이 개성을 살린 더빙을 지원한다.

국내 시장에서는 문화 콘텐츠와 비즈니스 영역 전반에서 활용이 예상된다. 드라마와 영화, 웹툰, 애니메이션 IP는 출연자와 캐릭터의 감정선을 살린 다국어 전개가 가능하고, 게임은 원본 분위기를 유지한 채 캐릭터 대사와 컷신을 확장할 수 있다. 버추얼 유튜버(VTuber)와 크리에이터는 본인의 목소리와 말투를 살려 해외 시청자 도달 범위를 넓힐 수 있으며, 교육과 관광 콘텐츠, 기업 교육 영상에서도 화자의 설명 방식을 유지한 다국어화가 가능하다. '더빙 v2'는 일레븐랩스 UI(플랫폼)에서 제공되며, 대규모 제작 워크플로우와 기존 시스템 연동을 위한 응용프로그램 인터페이스(API)도 순차적으로 확대된다.

일레븐랩스의 음성 AI 기술은 이미 국내 지상파 방송 제작에 적용돼 완성도를 인정받고 있다. SBS는 2025년 다큐멘터리 '괴물의 시간' 제작 과정에 일레븐랩스의 오디오 AI 기술을 도입해 실존 인물의 목소리를 재생성했다. 박재현 SBS AI파트너십팀 부장은 "일레븐랩스의 기술을 토대로 K-콘텐츠의 글로벌 더빙과 로컬라이제이션 영역에서 협력을 확대하겠다"고 밝혔다.

홍상원 일레븐랩스 한국 총괄은 "정교한 감정 재현력과 뛰어난 싱크로 국내 크리에이터와 콘텐츠 기업이 언어 장벽을 넘어 전 세계와 소통하는 교두보가 될 것"이라고 강조했다.

일레븐랩스 'AI 더빙 v2', 이런 점이 궁금하셨나요?

Q. '더빙 v2'는 기존 AI 더빙과 무엇이 다른가요?

A. 기존 AI 더빙은 텍스트 스크립트에만 의존해 감정과 전달력이 손실되는 한계가 있었다. '더빙 v2'는 원본 화자의 감정과 톤, 억양, 말의 간격까지 분석해 다국어 음성에 반영한다.

Q. 지원 언어는 몇 개인가요?

A. 영어를 포함한 90개 이상 언어를 지원한다. 영상과 팟캐스트, 교육, 기업 비즈니스 등 다양한 포맷의 글로벌 확장에 활용할 수 있다.

Q. 한국 콘텐츠에는 어떤 도움이 되나요?

A. 드라마와 웹툰, 게임 등 국내 IP의 글로벌 진출에 필요한 번역과 성우 녹음, 편집 비용 및 시간을 줄여준다. SBS 다큐멘터리 '괴물의 시간' 제작에 적용돼 방송 수준의 완성도가 입증됐다.

ElevenLabs Launches 'Dubbing v2' to Carry Voice Emotion Across 90-Plus Languages

SEOUL, June 16, 2026 — ElevenLabs, an artificial intelligence (AI) audio research and development startup, has launched "Dubbing v2," a new AI dubbing model designed to reproduce a speaker's original emotion and tone across more than 90 languages. The model analyzes the speaker's emotion, intonation, pacing and delivery, then reflects them in multilingual audio. It addresses a long-standing weakness of earlier AI dubbing, which relied on text scripts and often stripped out emotion. The company said the tool could sharply cut the cost and time of taking Korean dramas, webtoons and games to global audiences.

Key Highlights:

Analyzes the original speaker's emotion, tone and delivery and applies them to audio in more than 90 languages
Combines automatic voice cloning with timing alignment to produce multilingual dubs without manual rework
Already used in the SBS documentary "Time of the Monster," demonstrating broadcast-level quality

"Dubbing v2" generates multilingual speech that preserves the nuance and pacing of the source audio rather than translating word for word, adapting each line into the phrasing that sounds most natural in the target language. Generated audio is aligned to the start and end timing of the original without manipulating the video or forcing lip-sync. The model also clones the original speaker's timbre, pitch and tone automatically, keeping each voice's character intact. ElevenLabs said this removes much of the manual editing that traditional dubbing requires.

ElevenLabs expects broad adoption across Korean cultural content and business sectors. Drama, film, webtoon and animation rights holders can expand titles into multiple languages while keeping characters' emotional range, and game studios can localize dialogue and cutscenes without losing the original mood. Virtual YouTubers and creators can reach overseas viewers in their own voices, while education, tourism and corporate training videos can be localized with the speaker's delivery preserved. The model is available through the ElevenLabs platform, with an application programming interface (API) for large-scale workflows rolling out in stages.

The company's voice AI has already been applied in terrestrial broadcast production in Korea. SBS adopted ElevenLabs' audio AI in 2025 to recreate a real person's voice for the documentary "Time of the Monster." Park Jae-hyun, manager of SBS's AI Partnership Team, said the broadcaster plans to expand cooperation in the global dubbing and localization of Korean content. Hong Sang-won, head of ElevenLabs Korea, said the model's emotional accuracy and synchronization would help local creators and content firms communicate across language barriers.

ElevenLabs 'Dubbing v2': Your Questions Answered

Q. How is "Dubbing v2" different from earlier AI dubbing?

A. Earlier tools relied only on text scripts and lost much of the speaker's emotion. "Dubbing v2" analyzes the original emotion, tone, intonation and pacing and reflects them in the dubbed audio.

Q. How many languages does it support?

A. It supports more than 90 languages, including English, across video, podcast, education and enterprise formats.

Q. How does it help Korean content?

A. It reduces the translation, voice-recording and editing cost and time needed to take Korean IP global, and it has already proven broadcast-level quality in the SBS documentary "Time of the Monster."

ElevenLabs推出AI配音模型"Dubbing v2" 90余种语言保留原声情感

首尔6月16日电人工智能(AI)音频研发初创企业ElevenLabs日前发布全新AI配音模型"Dubbing v2",可在90多种语言中还原原声的情感与语调。该模型分析说话者的情感、语调、停顿及表达方式,并将其反映到多语种语音中。这一技术改善了以往AI配音仅依赖文本脚本、易丢失情感与表现力的不足。公司表示,该工具有望大幅降低韩国电视剧、网络漫画和游戏等本土知识产权(IP)进军海外的成本与时间。

核心要点:

分析原声的情感、语调与表达方式,并应用于90多种语言的语音
结合自动声音克隆与时间轴自动校准,无需人工返工即可生成多语种配音
已应用于SBS纪录片《怪物的时间》制作,印证广播级品质

"Dubbing v2"在生成多语种语音时保留原声的细微情感与停顿,而非逐字直译,并将台词调整为目标语言中最自然的表达。生成的语音会对齐原声的起止时间,不对视频本身进行处理,也不强行生成对口型。该模型还能自动还原原说话者的音色、音高与语调,在无需人工克隆的情况下保留声音个性,从而省去传统配音所需的大量人工编辑。

ElevenLabs预计该模型将在韩国文化内容与商业领域广泛应用。电视剧、电影、网络漫画与动画IP可在保留角色情感的同时进行多语种拓展,游戏厂商也能在保持原有氛围的前提下完成台词与过场动画的本地化。虚拟主播与创作者可用本人声音触达海外观众,教育、旅游及企业培训视频则可在保留讲述者表达方式的同时实现多语种化。该模型通过ElevenLabs平台提供,面向大规模制作流程的应用程序接口(API)将逐步开放。

该公司的语音AI技术已应用于韩国无线电视台的实际制作。SBS于2025年在纪录片《怪物的时间》制作过程中引入ElevenLabs的音频AI技术,重现了真实人物的声音。SBS人工智能合作团队部长朴宰贤表示,将以ElevenLabs技术为基础,扩大在韩国内容全球配音与本地化领域的合作。ElevenLabs韩国总负责人洪相元强调,凭借精准的情感再现与出色的同步效果,该模型将帮助本土创作者与内容企业跨越语言障碍。

关于ElevenLabs"Dubbing v2",您想了解这些

问:"Dubbing v2"与以往的AI配音有何不同?

答:以往工具仅依赖文本脚本,容易丢失说话者的情感。"Dubbing v2"会分析原声的情感、语调、语气与停顿,并反映到配音中。

问:支持多少种语言?

答:支持包括英语在内的90多种语言,适用于视频、播客、教育与企业等多种场景。

问:对韩国内容有何帮助?

答:可降低本土IP进军海外所需的翻译、配音与剪辑成本和时间,并已在SBS纪录片《怪物的时间》制作中印证广播级品质。

イレブンラボ、原音の感情を90超の言語で再現する新AI吹き替え「Dubbing v2」発表

【ソウル】人工知能(AI)音声の研究開発を手がける新興企業ElevenLabs(イレブンラボ)は16日、原音に込められた感情やトーンを90以上の言語で再現する新たなAI吹き替えモデル「Dubbing v2」を発表した。同モデルは話者の感情や抑揚、間の取り方、伝え方を分析し、多言語音声に反映する。テキスト台本のみに頼り感情や表現力が失われがちだった従来のAI吹き替えの課題を改善した。同社は、ドラマやウェブトゥーン、ゲームなど韓国の知的財産(IP)の海外展開にかかる費用と時間を大幅に削減できると期待を示した。

主なポイント:

原音の感情やトーン、伝え方を分析し、90以上の言語の音声に反映
自動ボイスクローニングと音声タイミングの自動調整により、手作業なしで多言語吹き替えを生成
SBSのドキュメンタリー「怪物の時間」制作に活用され、放送水準の完成度を実証

「Dubbing v2」は逐語訳ではなく、原音の微妙な感情や間を保ちながら多言語音声を生成し、対象言語で最も自然に聞こえる表現に調整する。生成された音声は原音の開始と終了のタイミングに合わせて整えられ、映像自体を加工したり口の動きを無理に合わせたりはしない。さらに原話者の音色やピッチ、トーンを自動的に反映し、手作業のクローニングなしに声の個性を保つ。同社は、従来の吹き替えに必要だった多くの手作業を省けると説明した。

ElevenLabsは、韓国の文化コンテンツやビジネス分野で幅広い導入を見込む。ドラマや映画、ウェブトゥーン、アニメのIPは登場人物の感情を保ったまま多言語展開でき、ゲームもオリジナルの雰囲気を維持しつつセリフやカットシーンを多言語化できる。バーチャルユーチューバー(VTuber)やクリエーターは自身の声で海外視聴者に届けられ、教育や観光、企業研修の映像も話者の伝え方を保ったまま多言語化が可能だ。同モデルはElevenLabsのプラットフォームで提供され、大規模制作向けのアプリケーション・プログラミング・インターフェース(API)も順次拡大する。

同社の音声AI技術は既に韓国の地上波放送の制作に活用されている。SBSは2025年、ドキュメンタリー「怪物の時間」の制作で同社の音声AI技術を導入し、実在人物の声を再現した。SBSのAIパートナーシップチームの朴宰賢(パク・ジェヒョン)部長は、ElevenLabsの技術を基盤に韓国コンテンツの世界向け吹き替えとローカライゼーション分野で協力を広げる考えを示した。ElevenLabs韓国総括の洪相元(ホン・サンウォン)氏は、精緻な感情再現と高い同期性により、国内のクリエーターやコンテンツ企業が言語の壁を越えて世界とつながる足掛かりになると強調した。

ElevenLabs「Dubbing v2」、ここが気になる

Q. 「Dubbing v2」は従来のAI吹き替えと何が違うのか。

A. 従来はテキスト台本のみに頼り、話者の感情が失われがちだった。「Dubbing v2」は原音の感情やトーン、抑揚、間を分析し、吹き替え音声に反映する。

Q. 対応言語はいくつか。

A. 英語を含む90以上の言語に対応し、動画やポッドキャスト、教育、企業向けなど幅広い形式で利用できる。

Q. 韓国コンテンツにどう役立つのか。

A. 韓国IPの海外展開に必要な翻訳や声優収録、編集の費用と時間を削減でき、SBSのドキュメンタリー「怪物の時間」の制作で放送水準の完成度が実証された。

[Seoul = Techsuda eyeball@techsuda.com]

Newsletter

디지털 시대, 새로운 정보를 받아보세요!

도안구

테크가 전 산업 영역에 스며드는 소식에 관심이 많다. 1999년 정보시대 PCWEEK 테크 전문지 기자로 입문한 후 월간 텔레닷컴, 인터넷 미디어 블로터닷넷 창간 멤버로 활동했다. 개발자 잡지 마이크로소프트웨어 편집장을 거쳐 테크수다를 창간해 지금까지 활동하고 있다. 태블릿을 가지고 얼굴이 꽉 찬 방송, 스마트폰을 활용한 현장 라이브를 한국 최초로 진행했다.

당신이 놓친 글