[AWS reInvent 2025] 이재성 트웰브랩스 CEO, "전 세계 영상 데이터 80%는 우리 기술로 처리"
[테크수다 기자 도안구 eyeball@techsuda.com] "전 세계 데이터의 90%는 영상이지만, 그동안 이 데이터는 ‘검색 불가능한’ 영역에 방치되어 있었다. 특히나 대규모 영상 데이터를 보유한 기업들은 이 문제를 해결하고 싶어했고 트웰브랩스는 이 시장을 겨냥하고 있다."
이재성 트웰브랩스 CEO는 2025년 12월 1일(월요일, 현지시간), AWS 리인벤트(re:Invent) 현장에서 트웰브랩스가 공개한 차세대 영상 이해 모델 ‘마렝고 3.0(Marengo 3.0)’을 선보이며 이렇게 말했다.
트웰브랩스가 이 거대한 ‘영상 데이터(Dark Data)’를 비즈니스 자산으로 전환하려는 야심 찬 시도를 발빠르게 실행에 옮기고 있다. 기술 혁신 속에 속도전으로 고객들의 요구를 빠르게 수용하면서 시장을 치고 나가겠다는 행보다.
이재성 트웰브랩스 CEO는 인터뷰에서 “단순히 모델 성능을 높이는 것을 넘어, 고객이 실제로 감당할 수 있는 비용 구조와 에이전트(Agent) 시대를 대비한 효율성을 확보하는 데 사활을 걸었다”고 강조했다.
마렝고 3.0의 핵심은 기존 영상 분석의 구조적 한계를 기술적으로 돌파했다는 점이다. 기존 방식은 영상을 1초 단위 프레임으로 쪼개 이미지로 인식하거나, 이를 텍스트로 변환해 언어 모델(LLM)에 넣는 식이었다. 이 과정에서 시간적 흐름과 맥락이 소실된다.
이 대표는 “기존 언어 모델 기반 방식은 해가 뜨는 장면과 지는 장면을 구분하지 못한다”고 꼬집었다. 정지된 이미지로는 시간의 흐름(맥락)을 알 수 없기 때문이다. 반면 마렝고 3.0은 영상 자체를 시간·공간 단위의 청크(Chunk)로 학습하는 ‘네이티브 파운데이션’ 구조를 택했다. 덕분에 대사와 몇 분 뒤 등장하는 행동을 연결해 해석하거나, 스포츠 경기처럼 복잡한 상황 변화를 인간 수준으로 이해한다.
“고객들의 비용을 반으로 줄여라"
현장의 기업들이 가장 환영할 변화는 ‘비용 효율성’이다. 마렝고 3.0은 스토리지 비용을 50% 절감하고 인덱싱 속도를 2배 높였다.
비결은 ‘임베딩(Embedding) 차원 축소’에 있다. 기존 모델이 영상 정보를 1,024차원의 숫자로 변환했다면, 이번 모델은 이를 512차원으로 절반가량 줄이면서도 성능은 높였다. 이 대표는 “100만 시간 이상의 영상을 보유한 엔터프라이즈 고객에게 스토리지 비용은 도입을 망설이게 하는 가장 큰 장벽”이라며 “차원을 줄여 총소유비용(TCO)을 획기적으로 낮춤으로써, 기업들이 모든 아카이브를 인덱싱할 수 있는 길을 열었다”고 설명했다.
또한, 업계 최초로 도입된 ‘복합 이미지 검색(Composed Image Retrieval)’과 ‘고유명사 검색(Entity Search)’은 실무 활용도를 극대화한다. 특정 인물의 사진 몇 장만으로 시스템이 대상을 인식해, 수십 년 치 아카이브에서 해당 인물이 등장하는 장면을 즉시 찾아낸다.
트웰브랩스가 모델 경량화와 효율에 집착한 또 다른 이유는 ‘AI 에이전트’ 때문이다. 이 대표는 “이제 사람이 검색하는 단계를 넘어, 에이전트가 영상을 검색하고 편집하는 시대가 왔다”고 진단했다.
예를 들어 “손흥민 선수의 슈팅 장면만 모아 하이라이트를 만들어줘”라고 명령하면, 에이전트가 영상 콘텐츠를 보유한 고객의 데이터 저장소에 수천 번의 검색과 분석을 수행한다. 이 대표는 “에이전트가 개입하면 검색 트래픽은 기존 대비 10배에서 50배까지 폭증한다”며 “모델이 작고 빠르지 않으면 이 트래픽을 감당할 수 없다”고 강조했다. 마렝고 3.0은 바로 이 ‘기계가 기계에게 검색을 요청하는 시대’를 위한 인프라다.
고객들의 반복 작업을 AI 에이전트로 구현해 서비스를 해 고객들의 시간을 줄이고 성과는 극대화하려는 전략이다. 트웰브랩스는 이 에이전트를 2026년 1분기에 고객들에게 제공하기 위해 준비를 하고 있다.
그는 가장 큰 고객들이 미디어 기업들임을 강조하면서도 정부와의 협력에 대해서는 상당히 조심스럽게 말문을 열었다. 정부 영역 이슈기 때문에 자칫 외부로 정보를 공개하면 안되는 이슈들이 많기 때문이다.
영상 이해 기술의 적용 범위가 미디어·엔터테인먼트를 넘어 국방·보안으로 확장되고 있다는 건 이미 널리 알려진 사실이다. 마렝고 3.0은 미식축구, 농구 등 스포츠 동작 이해에 특화되어 있는데, 이 기술이 그대로 국방 분야의 감시 정찰이나 바디캠 분석에 적용할 수 있다.
이재성 대표는 “스포츠의 다이내믹한 움직임과 멀티 앵글을 이해하는 능력은, 국방이나 보안(CCTV) 영역에서 상황을 인식하는 능력과 직결된다”고 설명했다. 현재 트웰브랩스는 미국 국방 및 법집행 기관과 협력하고 있으며, 국내에서는 세종시 CCTV 분석 등에 기술을 제공하고 있다.
영상 분석 분야의 경우 CCTV 장비와 솔루션 시장에서 중국 기업들이 두각을 나타내고 있는 건 이미 알려진 사실이다. 관련 제품이나 솔루션들이 서방 세계에 광범위하게 활용되고 있는 상황에서 트웰브랩스만의 경쟁력이 궁금했다. 그는 하나의 사물을 찾아내는 것과 자신들이 보유하고 업그레이드 하고 있는 건 전혀 다른 유형의 기술이라고 말했다.
오픈AI의 소라(Sora)나 구글 등 빅테크의 공세는 없을까? 이 대표는 “경쟁보다는 보완 관계”라고 선을 그었다. 빅테크의 생성 모델(Generation)은 긴 영상을 이해하는 데 한계가 있어, 트웰브랩스의 이해(Understanding) 모델과 함께 쓰이는 경우가 많다는 것이다.
트웰브랩스는 AWS라는 거인의 어깨에 일단 올라탔다. 올해 중순 AWS 베드락(Bedrock)에 모델이 올라갔다. AWS 베드락은 다양한 LLM 모델이나 특화 모델들을 고객들이 대규모 투자없이 바로 끌어다 쓸 수 있도록 다양하고 복잡한 작업들을 다 끝내놓은 환경이라고 보면 된다. 세이즈메이커로는 모델 훈련 과정에서 파인튜닝 등 정교한 기술들을 전문 인력들이 활용할 수 있지만 그렇지 않은 고객들은 좀더 맞춤화되어 손쉽게 활용할 수 있는 걸 워하는데 그걸 겨냥한 게 베드락이다. 물론 파인튜닝 등 일부 기능들은 고객들의 요구에 따라 베드락에도 제공하고 있다.
베드락에서 지원하는 모델이라는 것 자체가 이미 검증된 걸 의미하기 때문에 트웰브랩스 입장에서는 상당한 호재였고 그만큼 AWS의 신뢰를 얻었다는 걸 보여준다. 고객들의 신뢰도 한층 높아지는 계기가 되었다.
실제로 트웰브랩스는 AWS 베드락(Bedrock) 출시 5개월 만에 3만 곳 이상의 엔터프라이즈 레퍼런스를 확보했다. 스타트업이 엔터프라이즈 고객을 최단 시간에 확보하기는 쉽지 않다. 현재 90% 이상의 고객이 북미에 집중되어 있지만 유럽 시장도 노크하고 있다고 넌즈시 공개했다.
축구나 자전거, 자동차를 비롯한 수많은 프로 스포츠 경기들이 유럽인들의 사랑을 받고 있다. 2026년에는 캐나다 미국 멕시코 월드컵도 열린다. 그는 "최근에는 영국 프리미어리그(EPL) 등 유럽 시장의 반응이 뜨거워 영국 지사 설립도 검토하고 있다"고 말했다.
인터뷰 말미, 이재성 대표는 “전 세계 영상 데이터의 80% 이상을 우리 모델로 인덱싱하는 것이 목표”라고 밝혔다. 이는 단순한 솔루션 판매가 아니라, 전 세계 영상 데이터가 처리되는 ‘인텔리전스 레이어(Intelligence Layer)’ 자체를 장악하겠다는 선언이다.
텍스트와 이미지는 이미 검색과 분석의 영역으로 넘어왔다. 마지막 남은 거대한 미개척지인 ‘영상’을 두고, 트웰브랩스는 마렝고 3.0을 통해 기술적 표준과 경제적 타당성을 동시에 제시했다. 한국의 스타트업이 글로벌 AI 생태계의 ‘영상 표준’을 정립할 수 있을지, 업계의 이목이 쏠리고 있다.
다음은 AWS reInvent 2025 한국 기자단과 가진 일문일답 내용.
Q. 마렝고 3.0은 기존 영상 모델과 무엇이 달라졌습니까?
가장 큰 차이는 영상을 프레임 단위로 나누지 않고 비디오 자체를 시간·공간 흐름 속에서 이해하는 구조라는 점입니다. 기존 모델은 프레임을 텍스트 토큰처럼 취급해 맥락이 끊기고 시간적 연속성이 사라지는 한계가 있었죠. 저희는 영상 청크 자체를 학습하도록 설계해 장면의 흐름, 사건 간의 관계, 대사와 행동의 연결 같은 ‘스토리 레벨의 이해’가 가능해졌습니다.
Q. 새로 발표된 복합 이미지 검색과 고유명사 검색 기능은 어떤 문제를 해결하나요?
많은 기업이 “특정 인물·브랜드·제품이 언제 어떻게 등장하는지 빠르게 찾고 싶다”고 합니다. 기존 모델들은 외부 데이터를 학습해야 해서 프라이버시·법적 제약이 컸습니다. 저희는 사용자가 제공한 사진 몇 장과 간단한 설명만으로 엔티티를 등록해 바로 검색할 수 있는 방식을 만들었습니다. 재학습이 필요 없고 빠르며, 프라이버시에도 안전합니다.
Q. 마렝고 3.0의 비용 효율은 어떻게 개선됐나요?
대규모 영상 아카이브를 가진 고객에게는 '인덱싱 비용'이 가장 큰 고민입니다. 그래서 이번 버전은 임베딩 차원을 기존 대비 절반으로 줄여 스토리지 비용을 크게 절감했습니다. 또한 스포츠·CCTV처럼 영상 유형별로 중요도가 다른 점을 반영해 멀티벡터 구조를 적용했습니다. 불필요한 정보를 줄이고 필요한 부분만 효율적으로 남기는 구조입니다.
Q. 생성형 비디오 모델과 경쟁하는 구조인가요?
그렇지 않습니다. 목적 자체가 다릅니다. 구글·오픈AI의 모델은 '얼마나 자연스럽게 다음 프레임을 생성하는가'가 기준입니다. 트웰브랩스의 목적은 그게 아니라 '수십만 시간의 아카이브에서 의미 있는 장면을 정확하고 빠르게 찾는 것”입니다. 그래서 고객들은 저희 모델을 LLM과 조합해 사용하고 있습니다. 서로 대체재라기보다 보완재에 가깝습니다.
Q. 에이전트(AI Agent) 시대에는 어떤 변화가 예상되나요?
영상 검색이 에이전트와 결합되면 검색 트래픽이 10~50배로 늘어날 것입니다. 에이전트가 지속적으로 검색하고 판단하기 때문이죠. 그래서 저희는 비용·속도 효율성을 계속 강화하고 있으며, 2026년 초 비디오 에이전트 제품도 출시할 예정입니다.
Q. 어떤 산업에서 도입 속도가 가장 빠른가요?
현재는 미디어·스포츠·광고가 가장 빠르고, 국방·공공(CCTV) 쪽도 매우 빠르게 확장되고 있습니다.
MLSE는 게임 분석을 며칠에서 몇 분으로 줄였고, 세종시는 CCTV 인덱싱에 이미 활용 중입니다.
Q. AWS Bedrock 입점 효과는 어떤가요?
크게 체감합니다. AWS Bedrock에 들어간 지 5개월 정도 됐는데 3만 곳이 넘는 엔터프라이즈 고객이 PoC·파일럿을 진행 중입니다. 기존에는 개발자가 직접 API로 붙여야 했다면, 이제는 클릭 한 번으로 바로 확장할 수 있다는 점이 도입 속도를 폭발적으로 높였습니다.
Q. 미국과 한국의 데이터 생태계는 어떻게 다른가요?
미국에는 영상 데이터가 활발히 거래되는 라이선스 마켓이 있습니다. AI 기업들이 영상을 구매하고, 미디어 기업끼리도 데이터를 사고팝니다. 한국은 아직 작은 시장이지만 앞으로 커질 가능성이 충분합니다.
Q. 엔비디아 GPU 기반으로 서비스 중입니다. AWS도 자체칩인 트레이니움과 인퍼런시아가 있습니다. 최근 구글은 TPU 7.0 버전을 선보였고 외부 판매까지 한다고 합니다. 스타트업 입장에서는 인력을 배치해 다른 칩에 포팅도 해야 하는 현실적인 문제도 있습니다.
무척 뽀족한 질문이라고 생각합니다. 기본적으로 고객의 영상 자산이 어디에 있느냐가 핵심입니다. AWS와 가장 밀접하게 일하는 이유도 대기업 영상 데이터가 대부분 AWS에 있기 때문입니다. 저희 고객들 대부분이 그렇습니다. 그렇기에 AWS에서 시작한 것이죠. 물론 새로운 칩에 대한 궁금증도 많은 건 사실입니다. 저희 내부 추론팀에서 다각도로 검토하고 있습니다.
Q. 네이버와의 협업은 어떤 방향으로 진행되고 있나요?
자세한 내용은 공개할 수 없지만, 연구팀뿐 아니라 리더십 레벨까지 잘 정렬되어 진행하고 있습니다.
단순 모델 제공이 아니라, 글로벌 수출 가능한 풀스택 AI 솔루션까지 논의하고 있습니다.
Q. 향후 3–5년 내 트웰브랩스가 도달하고 싶은 목표는 무엇인가요?
저희 미션은 변한 적이 없습니다.
“전 세계 영상 데이터의 인텔리전스 레이어가 되는 것.”
그리고 구체적으로는 전 세계 영상의 80% 이상을 마렝고로 인덱싱하는 것을 목표로 하고 있습니다.
아래는 위 기사를 바탕으로 오픈AI ChatGPT 5.1로 영어로 번역한 내용.
[AWS re:Invent 2025] Twelve Labs CEO Jae-seong Lee:
“Eighty Percent of the World’s Video Data Will Run on Our Technology”
By Ahn-ku Toh, Techsuda — eyeball@techsuda.com
“Roughly 90% of the world’s data is video, yet most of it has been left in an ‘unsearchable’ state. Enterprises sitting on massive video archives have been desperate to solve this problem, and Twelve Labs is going straight after that market.”
On Monday, December 1, 2025 (local time), at AWS re:Invent, Jae-seong Lee, CEO of Twelve Labs, introduced the company’s next-generation video understanding model “Marengo 3.0” and framed the company’s mission in exactly those terms.
Twelve Labs is now moving quickly to turn this vast pool of “video data dark matter” into business-ready assets. The strategy is simple but aggressive: innovate fast, ship fast, and absorb real customer demands faster than anyone else.
“Increasing raw model performance isn’t enough,” Lee said in an interview. “We’re betting everything on building a cost structure customers can actually sustain, and on making sure we’re ready for the age of AI Agents.”
The core of Marengo 3.0 is that it tackles the structural limitations of conventional video analysis head-on. Existing approaches usually break video into one-second frames and process them as images, or convert them into text tokens for LLMs. In the process, temporal flow and contextual meaning are lost.
“Traditional language-model-based pipelines can’t even distinguish between sunrise and sunset,” Lee pointed out. A frozen image can’t represent the passage of time or context.
By contrast, Marengo 3.0 adopts what Twelve Labs calls a “native video foundation” architecture, learning directly from video chunks along the time and space axes. That enables the model to connect a line of dialogue with an action that happens minutes later, and to interpret complex, fast-changing scenes—such as sports games—at near human-level understanding.
“Cut customers’ costs in half”
What enterprises on the ground appreciate most is cost efficiency. Marengo 3.0 cuts storage costs by 50% and doubles indexing speed.
The key is reducing embedding dimensionality. Previous models converted video into 1,024-dimensional vectors; the new model cuts that to roughly 512 dimensions while actually improving performance.
“For an enterprise with more than a million hours of video, storage cost is the biggest reason they hesitate to adopt this kind of system at scale,” Lee said. “By lowering the dimensionality, we’ve dramatically reduced TCO and opened the door for customers to index all of their archives, not just a small slice.”
Twelve Labs also introduced Composed Image Retrieval and Entity Search, which greatly increase practical usability. With just a few photos of a person, the system can recognize the target and instantly find every scene in which that person appears across decades of archived footage.
Another reason Twelve Labs is obsessed with lightweight, efficient models is the rise of AI Agents.
“We’re entering an era where it’s no longer humans doing the searching—agents will search and edit video on our behalf,” Lee said.
Imagine saying, “Create a highlight reel of only Son Heung-min’s shooting attempts.” The agent then hits the customer’s video storage system thousands of times, running repeated searches and analyses against their content.
“When agents are in the loop, search traffic can increase tenfold to fiftyfold compared to today,” Lee explained. “If your model isn’t small and fast, it simply can’t handle that kind of load.” Marengo 3.0 is, in his words, “the infrastructure for an era where machines ask other machines to search.”
The idea is to turn repetitive customer workflows into AI agents that save time and maximize outcomes. Twelve Labs is preparing to roll out its video agent product to customers in the first quarter of 2026.
Lee stressed that the company’s largest customers are still media companies, but he was careful when speaking about government work. The public sector comes with issues that “often cannot be discussed externally,” he hinted, underscoring the sensitivity of many of those projects.
It is already widely known that video understanding is extending beyond media and entertainment into defense and security. Marengo 3.0 is highly optimized for understanding the motion patterns in sports—like American football and basketball—but that capability carries over directly into surveillance, reconnaissance, and body-cam analysis in defense scenarios.
“The ability to understand the dynamic, multi-angle movement you see in sports maps directly onto situational awareness in defense and CCTV environments,” Lee said. Twelve Labs currently works with U.S. defense and law enforcement agencies and provides its technology for large-scale CCTV analysis in the Korean city of Sejong.
In the traditional video analytics market, especially for CCTV hardware and software, Chinese companies have already carved out a strong position. With those systems widely deployed across the Western world, Twelve Labs still needs to prove its edge. Lee drew a clear distinction: tracking a single object is one thing, but what Twelve Labs is building—and continuously upgrading—is “an entirely different class of technology.”
What about the looming presence of Big Tech, such as OpenAI’s Sora or Google’s models?
Lee dismissed the idea of direct head-on competition. “It’s more complementary than competitive,” he said. Generative systems focus on creating content, while Twelve Labs specializes in understanding it. Generative models struggle with long-form comprehension, so customers often deploy Twelve Labs’ understanding models alongside those from Big Tech.
Twelve Labs, in Lee’s words, has “climbed onto the shoulders of a giant” by partnering deeply with AWS. Its models were onboarded to AWS Bedrock in mid-2025.
Bedrock is essentially an environment where customers can access a wide variety of LLMs and specialized models without massive up-front investment, because AWS has already taken care of the complex plumbing. SageMaker addresses the needs of expert ML teams that want fine-tuning and sophisticated training workflows; Bedrock, in contrast, targets customers who want a more tailored, easy-to-use interface. Some fine-tuning capabilities are also offered in Bedrock based on customer demand.
The fact that Twelve Labs’ models are officially supported on Bedrock is already a powerful signal of validation—and a clear sign that it has earned AWS’s trust. It also goes a long way toward building trust with customers.
In just five months after its Bedrock launch, Twelve Labs secured more than 30,000 enterprise references. It is rare for a startup to land enterprise customers at that pace. Over 90% of its customers are currently based in North America, but Lee hinted that the company is steadily knocking on the door of the European market as well.
From football and cycling to motorsports and countless other professional leagues, Europe is a natural fit for video-centric analytics. The 2026 World Cup will be hosted across Canada, the U.S., and Mexico. “Recently, we’ve seen particularly strong interest from the English Premier League,” Lee said. “We’re considering setting up a U.K. office to support that demand.”
At the end of the interview, Lee stated his ambition plainly:
“Our goal is to index more than 80% of the world’s video data with our models.”
This isn’t just about selling software. It’s effectively a declaration that Twelve Labs intends to control the intelligence layer through which global video data is processed.
Text and images have already entered the era of search and analytics. Video is the last, vast, untapped frontier. With Marengo 3.0, Twelve Labs is putting forward both a technical standard and an economic rationale for how video can finally join the rest of enterprise AI.
Whether a Korean startup can define the global “video standard” for the AI ecosystem is now a question the entire industry is watching closely.
Q&A with the Korean Press Delegation at AWS re:Invent 2025
Q. How is Marengo 3.0 different from existing video models?
The biggest difference is that it doesn’t slice video into frames. It learns directly from the temporal and spatial flow of the video itself. Traditional models treat frames like text tokens, which breaks context and destroys temporal continuity. Our architecture learns from video chunks, enabling story-level understanding—how scenes flow, how events connect, and how dialogue relates to later actions.
Q. What problems do Composed Image Retrieval and Entity Search solve?
Many enterprises want to quickly find when and how a specific person, brand, or product appears. Traditional models have to be pre-trained on external data, which raises serious privacy and legal concerns. Our approach lets customers register an entity using just a few user-provided images and a brief description. From there, they can search instantly. No retraining, fast performance, and strong privacy.
Q. How did you improve cost efficiency in Marengo 3.0?
For customers with large video archives, indexing cost is the biggest worry. In this release, we cut the embedding dimensionality roughly in half, dramatically reducing storage cost. We also adopted a multivector structure that accounts for the differences between content types—like sports versus CCTV—so we can remove unnecessary information and focus only on what matters.
Q. Do you compete directly with generative video models?
Not really. The goals are completely different. Google and OpenAI are judged by how naturally they can generate the next frame. We’re focused on something else: how accurately and quickly we can find meaningful moments in hundreds of thousands of hours of video. So customers typically combine our models with LLMs. They’re complements, not substitutes.
Q. What changes do you expect in the AI Agent era?
When agents are in the loop, video search traffic will increase by a factor of 10 to 50. Agents will continuously search and reason over content. That’s why we’re doubling down on speed and cost efficiency. We’re planning to launch a video agent product in early 2026.
Q. Which industries are adopting the technology the fastest?
Media, sports, and advertising are currently the fastest adopters. Defense and the public sector—especially CCTV—are also growing very quickly. MLSE has cut game analysis from days to minutes, and the city of Sejong is already using our models to index CCTV footage.
Q. What impact has joining AWS Bedrock had?
We feel it very directly. It’s been about five months since we joined Bedrock, and more than 30,000 enterprise customers have already started PoCs and pilots. In the past, developers had to integrate APIs manually; now, customers can scale with a few clicks. That has dramatically accelerated adoption.
Q. How do video data ecosystems differ between the U.S. and Korea?
The U.S. has a very active licensing market for video. AI companies buy video, and media companies buy and sell among themselves. Korea’s market is still relatively small but has strong growth potential.
Q. You currently run on NVIDIA GPUs. AWS has Trainium and Inferentia, and Google recently introduced TPU v7 and is selling it externally. As a startup, how do you handle the practical burden of porting to different chips?
It’s a very pointed question. Ultimately, what matters most is where our customers’ video assets live. The main reason we work most closely with AWS is that most large enterprises keep their video data there. That’s true for the majority of our customers, so starting with AWS made sense. Of course, we’re very interested in new chips as well, and our inference team is actively evaluating them from multiple angles.
Q. What direction is your collaboration with Naver taking?
We can’t share details yet, but alignment is strong at both the research and leadership levels. We’re discussing not just model integration, but globally exportable, full-stack AI solutions.
Q. Where do you want Twelve Labs to be in 3 to 5 years?
Our mission has never changed:
“To become the intelligence layer for the world’s video data.”
More concretely, we aim to index over 80% of the world’s video with Marengo.