리얼월드, 로보틱스 파운데이션 모델 'RLDX-1' 공개…글로벌 공개 모델 중 최고 성능
[테크수다 기자 도안구 eyeball@techsuda.com] 피지컬 AI 기업 리얼월드(RLWRLD, 대표 류중희)는 7일 독자 개발한 로보틱스 파운데이션 모델(RFM) 'RLDX-1'을 공식 공개했다. RLDX-1은 엔비디아의 그루트(GR00T), 피지컬 인텔리전스의 파이제로(π0) 등 글로벌 공개 모델을 모두 앞서며 최고 성능을 기록했다. 5지(5-finger) 로봇 손에 인간 수준의 정교한 조작 능력을 부여하는 'Dexterity-First' 설계 철학을 적용했다는 점이 특징이다. 리얼월드는 이번 공개와 함께 한국과 일본의 주요 대기업과 RX(Robotics Transformation) 프로젝트를 본격화한다.
주요 내용:
- RLDX-1은 글로벌 공개 벤치마크 8종에서 엔비디아 그루트, 피지컬 인텔리전스 파이제로 등 기존 최고 성능(SOTA) 모델을 모두 앞서는 결과를 거뒀다.
- 핵심 아키텍처 'MSAT(Multi-Stream Action Transformer)'는 시각·언어를 넘어 힘(토크)·촉각·작업 기억까지 단일 모델에서 함께 처리한다.
- SK텔레콤·LG전자·CJ대한통운·롯데·KDDI·ANA홀딩스·미쓰이화학·시마즈제작소 등 한일 주요 대기업으로부터 투자를 유치했고, 10여 개 대기업과 PoC·RX 프로젝트를 진행하고 있다.
RLDX-1은 장기·접촉 중심 과제로 설계된 'RoboCasa Kitchen' 평가에서 70.6점을 기록하며 70점대를 돌파한 세계 최초의 VLA(Vision-Language-Action) 모델이 됐다. 휴머노이드 전용 평가인 'GR-1 Tabletop'에서는 58.7점을 기록해 차순위 모델인 엔비디아 GR00T N1.6과 10.7%포인트 격차를 벌렸다. 카메라·조명·언어·배경 등 7개 변수에 대한 강건성 평가 'LIBERO-Plus'에서도 86.7%를 기록했다. 실제 로봇 환경에서는 격차가 더 벌어졌으며, 위로보틱스 휴머노이드 ALLEX 기반 평가에서 '커피 따르기' 과제 성공률이 70.8%로 비교 대상 모델(30%대 후반)의 약 두 배에 달했다.
핵심 아키텍처 MSAT는 각 모달리티에 독립된 스트림을 부여한 뒤 모달리티 간 조인트 어텐션으로 통합하는 구조다. 시각으로는 잡히지 않는 힘·촉각 등 물리 신호와 장기 기억은 별도 모듈(Physics Module, Memory Module)에서 처리해 단일 모델이 보고, 느끼고, 기억하고, 적응하도록 설계됐다.
배재경 리얼월드 CTO는 "각 모달리티가 자기 자리에서 충분히 표현되도록 구조를 분리한 것이 RLDX-1의 핵심"이라며 "토크 신호로 접촉 순간을 정확히 포착하고 시간 축의 동적 변화를 추론하는 능력은 기존 VLA가 구조적으로 다루기 어려웠던 영역"이라고 설명했다.
리얼월드는 이번에 사전학습 체크포인트(RLDX-1-PT)와 플랫폼별 미드-트레이닝 체크포인트 두 종(RLDX-1-MT-ALLEX, RLDX-1-MT-DROID) 등 총 3종(각 8.1B 파라미터)을 함께 공개했다. 모델 가중치, 학습 코드, 기술 문서는 깃허브와 허깅페이스를 통해 외부 연구자에게도 공개됐다.
류중희 리얼월드 대표는 "픽셀에 담기지 않은 정보는 영상을 아무리 수집해도 나타나지 않는다"며 "RLDX-1은 우리가 향하는 방향의 첫 번째 마일스톤일 뿐이며, 오늘이 4D+ 월드 모델로 나아가는 긴 로드맵의 출발점"이라고 말했다.
리얼월드는 미국 론칭 행사를 시작으로 일본과 한국에서도 순차적으로 RLDX-1 론칭 행사를 진행할 예정이다.
RLDX-1과 피지컬 AI 경쟁 구도, 이런 점이 궁금하다
Q. RLDX-1이 기존 VLA 모델과 구조적으로 어떻게 다른가.
A. 기존 VLA는 시각·언어·행동 신호를 단일 스트림 트랜스포머에서 처리하지만, RLDX-1의 MSAT 구조는 각 모달리티에 독립된 스트림을 부여한다. 특히 시각으로 잡히지 않는 힘(토크)·촉각·작업 기억을 별도 모듈에서 처리해 산업 현장의 정교한 손 작업에 대응할 수 있도록 했다.
Q. 글로벌 모델 대비 성능 우위가 실제 산업 현장에서 어떤 의미를 갖는가.
A. 동적 무게 변화를 다뤄야 하는 '커피 따르기' 과제에서 RLDX-1의 성공률은 70.8%로, 30%대 후반에 머문 비교 모델 대비 약 두 배에 이른다. 이는 제조·물류 등 산업 현장의 정교한 조작 작업이 자동화 단계로 진입할 수 있는 기술적 토대가 마련됐음을 시사한다.
Q. 4D+ 월드 모델은 무엇이며 왜 중요한가.
A. 4D+ 월드 모델은 시각·언어·행동에 더해 접촉·토크·로봇 상태까지 시간 축 위에서 통합 예측하는 차세대 모델이다. 영상 데이터만으로는 추출되지 않는 물리 정보를 직접 시뮬레이션하는 구조이며, 리얼월드는 RLDX-1을 그 출발점으로 삼고 있다.
RLWRLD Unveils Robotics Foundation Model 'RLDX-1,' Tops Global Open Models in Performance
SEOUL — Physical AI startup RLWRLD, led by CEO Joong-Hee Ryu, on Thursday unveiled its proprietary robotics foundation model (RFM) called RLDX-1, which the company said outperformed all major open models including NVIDIA's GR00T and Physical Intelligence's π0 across global benchmarks. The model is built on a "Dexterity-First" design philosophy aimed at giving five-finger robotic hands human-level manipulation skills. RLWRLD said it is now accelerating Robotics Transformation (RX) projects with major Korean and Japanese conglomerates following the launch.
RLDX-1 became the world's first vision-language-action (VLA) model to break the 70-point threshold on RoboCasa Kitchen, a benchmark designed for long-horizon and contact-rich tasks, scoring 70.6. On the humanoid-specific GR-1 Tabletop benchmark, it scored 58.7, opening a 10.7 percentage point gap over the next-best NVIDIA GR00T N1.6. The model also recorded 86.7 percent on LIBERO-Plus, a robustness benchmark covering seven variables including camera, lighting, language and background. In real-world tests on Wirobotics' humanoid ALLEX, RLDX-1 achieved a 70.8 percent success rate on a pot-to-cup pouring task involving dynamic weight changes — roughly twice the performance of comparable models that hovered in the high 30s.
The technical core of RLDX-1 is the Multi-Stream Action Transformer (MSAT) architecture, which assigns an independent stream to each modality and integrates them through joint attention across modalities. Physical signals such as torque and tactile feedback, along with long-term memory, are handled in dedicated Physics and Memory modules so that a single model can see, feel, remember and adapt.
Jaekyung Bae, CTO of RLWRLD, said separating the structure so each modality can be fully expressed is the heart of RLDX-1, adding that capturing the moment of contact through torque signals and inferring dynamic changes along the time axis are areas conventional VLA models have struggled to address structurally.
RLWRLD has released three checkpoints, each with 8.1 billion parameters: a pretrained version (RLDX-1-PT) and two platform-specific mid-training versions (RLDX-1-MT-ALLEX and RLDX-1-MT-DROID), with model weights, training code and technical documentation made available to outside researchers via GitHub and Hugging Face. The company has secured investment from major Korean and Japanese corporations including SK Telecom, LG Electronics, CJ Logistics, Lotte, KDDI, ANA Holdings, Mitsui Chemicals and Shimadzu Corporation, and is running benchmark co-development, proof-of-concept and RX projects with more than ten conglomerates.
CEO Ryu said information not captured in pixels cannot be obtained no matter how much video data is collected, calling RLDX-1 the first milestone on a long roadmap toward a next-generation 4D+ world model. RLWRLD plans to roll out RLDX-1 launch events in Japan and Korea following its U.S. debut.
Key Questions on RLDX-1 and the Physical AI Race
Q. How does RLDX-1 structurally differ from existing VLA models?
A. Conventional VLA models process vision, language and action signals through a single-stream transformer, while RLDX-1's MSAT architecture assigns an independent stream to each modality. Critically, torque, tactile signals and working memory — which cannot be captured by vision alone — are processed in dedicated modules, enabling precise hand operations required on industrial sites.
Q. What does the performance edge over global models mean for industrial deployment?
A. RLDX-1 achieved a 70.8 percent success rate on a pot-to-cup pouring task involving dynamic weight changes, roughly double the rate of comparison models that scored in the high 30s. This suggests that the technical foundation is now in place for automating delicate manipulation tasks across manufacturing and logistics environments.
Q. What is the 4D+ world model and why does it matter?
A. The 4D+ world model is a next-generation framework that jointly predicts contact, torque and robot state alongside vision, language and action along the time axis. It directly simulates physical information that cannot be extracted from video data alone, and RLWRLD positions RLDX-1 as the starting point of this roadmap.
RLWRLD发布机器人基础模型"RLDX-1" 性能领跑全球开源模型
首尔 — 物理AI企业RLWRLD(代表柳重熙)7日正式发布自主研发的机器人基础模型(RFM)"RLDX-1"。该公司表示,RLDX-1在全球公开基准测试中全面超越英伟达GR00T、Physical Intelligence的π0等现有最先进开源模型。RLDX-1基于"灵巧优先(Dexterity-First)"设计理念,旨在赋予五指机器人手以人类水准的精细操作能力。RLWRLD借此次发布,正式启动与韩日主要大企业的机器人转型(RX)项目。
RLDX-1在面向长程及接触密集任务的"RoboCasa Kitchen"基准中获得70.6分,成为全球首个突破70分大关的视觉-语言-动作(VLA)模型。在人形机器人专用评测"GR-1 Tabletop"中得分58.7,较次席模型英伟达GR00T N1.6高出10.7个百分点。在涵盖摄像头、光照、语言、背景等7项变量的鲁棒性评测"LIBERO-Plus"中亦达到86.7%。在真实机器人环境下差距更为明显,基于Wirobotics人形机器人ALLEX的"咖啡倾倒(Pot-to-Cup Pouring)"动态重量任务中,RLDX-1成功率达70.8%,约为对比模型(30%出头)的两倍。
RLDX-1的核心架构是多流动作变换器(MSAT)。该结构为每种模态分配独立数据流,再通过模态间联合注意力机制实现整合。视觉无法捕捉的力(扭矩)、触觉等物理信号和长期记忆,由独立模块(Physics Module、Memory Module)处理,使单一模型具备"看、感、记、适应"四项能力。RLWRLD首席技术官裴在京表示,将各模态分置于独立结构中以充分表达,正是RLDX-1的核心所在。他还强调,通过扭矩信号精准捕捉接触瞬间并沿时间轴推断动态变化,是传统VLA模型在结构上难以应对的领域。
此次RLWRLD一并公开了预训练检查点(RLDX-1-PT)及两款平台专用中段训练检查点(RLDX-1-MT-ALLEX、RLDX-1-MT-DROID),共3款模型(各81亿参数)。模型权重、训练代码及技术文档已通过GitHub和Hugging Face向外部研究人员开放。RLWRLD已从SK电讯、LG电子、CJ大韩通运、乐天、KDDI、全日空控股、三井化学、岛津制作所等韩日主要企业获得投资,并与十余家大企业推进基准联合开发、概念验证(PoC)及RX项目。柳重熙代表表示,未被像素记录的信息,无论积累多少视频数据都无从获取,RLDX-1只是公司前进方向上的首个里程碑,今天是迈向4D+世界模型这一长期路线图的起点。RLWRLD计划在美国发布会之后,在日本和韩国陆续举办RLDX-1发布活动。
关于RLDX-1与物理AI竞争格局的几大焦点
Q. RLDX-1与现有VLA模型在结构上有何差异?
A. 传统VLA模型在单流变换器中处理视觉、语言、动作信号,而RLDX-1的MSAT架构为每种模态分配独立数据流。尤其是视觉无法捕捉的力(扭矩)、触觉及工作记忆,均由独立模块处理,从而能够应对工业现场的精细手部作业。
Q. 相对全球模型的性能优势对实际产业应用意味着什么?
A. 在需要应对动态重量变化的"咖啡倾倒"任务中,RLDX-1成功率达70.8%,约为停留在30%出头的对比模型的两倍。这表明制造、物流等产业现场的精细操作作业进入自动化阶段所需的技术基础已经具备。
Q. 4D+世界模型为何重要?
A. 4D+世界模型是在视觉、语言、动作之外,沿时间轴整合预测接触、扭矩、机器人状态等信息的下一代模型。它直接模拟仅靠视频数据无法提取的物理信息,RLWRLD将RLDX-1定位为该路线图的起点。
RLWRLD、ロボティクス基盤モデル「RLDX-1」を公開 グローバル公開モデルで最高性能
【ソウル】フィジカルAI企業のRLWRLD(代表・柳重煕氏)は7日、自社開発のロボティクス基盤モデル(RFM)「RLDX-1」を正式に公開した。同モデルはエヌビディアの「GR00T」やフィジカル・インテリジェンスの「π0」などグローバル公開モデルを抑え、最高性能を記録したという。5本指ロボットハンドに人間水準の精緻な操作能力を付与する「Dexterity-First」設計思想を採用した点が特徴である。RLWRLDは今回の公開を機に、日韓の主要大企業とのロボティクス・トランスフォーメーション(RX)プロジェクトを本格化させる。
RLDX-1は長期・接触中心タスク向けの「RoboCasa Kitchen」評価で70.6点を記録し、70点台を突破した世界初のビジョン・ランゲージ・アクション(VLA)モデルとなった。ヒューマノイド専用評価「GR-1 Tabletop」では58.7点を記録し、次席のエヌビディアGR00T N1.6に10.7ポイントの差をつけた。カメラ・照明・言語・背景など7変数を対象とした堅牢性評価「LIBERO-Plus」でも86.7%を記録した。実機環境ではさらに差が広がり、Wiroboticsのヒューマノイド「ALLEX」を用いた「コーヒー注ぎ(Pot-to-Cup Pouring)」課題で動的な重量変化に対応した成功率は70.8%となり、30%台後半に留まった比較モデルのおよそ2倍に達した。
技術的中核は、マルチストリーム・アクション・トランスフォーマー(MSAT)構造である。視覚・言語・行動・触覚・メモリーといった異なる信号を単一ストリームのトランスフォーマーで処理する従来のVLAとは異なり、MSATは各モダリティに独立したストリームを割り当て、モダリティ間の共同アテンションで統合する。視覚では捉えられない力(トルク)・触覚などの物理信号と長期記憶は別モジュール(Physics Module、Memory Module)で処理し、単一モデルが「見て、感じ、記憶し、適応する」よう設計した。裴在京CTOは、各モダリティが自らの位置で十分に表現できるよう構造を分離した点がRLDX-1の核心であると述べたうえで、トルク信号で接触の瞬間を正確に捉え、時間軸上の動的変化を推論する能力は従来のVLAが構造的に扱いにくい領域だったと説明した。
RLWRLDは事前学習チェックポイント(RLDX-1-PT)と、プラットフォーム別ミッドトレーニングチェックポイント2種(RLDX-1-MT-ALLEX、RLDX-1-MT-DROID)を含む計3種(各81億パラメータ)を同時公開した。モデル重み、学習コード、技術文書はGitHubおよびHugging Faceを通じて外部研究者にも公開されている。同社はSKテレコム、LG電子、CJ大韓通運、ロッテ、KDDI、ANAホールディングス、三井化学、島津製作所など日韓主要企業から投資を受け、10社あまりの大企業とベンチマーク共同開発、PoC(概念実証)、RXプロジェクトを推進している。柳代表は、ピクセルに収まらない情報は映像をいくら集めても得られないと指摘し、RLDX-1は同社が向かう方向の最初のマイルストーンに過ぎず、今日が4D+ワールドモデルへ向かう長いロードマップの出発点だと語った。RLWRLDは米国発表会を皮切りに、日本と韓国でも順次RLDX-1ローンチイベントを開催する予定である。
RLDX-1とフィジカルAI競争の焦点
Q. RLDX-1は既存のVLAモデルと構造的にどう違うのか。
A. 従来のVLAモデルは視覚・言語・行動信号を単一ストリームのトランスフォーマーで処理するが、RLDX-1のMSAT構造は各モダリティに独立したストリームを割り当てる。特に視覚では捉えられない力(トルク)・触覚・作業記憶を別モジュールで処理するため、産業現場の精緻な手作業に対応できる。
Q. グローバルモデルに対する性能優位は産業応用にどのような意味を持つか。
A. 動的な重量変化に対応する必要のある「コーヒー注ぎ」課題でRLDX-1の成功率は70.8%に達し、30%台後半に留まった比較モデルのおよそ2倍だった。製造・物流など産業現場の精緻な操作作業を自動化する段階に進むための技術基盤が整いつつあることを示唆する。
Q. 4D+ワールドモデルとは何か、なぜ重要なのか。
A. 4D+ワールドモデルは、視覚・言語・行動に加え、接触・トルク・ロボット状態を時間軸上で統合的に予測する次世代モデルである。映像データだけでは抽出できない物理情報を直接シミュレーションする構造であり、RLWRLDはRLDX-1をそのロードマップの出発点と位置づけている。
[Seoul = Techsuda eyeball@techsuda.com]