[테크수다 기자 도안구 eyeball@techsuda.com] 알리바바 그룹이 6월 17일 Qwen 기반 로보틱스 파운데이션 모델 스위트 'Qwen-Robot Suite'를 공개했다. 구현형 지능(embodied intelligence) 분야의 진전을 보여주는 이번 스위트는 범용 비전-언어-액션(VLA) 모델 Qwen-RobotManip과 확장 가능한 비전-언어 내비게이션(VLN) 모델 Qwen-RobotNav, 비디오 월드 모델 Qwen-RobotWorld 등 세 가지 핵심 모델로 구성된다. 세 모델은 이동성과 조작, 물리 세계의 동작 원리까지 물리적 상호작용의 여러 측면을 포괄하도록 설계됐다.

주요 내용:

알리바바가 Qwen 기반 로보틱스 파운데이션 모델 스위트 'Qwen-Robot Suite'를 공개
조작(Qwen-RobotManip)·내비게이션(Qwen-RobotNav)·월드 모델(Qwen-RobotWorld) 등 세 가지 핵심 모델로 구성
RoboChallenge 등 수십 개 벤치마크에서 업계 최고 수준 성능 입증, 현재 실제 환경 파일럿 테스트 진행

Qwen-RobotManip(코드명 Lira, Atlas), 대규모 실제 로봇 기반 구현형 지능 평가 RoboChallenge 1위 달성

Qwen-Robot Suite는 Qwen의 멀티모달 역량인 언어 이해와 시각적 인식, 공간 추론을 물리 세계로 확장한다. 이를 바탕으로 로봇이 다양한 환경에 적응하고, 낯선 환경에서 새로운 작업을 처리하며, 처음 접하는 물체와 상호작용하면서 물리 법칙을 따르고 자연어 지시를 수행한다. 세 모델은 RoboChallenge를 비롯한 수십 개 로봇 평가 벤치마크에서 업계 최고 수준 성능을 입증했다. 알리바바는 현재 일부 알리바바 클라우드 기업 고객을 대상으로 실제 환경 파일럿 테스트를 진행하고 있다.

Qwen-RobotManip은 Qwen3.5-4B VL 모델을 기반으로 한 VLA 모델로, 로보틱스 리포지토리와 인간 조작 영상, 합성 인간-로봇 데이터셋 등 오픈소스 데이터 3만 8,000시간 이상을 학습했으며 RoboChallenge에서 1위를 기록하고 AgileX ALOHA와 Franka, UR, ARX 등 주요 로봇 하드웨어에서 검증을 마쳤다.

이 모델은 서로 다른 로봇 플랫폼 간 전이(cross-embodiment transfer) 성능에서 기존 최고 수준(SOTA) 대비 3배 향상을 달성해 재학습을 최소화하면서 다양한 하드웨어에 배포할 수 있다. Qwen3-VL을 기반으로 한 Qwen-RobotNav는 1,560만 건의 정제된 샘플로 학습한 내비게이션 엔진으로, 추론 시점에 작업 모드와 전략을 동적으로 선택해 구현형 질문 응답(EQA) 같은 장기 과제를 처리한다.

Qwen-Robot Suite, 로봇 평가 벤치마크 전 부문에서 업계 최고 수준 성능 입증

Qwen-RobotWorld는 현재 관측값을 토대로 물리 법칙에 부합하는 미래 시각 변화를 예측하는 비디오 월드 모델로, 860만 건의 비디오-텍스트 쌍을 학습해 합성 학습 데이터 생성과 실행 전 궤적 시뮬레이션을 지원하며 EWMBench와 DreamGen Bench에서 1위를 기록했다.

Qwen-Robot Suite는 범용 AI 모델을 물리 공간의 실용적 에이전트로 전환하는 길을 연다. 범용 Qwen 모델이 상위 전략을 기획하고 Qwen-RobotNav가 실시간 실행 도구로 기능하면, "코티커피(Cotti Coffee) 매장에 초록색 우산이 있는지 확인해 줘"와 같은 개방형 요청을 받아 물리 공간을 자율적으로 탐색하고 근거 기반 답변을 내놓을 수 있다.

알리바바는 향후 Qwen-Robot Suite를 물리적 에이전트 생태계 전반에 통합해, 복잡하고 변화하는 실제 환경에서 자율 인식과 공간 의사결정, 장기 실행 능력을 갖춘 에이전트 구현을 목표로 한다.

알리바바 Qwen-Robot Suite, 이런 점이 궁금하다

Q. Qwen-Robot Suite는 무엇인가.
A. 알리바바가 공개한 Qwen 기반 로보틱스 파운데이션 모델 스위트로, 조작·내비게이션·월드 모델 등 세 가지 핵심 모델로 구성된다. 범용 AI의 멀티모달 역량을 로봇의 물리적 상호작용으로 확장한 기술이다.

Q. 세 가지 모델은 각각 어떤 역할을 하나.
A. Qwen-RobotManip은 물체 조작을 담당하는 비전-언어-액션 모델, Qwen-RobotNav는 공간을 이동하는 비전-언어 내비게이션 모델, Qwen-RobotWorld는 미래 시각 변화를 예측하는 비디오 월드 모델이다.

Q. 지금 바로 사용할 수 있나.
A. 현재는 일부 알리바바 클라우드 기업 고객을 대상으로 실제 환경 파일럿 테스트를 진행하는 단계다.

Alibaba Unveils Qwen-Robot Suite, Its First Qwen-Based Robotics Foundation Models

SEOUL — Alibaba Group on June 17 unveiled Qwen-Robot Suite, a set of robotics foundation models built on its Qwen models that marks a step forward in embodied intelligence. The suite comprises three core models: Qwen-RobotManip, a general-purpose vision-language-action (VLA) model; Qwen-RobotNav, a scalable vision-language navigation (VLN) model; and Qwen-RobotWorld, a video world model. Together they are designed to cover a broad range of physical interaction, from mobility and manipulation to how the physical world behaves.

Key Highlights:

Alibaba released Qwen-Robot Suite, a robotics foundation model package built on Qwen
The suite pairs manipulation (Qwen-RobotManip), navigation (Qwen-RobotNav) and a world model (Qwen-RobotWorld)
The models topped dozens of benchmarks including RoboChallenge and are now in real-world pilot testing

Qwen-Robot Suite extends Qwen's multimodal capabilities — language understanding, visual perception and spatial reasoning — into the physical world. On that basis, robots can adapt to varied environments, take on new tasks in unfamiliar settings, interact with objects they encounter for the first time, obey physical laws and carry out natural-language instructions. The three models posted industry-leading results across dozens of robotics benchmarks, including RoboChallenge. Alibaba is currently running real-world pilot tests with a group of Alibaba Cloud enterprise customers in robotics.

Qwen-RobotManip, a VLA model built on the Qwen3.5-4B VL model, was trained on more than 38,000 hours of open-source data spanning robotics repositories, human manipulation footage and synthetic human-robot datasets; it ranked first on RoboChallenge and has been verified on major hardware platforms including AgileX ALOHA, Franka, UR and ARX. The model achieved a threefold gain over the previous state of the art in cross-embodiment transfer, allowing deployment across diverse hardware with minimal retraining. Qwen-RobotNav, built on Qwen3-VL and trained on 15.6 million curated samples, serves as a navigation engine that dynamically selects task modes and strategies at inference time to handle long-horizon tasks such as embodied question answering (EQA). Qwen-RobotWorld, a video world model that predicts physically consistent future visual changes from current observations, was trained on 8.6 million video-text pairs to generate synthetic training data and simulate trajectories before execution, ranking first on both EWMBench and DreamGen Bench.

Qwen-Robot Suite opens the way to turning general-purpose AI models into practical agents in physical space. With a general Qwen model acting as the high-level planner and Qwen-RobotNav serving as the real-time execution tool, the system can take an open-ended request — such as checking whether a green umbrella is sitting in a Cotti Coffee store — and autonomously explore the physical space to return a grounded answer. Alibaba aims to integrate the suite across a broader ecosystem of physical agents, building agents capable of high-level autonomous perception, spatial decision-making and long-horizon execution in complex, changing real-world settings.

Alibaba's Qwen-Robot Suite: What You May Want to Know

Q. What is Qwen-Robot Suite?
A. It is a robotics foundation model package from Alibaba, built on Qwen and made up of three core models for manipulation, navigation and world modeling. It extends general-purpose AI's multimodal capabilities into robots' physical interaction.

Q. What does each of the three models do?
A. Qwen-RobotManip is a vision-language-action model for manipulating objects, Qwen-RobotNav is a vision-language navigation model for moving through space, and Qwen-RobotWorld is a video world model that predicts future visual changes.

Q. Can it be used right away?
A. For now it is in real-world pilot testing with a limited group of Alibaba Cloud enterprise customers.

阿里巴巴发布首个基于Qwen的机器人基础模型套件Qwen-Robot Suite

首尔电——阿里巴巴集团6月17日发布基于Qwen的机器人基础模型套件Qwen-Robot Suite，标志其在具身智能领域取得重要进展。该套件由三大核心模型构成：通用视觉-语言-动作（VLA）模型Qwen-RobotManip、可扩展的视觉-语言导航（VLN）模型Qwen-RobotNav，以及视频世界模型Qwen-RobotWorld。三款模型旨在全面涵盖从移动、操作到物理世界运行规律等多方面的物理交互。

主要内容：

阿里巴巴发布基于Qwen的机器人基础模型套件Qwen-Robot Suite
套件由操作（Qwen-RobotManip）、导航（Qwen-RobotNav）与世界模型（Qwen-RobotWorld）三大核心模型组成
多款模型在RoboChallenge等数十项基准测试中达到业界领先水平，目前正进行真实环境试点测试

Qwen-Robot Suite将Qwen在语言理解、视觉感知与空间推理方面的多模态能力延伸至物理世界。在此基础上，机器人能够适应多样环境，在陌生场景中处理新任务，与首次接触的物体进行交互，遵循物理规律并准确执行自然语言指令。三款模型在包括RoboChallenge在内的数十项机器人评测基准中均展现出业界领先性能。阿里巴巴目前正面向部分阿里云机器人领域企业客户开展真实环境试点测试。

Qwen-RobotManip是基于Qwen3.5-4B VL模型构建的VLA模型，利用机器人代码库、人类操作视频与合成人机数据集等开源数据进行了超过3.8万小时的训练，在RoboChallenge中位列第一，并已在AgileX ALOHA、Franka、UR、ARX等主流机器人硬件平台完成验证。该模型在不同机器人平台间的迁移（cross-embodiment transfer）性能上较此前最优水平提升3倍，可在最小化再训练的情况下部署于多种硬件。基于Qwen3-VL的Qwen-RobotNav以1560万条精选样本训练而成，作为导航引擎可在推理时动态选择任务模式与策略，从而处理具身问答（EQA）等长程任务。Qwen-RobotWorld是一款视频世界模型，能够基于当前观测预测符合物理规律的未来视觉变化，通过860万对视频-文本数据训练，可生成合成训练数据并在执行前模拟轨迹，在EWMBench与DreamGen Bench中均位列第一。

Qwen-Robot Suite为将通用AI模型转化为物理空间中的实用智能体开辟了路径。当通用Qwen模型担任高层策略规划者、Qwen-RobotNav充当实时执行工具时，系统可接收诸如"确认Cotti Coffee门店是否摆放着绿色雨伞"之类的开放式请求，自主探索物理空间并返回有据可依的答案。阿里巴巴计划未来将该套件整合至更广泛的物理智能体生态，打造能够在复杂多变的真实环境中实现高度自主感知、空间决策与长程执行的智能体。

阿里巴巴Qwen-Robot Suite，您可能关心这些

问：Qwen-Robot Suite是什么？
答：这是阿里巴巴基于Qwen推出的机器人基础模型套件，由操作、导航与世界模型三大核心模型组成，将通用AI的多模态能力延伸至机器人的物理交互。

问：三款模型各自承担什么角色？
答：Qwen-RobotManip是负责操作物体的视觉-语言-动作模型，Qwen-RobotNav是用于空间移动的视觉-语言导航模型，Qwen-RobotWorld是预测未来视觉变化的视频世界模型。

问：现在能否直接使用？
答：目前处于面向部分阿里云企业客户的真实环境试点测试阶段。

アリババ、初のQwenベース・ロボティクス基盤モデル群「Qwen-Robot Suite」を公開

【ソウル】アリババ・グループは6月17日、Qwenをベースとするロボティクス基盤モデル群「Qwen-Robot Suite」を公開した。身体性知能（embodied intelligence）分野の前進を示す同モデル群は、汎用の視覚・言語・行動（VLA）モデル「Qwen-RobotManip」、拡張可能な視覚・言語ナビゲーション（VLN）モデル「Qwen-RobotNav」、ビデオ世界モデル「Qwen-RobotWorld」の三つの中核モデルで構成される。三モデルは移動や操作、物理世界の動作原理まで、物理的相互作用の多様な側面を包括的に扱うよう設計された。

主なポイント：

アリババがQwenベースのロボティクス基盤モデル群「Qwen-Robot Suite」を公開
操作（Qwen-RobotManip）・ナビゲーション（Qwen-RobotNav）・世界モデル（Qwen-RobotWorld）の三つの中核モデルで構成
RoboChallengeなど数十の評価基準で業界最高水準の性能を実証し、現在は実環境での試験運用を実施

Qwen-Robot Suiteは、言語理解や視覚認識、空間推論といったQwenのマルチモーダル能力を物理世界へ拡張する。これにより、ロボットは多様な環境に適応し、不慣れな場面でも新たな作業を処理し、初めて接する物体と相互作用しながら物理法則に従い、自然言語の指示を正確に実行する。三つのモデルはRoboChallengeをはじめとする数十のロボット評価基準で業界最高水準の性能を実証した。アリババは現在、一部のアリババクラウド法人顧客を対象に実環境での試験運用を進めている。

Qwen-RobotManipはQwen3.5-4B VLモデルを基盤とするVLAモデルで、ロボティクスのリポジトリや人間の操作映像、合成人間・ロボットデータセットなどのオープンソースデータ3万8千時間以上を学習し、RoboChallengeで首位を獲得、AgileX ALOHAやFranka、UR、ARXなど主要ロボットハードウェアで検証を終えた。同モデルは異なるロボット間の転移（cross-embodiment transfer）性能で従来の最高水準を3倍上回り、再学習を最小限に抑えながら多様なハードウェアへ展開できる。Qwen3-VLを基盤とするQwen-RobotNavは1560万件の精選サンプルで学習したナビゲーションエンジンで、推論時に作業モードと戦略を動的に選択し、身体性質問応答（EQA）のような長期的課題を処理する。Qwen-RobotWorldは現在の観測値から物理法則に沿った将来の視覚変化を予測するビデオ世界モデルで、860万件の動画・テキストの組で学習し、合成学習データの生成や実行前の軌道シミュレーションを可能にし、EWMBenchとDreamGen Benchの双方で首位を記録した。

Qwen-Robot Suiteは、汎用AIモデルを物理空間の実用的なエージェントへと転換する道を開く。汎用Qwenモデルが上位の戦略立案を担い、Qwen-RobotNavがリアルタイムの実行ツールとして機能すれば、「コッティコーヒー（Cotti Coffee）の店舗に緑色の傘が置かれているか確認して」といった自由形式の要求を受け、物理空間を自律的に探索して根拠に基づく回答を返すことができる。アリババは今後、同モデル群を物理エージェントの生態系全体へ統合し、複雑で変化する実環境で高度な自律認識、空間的意思決定、長期的実行を備えたエージェントの実現を目指す。

アリババ「Qwen-Robot Suite」、ここが気になる

Q. Qwen-Robot Suiteとは何か。
A. アリババがQwenをベースに公開したロボティクス基盤モデル群で、操作・ナビゲーション・世界モデルの三つの中核モデルで構成される。汎用AIのマルチモーダル能力をロボットの物理的相互作用へ拡張した技術だ。

Q. 三つのモデルはそれぞれどんな役割を担うのか。
A. Qwen-RobotManipは物体を操作する視覚・言語・行動モデル、Qwen-RobotNavは空間を移動する視覚・言語ナビゲーションモデル、Qwen-RobotWorldは将来の視覚変化を予測するビデオ世界モデルだ。

Q. すぐに利用できるのか。
A. 現在は一部のアリババクラウド法人顧客を対象とした実環境での試験運用の段階だ。

[Seoul = Techsuda eyeball@techsuda.com]