앤쓰로픽, 최상위 AI 모델 '클로드 오퍼스 4.6' 공개…실무 성능 GPT-5.2 압도

[테크수다 기자 도안구 eyeball@techsuda.com] 앤쓰로픽(Anthropic)이 최상위 모델 클로드 오퍼스(Claude Opus) 4.6을 공개했다. 전작 오퍼스 4.5 대비 코딩, 장문 처리, 안전성 모두 끌어올린 모델이다. 오퍼스급 모델로는 처음으로 100만 토큰(Token) 컨텍스트 윈도우(Context Window)를 베타 지원한다.

금융·법률 등 실무 지식노동 역량을 측정하는 지디피밸-AA(GDPval-AA) 평가에서 오퍼스 4.6은 오픈AI(OpenAI)의 GPT-5.2를 엘로(Elo) 144점 차로 앞섰다. 앤트로픽에 따르면 이는 오퍼스 4.6이 GPT-5.2보다 약 70%의 확률로 더 높은 점수를 받는다는 의미다. 전작 오퍼스 4.5(Opus 4.5)와의 격차는 190점이었다. 해당 평가는 아티피셜 애널리시스(Artificial Analysis)가 독립적으로 운영한다.

에이전틱 코딩(Agentic Coding) 평가인 터미널벤치 2.0(Terminal-Bench 2.0), 복합 다학제 추론 시험 휴머니티즈 라스트 이그잼(Humanity's Last Exam), 온라인 정보 검색 능력을 측정하는 브라우즈컴프(BrowseComp)에서도 모두 업계 최고점을 기록했다.

가장 주목할 변화는 장문맥 처리 능력이다. 방대한 텍스트 속에 숨겨진 정보를 찾아내는 MRCR v2 테스트(8-니들, 100만 토큰 조건)에서 오퍼스 4.6은 76%를 기록했다. 같은 조건에서 소넷 4.5(Sonnet 4.5)가 18.5%에 그쳤던 것과 비교하면, 대화가 길어질수록 성능이 떨어지는 이른바 '컨텍스트 부패(Context Rot)' 문제를 상당 부분 해소한 셈이다.

앤트로픽은 "장문맥에서 정보를 찾아내는 능력, 그 정보를 흡수한 뒤 추론하는 능력, 전문가 수준의 추론 능력 전반이 크게 향상됐다"고 설명했다.

API 측면에서는 모델이 스스로 깊이 사고할 시점을 판단하는 적응형 사고(Adaptive Thinking), 로우(Low)부터 맥스(Max)까지 4단계 에포트 조절(Effort Control), 오래된 맥락을 자동 요약하는 컨텍스트 압축(Context Compaction) 등이 도입됐다. 최대 출력은 128K 토큰으로 늘었다.

클로드 코드(Claude Code)에는 여러 에이전트가 병렬로 협업하는 에이전트 팀(Agent Teams) 기능이 리서치 프리뷰로 추가됐다. 코드베이스 리뷰처럼 독립적·읽기 집약적 작업에 적합하다는 설명이다.

오피스 도구 연동도 강화했다. 클로드 인 엑셀(Claude in Excel)의 성능을 대폭 개선했고, 클로드 인 파워포인트(Claude in PowerPoint)를 리서치 프리뷰로 신규 출시해 엑셀에서 정리한 데이터를 파워포인트에서 바로 시각화할 수 있게 했다. 맥스(Max)·팀(Team)·엔터프라이즈(Enterprise) 플랜에서 사용 가능하다.

앤트로픽은 오퍼스 4.6에 역대 가장 포괄적인 안전 평가를 적용했다고 강조했다. 자동화 행동 감사(Automated Behavioral Audit)에서 기만·아첨·오용 협력 등 비정렬 행동(Misaligned Behavior) 비율은 전작 수준 이하였으며, 정당한 질문을 부당하게 거부하는 과잉 거부(Over-Refusal) 비율은 최근 클로드 모델 중 가장 낮았다.

사이버보안 능력이 강화된 점을 감안해 악용 방지를 위한 6개 신규 탐지 프로브(Probe)를 추가했으며, 오픈소스 소프트웨어의 취약점 발견·패치에 모델을 활용하는 사이버 방어 전략도 병행한다고 밝혔다.

토큰 가격은 입력 5달러·출력 25달러(백만 토큰당)로 전작과 동일하다. 200K 토큰을 초과하는 프롬프트에는 프리미엄 가격(입력 10달러·출력 37.5달러)이 적용된다. 모델 식별자는 claude-opus-4-6이며, claude.ai와 API, 주요 클라우드 플랫폼에서 즉시 사용할 수 있다.

[테크수다 기자 도안구 eyeball@techsuda.com]

핵심 요약 3가지

① 실무 업무 성능에서 경쟁사 압도

지디피밸(GDPval-AA) 평가에서 오픈AI(OpenAI)의 GPT-5.2를 엘로(Elo) 144점 차로, 자사 전작 오퍼스 4.5(Opus 4.5)를 190점 차로 앞섰다. 금융·법률 등 실무 지식노동(Knowledge Work) 영역에서 업계 최고 성능을 기록했다.

② 100만 토큰(1M Token) 컨텍스트 윈도우(Context Window) — 오퍼스급 최초

장문맥 검색 테스트 MRCR v2(8-니들, 100만 토큰)에서 76%를 달성했다. 소넷 4.5(Sonnet 4.5)의 18.5%와 비교하면 질적 도약이다. 대화가 길어질수록 성능이 떨어지는 이른바 '컨텍스트 부패(Context Rot)' 문제를 상당 부분 해소했다.

③ 성능 향상에도 안전성 유지, 과잉 거부(Over-Refusal)는 역대 최저

자동화 행동 감사(Automated Behavioral Audit)에서 기만·아첨·오용 협력 등 비정렬 행동(Misaligned Behavior) 비율이 전작 수준 이하다. 동시에 정당한 질문을 부당하게 거부하는 과잉 거부율은 최근 클로드(Claude) 모델 중 가장 낮다.

경쟁사 비교 — 주요 벤치마크(Benchmark) 성적

평가 항목	클로드 오퍼스 4.6	비교 대상	비고
지디피밸-AA(GDPval-AA)	업계 1위	GPT-5.2 대비 +144 Elo, 오퍼스 4.5 대비 +190 Elo	금융·법률 등 실무 지식노동 평가. 아티피셜 애널리시스(Artificial Analysis)가 독립 운영
터미널벤치 2.0(Terminal-Bench 2.0)	최고점	—	에이전틱 코딩(Agentic Coding) 평가
휴머니티즈 라스트 이그잼(Humanity's Last Exam)	최고점	모든 프런티어 모델(Frontier Model) 대비	복합 다학제 추론 평가. 웹 검색·코드 실행 등 도구 활용 조건
브라우즈컴프(BrowseComp)	최고점 (멀티에이전트 시 86.8%)	—	난이도 높은 온라인 정보 검색 능력 평가
SWE-벤치 베리파이드(SWE-bench Verified)	평균 점수 (프롬프트 수정 시 81.42%)	—	25회 시행 평균. 소프트웨어 엔지니어링 평가
MCP 아틀라스(MCP Atlas)	맥스 에포트(Max Effort) 시 최고점, 하이 에포트 시 62.7%	업계 선도 수준	도구 활용(Tool Use) 평가
MRCR v2 (8-니들, 1M)	76%	소넷 4.5: 18.5%	장문맥 정보 검색(Long-Context Retrieval)
ARC AGI 2	맥스 에포트 기준	—	120K 씽킹 버짓(Thinking Budget) 조건

참고: GPT-5.2 및 제미나이 3 프로(Gemini 3 Pro)는 각 사가 공개한 최고 버전 기준으로 비교.

API·개발자 플랫폼 주요 업데이트

적응형 사고(Adaptive Thinking) 기존에는 확장 사고(Extended Thinking)를 켜거나 끄는 이분법이었다. 이제 모델이 스스로 깊이 생각할 필요가 있는지 판단한다.
에포트 조절(Effort Control) 로우(Low)·미디엄(Medium)·하이(High, 기본값)·맥스(Max) 4단계. 지능·속도·비용 균형을 개발자가 세밀하게 조절할 수 있다. 모델이 과도하게 생각하는 경우 미디엄으로 낮추면 된다.
컨텍스트 압축(Context Compaction, 베타) 긴 대화나 에이전틱 작업 중 컨텍스트 윈도우 한계에 도달하면, 오래된 맥락을 자동 요약·교체한다.
128K 출력 토큰(Output Tokens) 한 번의 요청으로 최대 128K 토큰 출력 가능. 대규모 결과물을 여러 번 나눠 요청할 필요가 줄었다.
미국 전용 추론(US-only Inference) 미국 내 처리가 필요한 워크로드를 위해 1.1배 토큰 가격으로 제공.

제품 업데이트

클로드 코드(Claude Code) — 에이전트 팀(Agent Teams) 여러 에이전트가 병렬로 협업하는 구조. 코드베이스 리뷰 같은 독립적·읽기 집약적 작업에 적합하다. 리서치 프리뷰(Research Preview) 단계.
클로드 인 엑셀(Claude in Excel) 비정형 데이터 인식, 구조 자동 추론, 멀티스텝 변경 일괄 처리 등 성능 대폭 개선.
클로드 인 파워포인트(Claude in PowerPoint) — 신규 출시 엑셀에서 데이터를 정리한 뒤 파워포인트에서 시각화하는 워크플로 지원. 사용자의 레이아웃·폰트·슬라이드 마스터를 읽어 브랜드 일관성을 유지한다. 맥스(Max)·팀(Team)·엔터프라이즈(Enterprise) 플랜 대상 리서치 프리뷰.

가격

구분	입력(Input)	출력(Output)
기본 (200K 토큰 이하)	$5 / 백만 토큰	$25 / 백만 토큰
프리미엄 (200K 토큰 초과)	$10 / 백만 토큰	$37.50 / 백만 토큰

전작 오퍼스 4.5와 동일한 가격 체계.

안전성(Safety)

앤트로픽은 오퍼스 4.6에 역대 가장 포괄적인 안전 평가를 적용했다고 밝혔다. 사용자 웰빙(User Wellbeing) 평가, 복잡한 거부 테스트, 해석 가능성(Interpretability) 기법을 새로 도입했다. 사이버보안 능력이 강화된 만큼 악용 방지를 위한 6개 신규 탐지 프로브(Probe)도 추가했으며, 오픈소스 소프트웨어의 취약점 발견·패치에 모델을 적극 활용하는 사이버 방어 전략도 병행한다.