Tech Signal2026-05-29

Claude Opus 4.8 출시 -- SWE-bench Pro 69.2%, 에이전트 정직성과 Dynamic Workflows

Anthropic이 Claude Opus 4.8을 출시했다. SWE-bench Pro 69.2%로 GPT-5.5를 제치고, '자기 실수를 스스로 잡는' 정직성 개선과 수백 개 서브에이전트를 병렬 실행하는 Dynamic Workflows를 도입했다.

Anthropic이 5월 28일 Claude Opus 4.8을 출시했다. Opus 4.7 대비 "modest but tangible improvement"라고 스스로 표현했지만, 벤치마크 숫자와 신규 기능을 보면 실질적 변화가 적지 않다. 동시에 차세대 Mythos-class 모델의 수주 내 출시도 예고했다.

핵심 벤치마크

벤치마크 Opus 4.8 Opus 4.7 GPT-5.5
SWE-bench Verified 88.6% 84.2% -
SWE-bench Pro 69.2% 64.3% 58.6%

SWE-bench Pro에서 Opus 4.7 대비 +4.9%p, GPT-5.5 대비 +10.6%p 격차를 보인다. 에이전틱 코딩, 멀티디시플리너리 추론, 컴퓨터 사용, 금융 분석 등 전 영역에서 경쟁 모델을 앞섰다는 것이 Anthropic의 주장이다.

세 가지 핵심 변화

1. 에이전트 정직성(Agentic Honesty)

Opus 4.8의 가장 두드러진 특징은 자기 실수를 잡는 능력이다. 기존 AI 모델의 고질적 문제는 근거 없이 자신감 있게 진행 상황을 보고하는 것이었다. Opus 4.8은 미보고 코드 결함을 4분의 1로 줄였다. 불확실한 부분은 스스로 플래그를 달고, 근거가 약한 주장은 하지 않도록 훈련되었다.

이것은 단순한 성능 개선이 아니라 신뢰 설계의 변화다. AI를 에이전트로 쓸수록, "잘 모르겠습니다"라고 말할 수 있는 능력이 "다 잘합니다"보다 중요해진다.

2. Dynamic Workflows (리서치 프리뷰)

Claude Code에 도입된 Dynamic Workflows는 대규모 작업을 위한 기능이다. Claude가 작업 계획을 세운 뒤, 수백 개의 병렬 서브에이전트를 동시에 실행하고, 결과를 검증한 후 보고한다. 수백 개 파일에 걸친 마이그레이션, 대규모 리팩토링 같은 작업을 단일 세션에서 처리할 수 있다.

3. Effort Control

사용자가 Claude의 "노력 수준"을 직접 조절할 수 있게 됐다. 설정 옵션은 다음과 같다:

설정 용도
Low 빠른 응답, 토큰 소비 최소화
High (기본) Opus 4.7 수준 이상의 품질
Extra 장시간 비동기 작업에 최적

단순 질문에는 Low로 빠르게, 복잡한 코딩 작업에는 Extra로 깊게 -- 사용자가 비용과 품질의 트레이드오프를 직접 결정한다.

가격과 속도

항목 수치
입력 토큰 $5 / 백만 토큰
출력 토큰 $25 / 백만 토큰
컨텍스트 윈도우 1,000,000 토큰
최대 출력 128,000 토큰
Fast 모드 속도 2.5배
Fast 모드 비용 이전 모델 대비 3배 저렴

가격은 Opus 4.7과 동일하다. Fast 모드가 3배 저렴해진 것이 실무적으로 가장 체감이 큰 변화다. 속도가 필요한 에이전틱 워크플로우에서 비용 부담이 크게 줄어든다.

Mythos-class 모델 예고

Anthropic은 Opus 4.8 발표와 함께 차세대 Mythos-class 모델의 존재를 공식 확인했다. 현재 Project Glasswing이라는 프로그램 하에 Amazon, Microsoft, Apple 등 주요 기업이 사이버 보안 용도로 Mythos Preview를 사용 중이다. 수주 내에 일반 고객에게도 공개될 예정이다.

Mythos급 모델의 사이버 보안 역량이 "우려를 낳을 정도"라는 표현이 나왔다는 점에서, 이 모델이 기존 Opus 시리즈와는 차원이 다른 능력을 갖추고 있음을 시사한다.

IPO 경쟁의 맥락

이번 출시는 Anthropic의 2026년 10월 IPO 추진과 맞물려 있다. 기업가치 약 $900B~$965B로 상장을 준비 중인 Anthropic에게, Opus 4.8의 벤치마크 우위와 Mythos 예고는 투자자에게 기술 리더십을 증명하는 카드다. OpenAI가 9월 IPO를 추진하는 상황에서, 양사의 모델 업데이트 주기는 계속 빨라지고 있다.

anyAX 관점

Opus 4.8에서 주목할 것은 벤치마크 숫자가 아니라 "정직한 AI"라는 설계 방향이다. AI가 "모르겠다"고 말할 수 있게 되면, 비전문가도 AI 출력을 더 안전하게 신뢰할 수 있다. 이것은 소상공인이나 1인 사업자에게 특히 중요하다. 전문 개발자 없이 AI 에이전트를 업무에 투입할 때, AI가 실수를 숨기지 않는다는 것은 곧 사고 비용이 줄어든다는 의미다.

Dynamic Workflows와 Effort Control은 "AI를 얼마나 깊게 쓸 것인가"를 사용자가 결정하는 시대가 왔음을 보여준다. 예전에는 모델을 바꿔야 했던 선택이, 이제는 슬라이더 하나로 가능해졌다. 도구의 복잡성은 줄고, 사용자의 판단력이 더 중요해지는 방향이다.

참고