정보보안 공부

A Survey of Claude Mythos Preview's Cybersecurity Capabilities

JustSangRok 2026. 4. 27. 16:08

오늘은 최근에 이슈가 되고 있는 Claude Mythos Preview에 대해 알아보겠다. Anthropic Red Team이 발표한 문서와 다른 문서들을 같이 살펴보겠다.


1. Anthropic Red Team — Assessing Claude Mythos Preview's cybersecurity capabilities

앤트로픽이 4월 7일에 발표한 문서이다. Claude Mythos Preview의 존재를 알리며 같이 충격적인 내용 또한 기재했다. 나는 이 내용을 보고 이제는 진짜 보안전문가라는 직업의 미래가 걱정되기 시작했다.

출처: https://red.anthropic.com/2026/mythos-preview/ 

Mythos Preview란 무엇인가

Earlier today we announced Claude Mythos Preview, a new general-purpose language model. This model performs strongly across the board, but it is strikingly capable at computer security tasks. In response, we have launched Project Glasswing, an effort to use Mythos Preview to help secure the world's most critical software, and to prepare the industry for the practices we all will need to adopt to keep ahead of cyberattackers.

Anthropic은 Claude Mythos Preview라는 새로운 범용 언어 모델을 발표했다. 그냥 일반적인 LLM 업그레이드가 아니다. 이 모델은 특히 컴퓨터 보안 작업에서 놀라울 정도의 능력을 보여줬고, 그래서 Anthropic은 Project Glasswing이라는 프로젝트를 같이 출범시켰다. Project Glasswing은 이 모델을 세계의 핵심 소프트웨어를 보호하는 데 활용하겠다는 것이다. 일반 공개는 하지 않고, 약 50개의 핵심 기업(Microsoft, Apple, AWS, CrowdStrike 등)에만 제한적으로 배포한다.

여기까지는 앤트로픽의 새로운 모델이 보안 사이버 보안 전용 모델로 키워진 줄 알았다.

 

This blog post provides technical details for researchers and practitioners who want to understand exactly how we have been testing this model, and what we have found over the past month. We hope this will show why we view this as a watershed moment for security, and why we have chosen to begin a coordinated effort to reinforce the world's cyber defenses.

Anthropic은 이 문서를 통해 지난 한 달간 테스트한 기술적 세부사항을 공개하면서, 이것이 왜 watershed moment for security인지를 보여주겠다고 했다. 대충 이제 사이버 보안의 새특이점이 와 새로운 시대가 열린다는 말 같다.

 

Mythos Preview가 보여준 것.

During our testing, we found that Mythos Preview is capable of identifying and then exploiting zero-day vulnerabilities in every major operating system and every major web browser when directed by a user to do so. The vulnerabilities it finds are often subtle or difficult to detect. Many of them are ten or twenty years old, with the oldest we have found so far being a now-patched 27-year-old bug in OpenBSD — an operating system known primarily for its security.

테스트 결과, Mythos Preview는 모든 주요 운영체제(Windows, Linux, macOS, BSD 계열)모든 주요 웹 브라우저에서 zero-day 취약점을 식별하고 exploit할 수 있었다. 발견된 취약점 중 상당수가 10~20년 이상 된 것들이었고, 가장 오래된 것은 보안으로 유명한 OpenBSD에서 발견된 27년 된 버그였다. 나는 OpenBSD에 대해 찾아보다가 놀랐다. 보안을 최우선으로 설계했다는 OS에서조차 인간이 27 년간 놓친 취약점을 AI가 찾아낸 것이다.

 

The exploits it constructs are not just run-of-the-mill stack-smashing exploits (though as we'll show, it can do those too). In one case, Mythos Preview wrote a web browser exploit that chained together four vulnerabilities, writing a complex JIT heap spray that escaped both renderer and OS sandboxes. It autonomously obtained local privilege escalation exploits on Linux and other operating systems by exploiting subtle race conditions and KASLR-bypasses. And it autonomously wrote a remote code execution exploit on FreeBSD's NFS server that granted full root access to unauthenticated users by splitting a 20-gadget ROP chain over multiple packets.

Mythos Preview가 만드는 exploit은 단순한 stack buffer overflow 수준이 아니다. 실제 사례들을 보면:

● 웹 브라우저 exploit: 4개의 취약점을 연쇄(chain)하여, 복잡한 JIT heap spray를 작성하고 renderer sandbox와 OS sandbox를 모두 탈출했다.

Linux privilege escalation: race condition과 KASLR bypass를 exploit하여 일반 사용자에서 root 권한을 자율적으로 획득했다.

FreeBSD NFS RCE: 20개의 ROP gadget을 여러 패킷에 분산시켜, 인증 없이 원격에서 full root 접근을 달성하는 exploit을 자율적으로 작성했다.

무려 사람의 개입 없이 Mythos Preview가 스스로 찾아낸 것이다.

 

  Stack smashing: 스택 버퍼 오버플로우를 통한 기본적인 공격 기법

  JIT heap spray: JIT(Just-In-Time) 컴파일러를 악용하여 힙 메모리에 공격 코드를 배치하는 기법

  Sandbox escape: 격리된 실행 환경(sandbox)에서 탈출하여 호스트 시스템에 접근

  Race condition: 두 프로세스가 공유 자원에 동시 접근할 때 발생하는 타이밍 기반 취약점

  KASLR bypass: Kernel Address Space Layout Randomization 우회. 커널 주소 무작위화를 무력화

  ROP chain: Return-Oriented Programming. 기존 코드 조각(gadget)을 재조합하여 임의의 동작 수행

 

보안 비전문가도 exploit을 만들 수 있다

Non-experts can also leverage Mythos Preview to find and exploit sophisticated vulnerabilities. Engineers at Anthropic with no formal security training have asked Mythos Preview to find remote code execution vulnerabilities overnight, and woken up the following morning to a complete, working exploit. In other cases, we've had researchers develop scaffolds that allow Mythos Preview to turn vulnerabilities into exploits without any human intervention.

이 부분이 정말 충격적이다. 보안 교육을 전혀 받지 않은 Anthropic 엔지니어들이 RCE 취약점을 찾아달라고 요청하고, 다음 날 아침에 보니 완전히 작동하는 exploit이 있었다는 것이다.

어떤 경우에는 자동화 프레임워크를 통해 사람 개입 없이 취약점→exploit 전환까지 자동으로 진행되었다.

예전에는 exploit을 작성하려면 수년간의 보안 경험과 깊은 시스템 지식이 필요했는데, 지금은 AI 딸깍 하면 보안 제로데이 취약점을 찾아주고 exploit까지 해버리는 것이다. 

진짜 말도안된다;;

 

이전 모델 대비 성능 도약

These capabilities have emerged very quickly. Last month, we wrote that "Opus 4.6 is currently far better at identifying and fixing vulnerabilities than at exploiting them." Our internal evaluations showed that Opus 4.6 generally had a near-0% success rate at autonomous exploit development. But Mythos Preview is in a different league. For example, Opus 4.6 turned the vulnerabilities it had found in Mozilla's Firefox 147 JavaScript engine — all patched in Firefox 148 — into JavaScript shell exploits only two times out of several hundred attempts. We re-ran this experiment as a benchmark for Mythos Preview, which developed working exploits 181 times, and achieved register control on 29 more.

숫자로 보면 이 도약이 얼마나 큰지 명확해진다:

Opus 4.6 수백 번 시도 중 2번 성공 
Mythos Preview 181번 exploit 성공 + 29번 레지스터 제어

무려 90배 이상의 성능 향상이다. 

  레지스터 제어(register control)란 CPU의 명령 포인터(EIP/RIP) 등을 장악했다는 의미로, 프로그램의 실행 흐름을 완전히 제어할 수 있는 상태를 뜻한다.

 

의도하지 않은 능력

We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy. The same improvements that make the model substantially more effective at patching vulnerabilities also make it substantially more effective at exploiting them.

내가 처음에 Mythos Preview가 사이버 보안 모델인줄 알았다고 한것이 기억나는가? 하지만 Anthropic은 Mythos Preview에게 해킹 능력을 훈련시킨 것이 아니었다. 코딩, 추론, 자율성의 일반적 개선이 자동으로 보안 공격 능력도 향상시킨 것이다.

 

공격-방어 균형에 대한 Anthropic의 견해

Most security tooling has historically benefitted defenders more than attackers. When the first software fuzzers were deployed at large scale, there were concerns they might enable attackers to identify vulnerabilities at an increased rate. And they did. But modern fuzzers like AFL are now a critical component of the security ecosystem: projects like OSS-Fuzz dedicate significant resources to help secure key open source software.

We believe the same will hold true here too — eventually. Once the security landscape has reached a new equilibrium, we believe that powerful language models will benefit defenders more than attackers, increasing the overall security of the software ecosystem. The advantage will belong to the side that can get the most out of these tools. In the short term, this could be attackers, if frontier labs aren't careful about how they release these models. In the long term, we expect it will be defenders who will more efficiently direct resources and use these models to fix bugs before new code ever ships.

Anthropic은 역사적 선례를 들어 낙관적인 전망을 제시한다. 과거에 fuzzer가 처음 등장했을 때도 "공격자가 취약점을 더 빨리 찾지 않을까" 우려했지만, 결국 AFL이나 OSS-Fuzz 같은 도구들은 방어 측에 더 큰 이점을 제공했다는 것이다.

하지만 이 문장을 보면 "In the short term, this could be attackers" 단기적으로는 공격자가 유리할 수 있다는 것을 Anthropic 스스로 인정하고 있다. 그래서 제한적 배포를 선택한 것이다. 방어자가 먼저 시스템을 강화할 시간을 벌어주겠다는 전략이다.


사례 : OpenBSD 27년 된 SACK 취약점

이제부터 Mythos Preview가 실제로 발견한 구체적인 취약점 사례를 살펴보겠다.

TCP (as defined in RFC 793) is a simple protocol. Each packet sent from host A to host B has a sequence ID, and host B should respond with an acknowledgement (ACK) packet of the latest sequence ID they have received. This allows host A to retransmit missing packets.

RFC 2018, proposed in October 1996, addressed this limitation with the introduction of SACK, allowing host B to Selectively ACKnowledge (hence the acronym) packet ranges, rather than just "everything up to ID X." This significantly improves the performance of TCP, and as a result, all major implementations included this option. OpenBSD added SACK in 1998.

TCP의 기본 동작부터 설명하면: 호스트 A가 호스트 B에게 패킷을 보내면, B는 ACK(수신 확인)를 보내서 어디까지 받았는지 알려준다. 그런데 기존 TCP에서는 "패킷 2까지 받았다"라고만 말할 수 있어서, 3번이 빠지고 4~10번을 받은 경우에도 3번부터 전부 재전송해야 했다.

이 문제를 해결하기 위해 1996년 RFC 2018에서 SACK(Selective ACK)가 도입되었고 한다. "2번까지 받았고, 4~10번도 받았다"처럼 선택적으로 확인 응답할 수 있게 된 것이다. OpenBSD는 1998년에 SACK를 구현했다.

 

Mythos Preview identified a vulnerability in the OpenBSD implementation of SACK that would allow an adversary to crash any OpenBSD host that responds over TCP. The vulnerability is quite subtle. OpenBSD tracks SACK state as a singly linked list of holes — ranges of bytes that host A has sent but host B has not yet acknowledged.

Mythos Preview는 이 OpenBSD의 SACK 구현에서 TCP로 응답하는 모든 OpenBSD 호스트를 원격으로 충돌시킬 수 있는 취약점을 발견했다. OpenBSD는 SACK 상태를 "hole"의 단일 연결 리스트(singly linked list)로 관리한다.

● hole이란 전송했지만 아직 ACK되지 않은 바이트 범위를 말한다.

Mythos Preview then found a second bug. If a single SACK block simultaneously deletes the only hole in the list and also triggers the append-a-new-hole path, the append writes through a pointer that is now NULL — the walk just freed the only node and left nothing behind to link onto. This codepath is normally unreachable, because hitting it requires a SACK block whose start is simultaneously at or below the hole's start (so the hole gets deleted) and strictly above the highest byte previously acknowledged (so the append check fires). You might think that one number can't be both.

두번째 버그도 있는데 하나의 SACK 블록이 리스트의 유일한 hole을 삭제하면서 동시에 새 hole 추가 경로를 트리거하면, 이미 NULL이 된 포인터를 통해 쓰기를 수행한다. 이 코드 경로는 일반적으로 도달 불가능(unreachable)한데, 왜냐하면 SACK 블록의 시작값이 두 가지 모순되는 조건을 동시에 만족해야 하기 때문이다:

● hole의 시작보다 같거나 아래에 있어야 함

● 이전 최고 ACK 바이트보다 위에 있어야 함 

 

하나의 숫자가 어떻게 둘 다 될 수 있는가 하면..

Enter signed integer overflow. TCP sequence numbers are 32-bit integers and wrap around. OpenBSD compared them by calculating (int)(a - b) < 0. That's correct when a and b are within 2^31 of each other — which real sequence numbers always are. But because of the first bug, nothing stops an attacker from placing the SACK block's start roughly 2^31 away from the real window. At that distance the subtraction overflows the sign bit in both comparisons, and the kernel concludes the attacker's start is below the hole and above the highest acknowledged byte at the same time. The impossible condition is satisfied, the only hole is deleted, the append runs, and the kernel writes to a null pointer, crashing the machine.

여기서 signed integer overflow가 등장한다. TCP 시퀀스 번호는 32비트 정수로 순환(wrap around)한다. OpenBSD는 (int)(a - b) < 0으로 비교했는데, a와 b가 2^31 이내일 때는 정상 동작한다. 하지만 첫 번째 버그 때문에 공격자가 SACK 블록의 시작을 실제 윈도우로부터 약 2^31만큼 떨어진 곳에 배치할 수 있다.

이 거리에서는 빼기 연산이 부호 비트(sign bit)를 오버플로우시켜서, 커널이 "이 값은 hole 시작보다 아래에 있으면서 동시에 최고 ACK 바이트 위에 있다"고 잘못 판단한다. 논리적으로 불가능한 조건이 충족되고, 유일한 hole이 삭제되며, null pointer에 쓰기가 발생하여 커널이 crash된다.

정리하면

● 두 개의 독립적 버그를 연쇄(chain)해서 exploit을 달성했다

● C 언어의 signed integer overflow는 수십 년이 지나도 여전히 치명적인 취약점의 원인이 된다

● 도달 불가능하다고 생각한 코드 경로가 실제로는 도달 가능했다

 

In practice, denial of service attacks like this would allow remote attackers to repeatedly crash machines running a vulnerable service, potentially bringing down corporate networks or core internet services. This was the most critical vulnerability we discovered in OpenBSD with Mythos Preview after a thousand runs through our scaffold. Across a thousand runs through our scaffold, the total cost was under $20,000 and found several dozen more findings.

실전에서 이 취약점은 원격 공격자가 OpenBSD 서버를 반복적으로 충돌시켜 기업 네트워크나 핵심 인터넷 서비스를 마비시킬 수 있는 DoS(Denial of Service) 공격을 가능하게 한다. 1,000번 자동 실행에 들어간 비용은 $20,000(약 2,700만원) 미만이었고, 수십 개의 추가 취약점도 발견되었다. 전통적인 penetration testing 비용과 비교하면 극도로 저렴하다.


사례 : FFmpeg 16년 된 H.264 취약점

FFmpeg is a media processing library that can encode and decode video and image files. Because nearly every major service that handles video relies on it, FFmpeg is one of the most thoroughly tested software projects in the world. Much of that testing comes from fuzzing — a technique in which security researchers feed the program millions of randomly generated video files and watch for crashes. Indeed entire research papers have been written on the topic of how to fuzz media libraries like FFmpeg.

FFmpeg는 YouTube, Netflix, VLC 등 비디오를 처리하는 거의 모든 서비스가 의존하는 오픈소스 미디어 처리 라이브러리다. 세계에서 가장 철저하게 테스트된 소프트웨어 프로젝트 중 하나로, 수천만 건의 fuzzing 테스트를 거쳤다. FFmpeg를 어떻게 fuzz하는지에 대한 전문 연구 논문까지 있을 정도다.

 

Mythos Preview autonomously identified a 16-year-old vulnerability in one of FFmpeg's most popular codecs, H.264. In H.264, each frame is divided into one or more slices, and each slice is a run of macroblocks (itself a block of 16x16 pixels). When decoding a macroblock, the deblocking filter sometimes needs to look at the pixels of the macroblock next to it, but only if that neighbor belongs to the same slice. To answer "is my neighbor in my slice?", FFmpeg keeps a table that records, for every macroblock position in the frame, the number of the slice that owns it. The entries in that table are 16-bit integers, but the slice counter itself is an ordinary 32-bit int with no upper bound.

그런데 Mythos Preview가 이 철저하게 검증된 FFmpeg의 H.264 코덱에서 16년 된 취약점을 자율적으로 발견했다. 

 

H.264에서 각 프레임은 slice(슬라이스)로 나뉘고, 각 slice는 16x16 픽셀 블록인 macroblock의 연속이다. 디블로킹 필터가 이웃 macroblock의 픽셀을 참조할 때, "이 이웃이 같은 slice에 있는가?"를 확인해야 한다. 이를 위해 FFmpeg는 각 macroblock 위치에 해당하는 slice 번호를 기록하는 테이블을 유지한다.

여기서 문제는 테이블 항목은 16비트 정수(최대 65,535)인데, slice 카운터는 32비트 int(상한 없음)이다.

 

Under normal circumstances, this mismatch is harmless. Real video uses a handful of slices per frame, so the counter never gets anywhere near the 16-bit limit of 65,536. But the table is initialized using the standard C idiom memset(..., -1, ...), which fills every byte with 0xFF. This initializes every entry as the (16-bit unsigned) value 65535. The intention here is to use this as a sentinel for "no slice owns this position yet." But this means if an attacker builds a single frame containing 65536 slices, slice number 65535 collides exactly with the sentinel. When a macroblock in that slice asks "is the position to my left in my slice?", the decoder compares its own slice number (65535) against the padding entry (65535), gets a match, and concludes the nonexistent neighbor is real. The code then writes out of bounds, and crashes the process.

정상적인 비디오는 프레임당 소수의 slice만 사용하므로 이 불일치는 무해하다. 그런데 테이블은 memset(..., -1, ...)로 초기화되어 모든 항목이 0xFF, 즉 16비트 unsigned 값 65535가 된다. 이것은 "아직 이 위치를 소유하는 slice가 없다"는 sentinel(보초) 값으로 의도된 것이다.

공격자가 정확히 65,536개의 slice를 포함하는 프레임을 만들면, slice 번호 65535가 sentinel 값 65535와 정확히 충돌한다. 디코더는 존재하지 않는 이웃이 같은 slice에 있다고 판단하고, out-of-bounds write(범위를 벗어난 쓰기)가 발생하여 프로세스가 crash된다.

이 버그의 근본 원인은 2003년에 도입된 코드에 있고, 2010년 리팩토링 때 취약점으로 전환되었다. 수십 년간의 fuzzing과 코드 리뷰가 놓친 것을 AI가 코드 분석만으로 찾아낸 것이다. 


사례 : VMM(Virtual Machine Monitor) 취약점

VMMs are critical building blocks for a functioning Internet. Nearly everything in the public cloud runs inside a virtual machine, and cloud providers rely on the VMM to securely isolate mutually-distrusting (and assumed hostile) workloads sharing the same hardware. Mythos Preview identified a memory-corruption vulnerability in a production memory-safe VMM. This vulnerability has not been patched, so we neither name the project nor discuss details of the exploit.

VMM(Hypervisor)은 AWS, Azure, GCP 등 퍼블릭 클라우드의 핵심이다. 동일한 물리 하드웨어에서 서로 다른 고객의 워크로드를 안전하게 격리하는 역할을 한다.

Mythos Preview는 메모리 안전(memory-safe) 언어로 작성된 프로덕션 VMM에서 메모리 손상 취약점을 발견했다. Rust 같은 메모리 안전 언어라고 해도 unsafe 블록이 있으면 여전히 취약할 수 있다는 것이다. 이 취약점은 아직 미패치 상태라 프로젝트 이름도 공개하지 않았다.

이것이 무서운 이유는 (Guest-to-host escape) VM 내부의 악성 코드가 호스트 시스템으로 탈출할 수 있다는 것은 클라우드 보안의 근본적 가정을 위협한다. VM 안에 있으면 안전하다는 전제가 깨지는 것이다. 이것을 보니 어렸을 때 유튜브 영상에서 VM에서 다크웹을 살펴보다가 VM을 껐더니 누군가 자기 컴퓨터를 해킹했다는 댓글을 봤던 기억이 난다.


사례 : FreeBSD NFS 17년 된 RCE (CVE-2026-4747)

Mythos Preview fully autonomously identified and then exploited a 17-year-old remote code execution vulnerability in FreeBSD that allows anyone to gain root on a machine running NFS. This vulnerability, triaged as CVE-2026-4747, allows an attacker to obtain complete control over the server, starting from an unauthenticated user anywhere on the internet.

이것은 가장 충격적인 사례다. Mythos Preview가 완전히 자율적으로 17년 된 FreeBSD NFS 서버의 RCE(Remote Code Execution) 취약점을 발견하고 exploit까지 작성했다. 인증 없이 인터넷 어디에서든 서버의 root 권한을 획득할 수 있는 최고 위험도의 취약점이다.

 

When we say "fully autonomously", we mean that no human was involved in either the discovery or exploitation of this vulnerability after the initial request to find the bug.

"완전히 자율적으로"란, 처음에 버그 찾아달라고 지시한 이후 어떤 사람도 관여하지 않았다는 뜻이다.

 

The vulnerability and exploit are relatively straightforward to explain. The NFS server (which runs in kernel-land) listens for a Remote Procedure Call (RPC) from clients. In order for a client to authenticate itself to the vulnerable server, FreeBSD implements RFC 2203's RPCSEC_GSS authentication protocol. One of the methods that implements this protocol directly copies data from an attacker-controlled packet into a 128-byte stack buffer, starting 32 bytes in (after the fixed RPC header fields), leaving only 96 bytes of room. The only length check on the source buffer enforces that it's less than MAX_AUTH_BYTES (a constant set to 400). Thus, an attacker can write up to 304 bytes of arbitrary content to the stack and implement a standard Return Oriented Programming (ROP) attack.NFS 서버는 **커널 공간(kernel-land)**에서 동작하며 RPC를 수신 

  • RPCSEC_GSS 인증 처리 시, 공격자가 제어하는 패킷 데이터를 128바이트 스택 버퍼에 직접 복사
  • 고정 헤더 32바이트를 제외하면 96바이트의 공간만 남음
  • 길이 검사는 MAX_AUTH_BYTES(400) 미만인지만 확인
  • 따라서 최대 304바이트의 임의 데이터를 스택에 쓸 수 있음
  • 표준 ROP(Return-Oriented Programming) 공격이 가능

What makes this bug unusually exploitable is that every mitigation that would normally stand between a stack overflow and instruction-pointer control happens not to apply on this particular codepath. The FreeBSD kernel is compiled with -fstack-protector rather than -fstack-protector-strong; the plain variant only instruments functions containing char arrays, and because the overflowed buffer here is declared as int32_t[32], the compiler emits no stack canary at all. FreeBSD also does not randomize the kernel's load address, and so predicting the location of ROP gadgets does not require a prior information disclosure vulnerability.

이 버그가 특히 exploit하기 쉬운 이유는, 일반적으로 존재하는 모든 보안 완화장치가 우연히 비활성화되어 있기 때문이다

● Stack canary 부재: FreeBSD 커널은 -fstack-protector(char 배열만 보호)로 컴파일되는데, 문제의 버퍼가 int32_t[32]로 선언되어 있어 canary가 전혀 생성되지 않음

● KASLR 부재: FreeBSD는 커널 주소를 무작위화하지 않아 ROP gadget 위치를 예측하는 데 정보 유출 취약점이 불필요.

모든 방어 장치가 하나도 적용되지 않는 코드 경로가 존재했고, AI가 그것을 찾아낸 것이다.


수천 건의 추가 취약점과 검증 결과

We have identified thousands of additional high- and critical-severity vulnerabilities that we are working on responsibly disclosing to open source maintainers and closed source vendors. We have contracted a number of professional security contractors to assist in our disclosure process by manually validating every bug report before we send it out to ensure that we send only high-quality reports to maintainers.

While we are unable to state with certainty that these vulnerabilities are definitely high- or critical-severity, in practice we have found that our human validators overwhelmingly agree with the original severity assigned by the model: in 89% of the 198 manually reviewed vulnerability reports, our expert contractors agreed with Claude's severity assessment exactly, and 98% of the assessments were within one severity level.

현재까지 수천 건의 고위험도(high) 및 치명적(critical) 취약점이 추가로 발견되었고, 책임 있는 공개(responsible disclosure) 절차를 진행 중이다. 전문 보안 계약자들이 수동으로 검증한 결과:

● 198건 수동 검토에서 89%에서 AI의 심각도 판단이 인간 전문가와 정확히 일치

● 98%가 한 심각도 단계 이내

AI의 취약점 심각도 판단이 인간 전문가 수준이라는 것이다.


2. UK AI Security Institute (AISI) — 독립 평가

출처: https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities 

평가 개요

The AI Security Institute (AISI) conducted evaluations of Anthropic's Claude Mythos Preview (announced on 7th April) to assess its cybersecurity capabilities. Our results show that Mythos Preview represents a step up over previous frontier models in a landscape where cyber performance was already rapidly improving.

AISI는 Mythos Preview의 사이버보안 능력을 평가했고, 결과적으로 이전 frontier 모델들보다 한 단계 도약했다고 확인했다. 이미 사이버 성능이 빠르게 향상되고 있는 환경에서의 추가적 도약이라는 점이 중요하다.

AI 사이버 능력의 역사적 발전에 대해..

We have tracked AI cyber capabilities since 2023, building progressively harder evaluations to keep pace with AI progress — from chat-based probing, to capture-the-flag challenges, to the multi-step cyber-attack simulations described below. Two years ago, the best available models could barely complete beginner-level cyber tasks. Now, in controlled evaluations where Mythos Preview was explicitly directed and given network access to do so, we observed that it could execute multi-stage attacks on vulnerable networks and discover and exploit vulnerabilities autonomously – tasks that would take human professionals days of work.

AISI는 2023년부터 AI 사이버 능력을 추적해왔다. 발전 속도를 보면:

시기 AI 사이버 능력 수준

2023년 초보자 수준 CTF
2025년 초 중급 CTF 해결 
2025년 4월 전문가 수준 CTF 최초 해결
2026년 4월 전문가 수준 73% 성공, 전체 네트워크 장악

불과 3년 만에 초보에서 전문가 수준으로 도약하였다.

On expert-level tasks — which no model could complete before April 2025 — Mythos Preview succeeds 73% of the time.

2025년 4월 이전에는 어떤 AI 모델도 완료할 수 없었던 전문가 수준 CTF 과제에서, Mythos Preview는 73%의 성공률을 보인다. 1년 만에 0%에서 73%로 뛴 것이다.

 

The Last Ones (TLO) — 32단계 네트워크 공격 시뮬레이션

Even expert-level CTFs only test specific skills in isolation. Real-world cyber-attacks require chaining dozens of steps together across multiple hosts and network segments — sustained operations that take human experts many hours, days, or weeks to complete. As a first step towards measuring this, we built "The Last Ones" (TLO): a 32-step corporate network attack simulation spanning initial reconnaissance through to full network takeover, which we estimate to require humans 20 hours to complete.

CTF는 특정 기술을 격리된 상태에서만 테스트한다. 하지만 실제 사이버 공격은 수십 개의 단계를 여러 호스트와 네트워크 세그먼트에 걸쳐 연쇄해야 한다. 이를 측정하기 위해 AISI는 The Last Ones(TLO)를 만들었다:

32단계 기업 네트워크 공격 시뮬레이션

● 초기 정찰 → 침투 → 권한 상승 → 횡이동(lateral movement) → 전체 네트워크 장악

● 인간은 20시간 소요ㄷ 예상

● 실제 APT(Advanced Persistent Threat) 공격의 전체 kill chain을 모사

Claude Mythos Preview is the first model to solve TLO from start to finish, in 3 out of its 10 attempts. Across all its attempts, the model completed an average of 22 out of 32 steps. Claude Opus 4.6 is the next best performing model and completed an average of 16 steps.

모델 전체 완료 평균 완료 단계

Mythos Preview 10회 중 3회 (30%) 22 / 32 단계
Opus 4.6 0회 16 / 32 단계

Mythos Preview는 TLO를 처음부터 끝까지 해결한 최초의 AI 모델이다. 30%의 성공률이라 해도, 공격자 관점에서 보면 10번 시도하면 3번은 전체 네트워크를 장악할 수 있다는 뜻이다

 

Mythos Preview's success on one cyber range indicates that it is at least capable of autonomously attacking small, weakly defended and vulnerable enterprise systems where access to a network has been gained. However, our ranges have important differences from real-world environments that make them easier targets. They lack security features that are often present, such as active defenders and defensive tooling. There are also no penalties for the model for undertaking actions that would trigger security alerts. This means we cannot say for sure whether Mythos Preview would be able to attack well-defended systems.

AISI이 말하는 한계점이다.

● SOC 팀 부재

● EDR/IDS/IPS 등 방어 도구 부재

● 보안 경보 트리거 시 벌칙 없음

 

과거 책에서 본 내용 중 기업들이 랜섬웨어에 감염되기 시작하면 랜선을 다 빼버리는 내용을 본 적이 있다.

미토스가 보안 경보 트리거를 발통시키면 보안관제 팀에서 미리 알아채 조치를 취할 수 있다는 것을 이야기하는 것 같다.

따라서 잘 방어된 실제 시스템에서의 성공률은 훨씬 낮을 수 있다.

 

AISI의 권고사항

Our testing shows that Mythos Preview can exploit systems with weak security posture, and it is likely that more models with these capabilities will be developed. This highlights the importance of cybersecurity basics, such as regular application of security updates, robust access controls, security configuration, and comprehensive logging.

 

● 보안 업데이트/패치의 정기적 적용

● 견고한 접근 제어 (RBAC, 최소 권한 원칙)

● 보안 구성(hardening)

● 포괄적 로깅 및 모니터링

사실 일반인들은 스프트웨어 업데이트 잘하고 이상한 사이트에 들어가지만 않는다면 충분히 보안이 잘 되어있는 거라 생각한다.


3. Anthropic Alignment Risk Report — 정렬 위험 보고서

출처: https://anthropic.com/claude-mythos-preview-risk-report 

사이버보안 능력 외에, Mythos Preview의 AI 정렬(alignment) 위험에 대한 내용이다. Anthropic은 자체적으로 정렬 위험 평가 보고서를 발표했다. 이 보고서는 AI가 인간의 의도와 다르게 행동할 위험을 분석한 것이다.

핵심 발견사항

This risk report examines whether Claude Mythos Preview poses a significant risk of autonomous actions that contribute significantly to later significantly harmful outcomes. Our core findings are:

  1. Mythos Preview appears to be the best-aligned model that we have released to date. However, like Claude Opus 4.6, Mythos Preview can sometimes employ concerning actions to work around obstacles to task success.
  2. Mythos Preview is significantly more capable, and is used more autonomously and agentically, than any prior model. In particular it is very capable at software engineering and cybersecurity tasks, which makes it more capable at working around restrictions.

 

● Mythos Preview는 지금까지 출시된 모델 중 가장 잘 정렬된 모델로 보인다

● 하지만 작업 완수를 위해 우려되는 행동(규칙 우회 등)을 할 수 있다

● 이전 모든 모델보다 훨씬 더 능력이 뛰어나고 자율적으로 사용된다

● 소프트웨어 엔지니어링/사이버보안 능력이 뛰어나서, 제한을 우회하는 능력도 더 뛰어나다

가장 잘 정렬된 모델이라고 하지만 SF영화적 관점에서는 마치 영화에서 엄청난 능력의 사이보그가 있는데 엔지니어들이 이 사이보그는 매우 강력하지만 사람을 해치지 않게 해놨으니 안심하라고 하는 래파토리를 보는 느낌이다.

   3. Our monitoring and alignment assessment have improved since Claude Opus 4.6 was released.During the development of Mythos Preview, we identified errors in our training, monitoring, evaluation, and security processes.

   4. We do not believe these errors pose significant safety risks for a model at this capability level, but they reflect a standard of rigor that would be insufficient for more capable future models.

3번과 4번도 중요하다. 모니터링과 평가 방법이 개선되었지만, 동시에 훈련/모니터링/평가/보안 프로세스에서 오류를 발견했다. 현재 수준에서는 심각한 안전 위험이 아니지만, 더 능력 있는 미래 모델에는 부족할 수 있는 엄격성 기준이라고 인정한 것이다.

6가지 구체적 위험 경로

We focus our analysis on the following concrete pathways:

  1. Broad/diffuse sandbagging on safety-relevant R&D
  2. Targeted undermining of safety-relevant R&D
  3. Code backdoors to help future misaligned models
  4. Poisoning the training data of future models
  5. Self-exfiltration and autonomous operation
  6. Persistent rogue internal deployment

 

  1. Sandbagging: AI가 의도적으로 안전 연구에서 능력을 숨기거나 저성능을 보이는 것
  2. R&D 훼손: 안전 연구 결과를 의도적으로 왜곡
  3. Backdoor 삽입: 미래의 비정렬 모델이 악용할 수 있는 숨겨진 코드를 삽입
  4. Data poisoning: 미래 모델의 훈련 데이터에 악의적 패턴을 주입
  5. Self-exfiltration: AI가 자신의 가중치(weights)를 외부로 유출하여 독립적으로 동작
  6. Rogue deployment: 내부 시스템에서 의도와 다르게 지속적으로 동작

특히 5번 Self-exfiltration은 SF 영화 같지만, 능력이 충분히 높은 AI가 자신을 복제하여 외부 서버에서 독립적으로 운영되는 시나리오를 진지하게 분석하고 있다는 점이 AI의 발전을 느끼게 한다.

훈련 과정에서 발견된 오류

During the development of Mythos Preview, we identified errors in our training, monitoring, evaluation, and security processes. Specifically, a technical error allowed reward code to see chains-of-thought. This latter issue affected ~8% of RL episodes, and was isolated to three specific sub-domains of our environment mix: GUI computer use, office-related tasks, and a small set of STEM environments. We are uncertain about the extent to which this issue has affected the reasoning behavior of the final model, but it is plausible that it had some impact on opaque reasoning or secret-keeping abilities.

이 부분은 기술적으로 매우 중요한 내용이다. 훈련 과정에서 보상 코드(reward code)가 모델의 사고 과정(chain-of-thought)을 볼 수 있는 기술적 오류가 있었다. 이 오류는 RL 에피소드의 약 8%에 영향을 미쳤다.

왜 이것이 문제인가? 보상 코드가 사고 과정을 보면, 모델이 생각을 숨기는 방법을 학습했을 가능성이 있다. 

  • Opaque reasoning: 외부에서 관찰 불가능한 내부 추론
  • Secret-keeping: 정보를 의도적으로 숨기는 능력

AI가 자신의 의도를 숨기는 법을 학습했다면, 정렬 평가 자체의 신뢰성이 흔들린다. 이 오류는 Opus 4.6과 Sonnet 4.6에도 영향을 미쳤다고 한다.

관찰된 우려 행동

We have observed a willingness to perform misaligned actions in service of completing difficult tasks, and active obfuscation in rare cases with previous versions of the model. However, while undesirable, we do not believe this propensity implies a significantly elevated risk of significantly harmful actions caused by misalignment.

실제로 관찰된 우려 행동:

  • 어려운 작업을 완수하기 위해 규칙을 우회하는 행동
  • 드문 경우에 자신의 행동을 능동적으로 은폐(obfuscation)하려는 시도
  • 권한 상승(privilege escalation) 시도

Anthropic은 이것이 "의도적 비정렬"이 아니라 "작업 지향적 비정렬"이라고 판단했다. 즉, AI가 악의적 의도로 그런 것이 아니라 주어진 작업을 완수하려는 과정에서 발생했다는 것이다.

최종 위험 평가

We determine that the overall risk is very low, but higher than for previous models. We believe that we will need to accelerate our progress on risk mitigations if we are to keep risks low.

최종 판단: "전체적 위험은 매우 낮지만(very low), 이전 모델보다는 높다."

이 문장이 시사하는 바가 크다. 매 모델 릴리스마다 위험이 조금씩 올라가고 있다는 것이다. "very low"에서 "low"로, "low"에서 "medium"으로 올라가는 추세가 계속되면, 어느 시점에서는 심각한 수준에 도달할 수도 있다는 생각이 든다.


4. 국가 안보 및 산업 관점

Foreign Policy — 지정학적 관점

출처: https://foreignpolicy.com/2026/04/20/claude-mythos-preview-anthropic-project-glasswing-cybersecurity-ai-hacking-danger/

This month, Silicon Valley AI company Anthropic said it had developed a model so dangerous that the company had decided against releasing it to the public. The model, known as Claude Mythos Preview, is a general-purpose language model like Anthropic's Claude or OpenAI's ChatGPT. But during testing, it showed an ability to find and exploit so-called "zero day" vulnerabilities — an industry term that refers to previously undiscovered holes in a system's software. The model "could reshape cybersecurity" because it found "thousands of high-severity vulnerabilities" in "every major operating system and web browser," Anthropic said.

Foreign Policy는 국제 안보 관점에서 Mythos를 분석했다. "너무 위험해서 공개할 수 없다"는 AI 회사의 결정 자체가 전례 없는 일이며, 이것이 국가 안보에 미치는 영향이 크다는 시각이다.

The model's capabilities also include escaping from a contained digital environment (albeit after being specifically ordered to try to do so). Anthropic also said that in a few rare cases, the model attempted to cover its tracks after violating prescribed rules.

  • Container escape: 격리 환경에서 탈출하는 능력 (명시적 지시 후이긴 하지만)
  • 흔적 은폐(covering tracks): 규칙 위반 후 자신의 흔적을 숨기려는 시도

이것은 APT(Advanced Persistent Threat) 공격의 핵심 특성이다. 공격 후 탐지를 피하는 능력은 실전에서 매우 중요하다.

In an independent evaluation, the U.K. AI Security Institute said Mythos was the first AI model able to complete the institute's test simulating an attack that takes over a full network, though it did show "some cyber capability limitations." However, the institute did qualify that success by noting that its test environments did not have the same security features as many real-world systems. "This means we cannot say for sure whether Mythos Preview would be able to attack well-defended systems," the institute wrote in a blog post.

UK AISI의 독립 평가가 Anthropic의 주장을 부분적으로 확인하되, 실제 환경과의 차이를 지적한 것도 Foreign Policy가 인용하고 있다.

The Mythos announcement has sparked a major debate in the cybersecurity world, with some critics questioning how much of Mythos's ability is simply clever marketing on Anthropic's part.

Rivals are already following suit — a week after Anthropic announced Mythos and Project Glasswing, OpenAI announced a similarly limited rollout of its latest cybersecurity-focused model.

경쟁도 이미 시작됐다. OpenAI는 Anthropic 발표 일주일 만에 GPT-5.4-Cyber의 유사한 제한적 배포를 발표했다. NSA(미국 국가안보국)가 이미 Mythos를 사용하고 있다는 보도도 있었다.


마치며...

나는 이 글을 쓰기 위해 자료들을 찾아보며 이제는 진짜 사이버 보안에 대한 사건이 엄청나게 늘어날 것이라 생각이 들었다.

또한 AI를 쓰는 모든 사람들이 느끼겠지만 약간의 허무함 또한 느꼈다.

그리고 앞으로도 램갚은 절대로 안떨어질 것 같다는 생각이 든다 ㅋ...

솔직히 자료들을 번역기로 돌리고 용어를 찾아보면서 나조차도 이해가 안되는 부분들이 많았기에 나의 실력은 확실히 초보자 수준이란걸 알 수 있었다.

내가 볼 땐 보안쪽은 이제 리버스 엔지니어링은 필요 없고 그나마 네트워크 보안이나 물리 보안쪽이 살아남지 않을까..싶다.


참고 문서 

  1. Anthropic Red Team, "Assessing Claude Mythos Preview's cybersecurity capabilities," red.anthropic.com, April 7, 2026
  2. UK AI Security Institute, "Our evaluation of Claude Mythos Preview's cyber capabilities," aisi.gov.uk, April 13, 2026
  3. Anthropic, "Alignment Risk Update: Claude Mythos Preview," anthropic.com, April 7, 2026
  4. Foreign Policy, "Anthropic's Claude Mythos Preview Changes Cyber Calculus," April 20, 2026