Sinabi ng Anthropic na base sa internal testing nila, walang kakaibang cybersecurity danger ang Claude Fable 5. Babalik na rin sa buong mundo ang Claude Mythos 5 simula July 2.
Kasabay ito ng global relaunch ng Fable 5 matapos ang 18 araw na suspension dahil sa US export controls noong June 12. Pinag-aralan ng Anthropic ang mga kakumpitensiyang model para malaman kung gaano nga ba kalaki ang tunay na banta kaya na-suspend ito.
Bakit Sine-suspend ng Anthropic ang Fable 5
Sabay nag-launch ang Fable 5 at Mythos 5 noong June 9. Pareho silang gumagamit ng iisang core model pero si Fable 5, open sa public. Yung Mythos 5 naman, para lang sa piling Project Glasswing partners na nagtatrabaho sa defensive cybersecurity.
Nagsimula ang export controls matapos madiskubre ng Amazon researchers kung paano malalampasan ang safeguards ng Fable 5. Sa method na ito, napapadali ng model na mahanap ang software vulnerabilities at sa isang instance, naipakita pa nito kung paano ma-exploit ang butas sa security.
Sa testing ng Anthropic, napatunayan na maging Claude Opus 4.8, GPT-5.5, at Kimi K2.7, kaya ring ma-detect ang parehong software vulnerabilities na nakita sa Amazon report. Lahat ng na-test na model, kaya ring gawin yung eksaktong exploit demo.
Ibig sabihin, hindi lang Fable 5 ang may ganitong potential na risk — parang industry-wide issue ito. Pero gumawa pa rin ang Anthropic ng mas malakas na classifier para pigilan ang technique na yun. Ang downside, pati mga regular na coding at debugging requests, mas madalas na ngayon na-fi-flag bilang risky.
Paano Gumagana ang Guardrails
Simula pa lang, may built-in na matinding safety margin ang Fable 5 — ito na nga ang pinaka-strict na security na inilagay ng Anthropic sa kahit anong model nila. Pinipigilan ng classifiers nito kahit mukhang konting risky pa lang ang request, hindi lang yung sobrang halata na harmful. Sabi mismo ng Anthropic, yung bagong classifier na dinevelop nila after ng Amazon report, nakaka-block na ng higit 99% ng mga bypass attempt. Automatic din na nire-redirect ang mga blocked request papunta sa Opus 4.8.
May trade-off din, kasi inaamin ng Anthropic na pati ang mga harmless na coding at debugging requests, napapabilang na rin at naba-block minsan. Sabi nila, tuloy-tuloy nilang aayusin ito para mas mabawasan ang false positives. Para sa Mythos 5, dahil mas konti ang guardrails nito, bumalik lang ito para sa mga institusyon na approved ng government last June 26.
Pero lumalabas sa data ng Anthropic na may mas mahirap na tanong: Kung kaya gawin ng mga mas mahihinang model yung dahilan kung bakit na-ban ang Fable 5, ano na ang magiging standards ng regulators kapag may susunod na malakas na AI model na ilalabas?









