Ipinahayag ng BridgeMind AI na parang palihim na bumaba ang kalidad ng Claude Opus 4.6 ng Anthropic matapos mag-retest ng hallucination benchmark. Maraming nagkritisismo sa viral post na ‘to dahil sa problematic niyang methodology.
Nag-viral ang claim at nagdulot ng malawak na debate kung ginagawa nga ba ng mga AI company na mag-downgrade ng mga paid na modelo nila para makatipid sa gastos.
Sabi ng BridgeMind, 98% ang In-increase ng Hallucinations
Ibinahagi ng BridgeMind, ang team sa likod ng BridgeBench coding benchmark, na bumaba raw ang Claude Opus 4.6 mula second place papuntang tenth place sa hallucination leaderboard nila. Mula 83.3% na accuracy, bumagsak ito sa 68.3%.
“CLAUDE OPUS 4.6 IS NERFED. Pinakita ito ng BridgeBench. Noong nakaraang linggo, #2 sa Hallucination benchmark ang Claude Opus 4.6 na may accuracy na 83.3%. Ngayon, ni-retest namin at bumagsak ito sa #10 sa leaderboard, 68.3% na lang accuracy,” sulat nila.
Nilahad ng post na ito raw ay “patunay na mas mababa ang reasoning level” ng model. Pero kung titignan nang mabuti ang aktwal na data, iba pala ang kwento.
Sabi ng Mga Kritiko, Mali ang Comparison na Ginawa
Ayon kay computer scientist Paul Calcraft, “matinding sablay” ang ginawa nilang analysis, at may malaking problema talaga sa methodology.
“Matinding sablay sa science: 30 tasks ang tinest nyo sa Opus ngayon, dati 6 lang. Sa 6 na parehong task, 85.4% ang score ngayon kumpara sa 87.6% dati. Yung malaking pagbabago galing lang sa isang maling output – normal na statistical variance lang ‘yan,” comment ni Calcraft.
Yung orihinal na mataas na score galing lang pala sa anim na benchmark tasks. Sa bagong retest, pinalawak nila at naging 30 tasks na.
Doon mismo sa anim na parehas na task, halos walang pinagbago — 87.6% dati, 85.4% na lang ngayon.
At yung bahagyang pagbaba, dahil lang sa isang dagdag na maling output sa isang task. Since hindi inuulit ang tests, normal lang ‘to para sa AI models dahil nagkakaroon talaga ng statistical variance.
Hindi talaga consistent ang output ng large language models, kaya kung mali lang ang sagot sa small sample, pwedeng mag-iba agad ang resulta.
Mas Malaking Frustration ng Community, Nadagdag sa Hype
Kahit ganun, tinamaan pa rin ng post ang damdamin ng marami. Mula nang mag-launch ito noong February 2026, madalas nagkaka-complain na may pagbaba umano sa quality ang Claude Opus 4.6.
Maraming developer ang nagrereklamong mas maikli ang mga sagot ng model, minsan hindi sinusunod nang maayos ang instructions, at parang humihina ang reasoning lalo na kapag peak hours.
May part ng mga ‘to na galing talaga sa sariling product updates ng Anthropic. Naglagay sila ng adaptive thinking controls kung saan automatic na nag-aadjust ang model kung gaano kalalim mag-isip batay sa task. Sa default, nilagay na lang nila sa medium effort level — mas mabilis pero hindi maxed out ang depth.
Sa independent na analysis ng higit 6,800 Claude Code sessions, lumabas na halos 67% ang nabawas sa reasoning depth ng model bago mag-March.
Yung ratio kung ilang beses binabasa muna ng model ang file bago mag-edit ng code bumaba mula 6.6 papuntang 2.0. Pinapakita nito na minsan nag-aattempt mag-fix kahit hindi masyadong binasa maigi yung code.
Ano’ng Ibig Sabihin Nito Para sa AI Users?
Pinapakita nito na mainit talaga ang tensyon sa AI industry. Pinipilit ng mga company maging efficient at scalable yung models nila matapos mag-launch, pero syempre yung mga heavy user gusto consistent at laging mataas ang performance. Dahil dito, nababawasan ang tiwala ng users.
Sa mga ebidensya ngayon, hindi nagpapatunay ang BridgeBench data na sinadyang i-downgrade o pababain ang Claude Opus 4.6. Hindi maganda ang pagkumpara sa benchmark, at halos pareho naman ang resulta dun sa magkakaparehong task.
Pero hindi rin 100% walang basehan ang frustration ng users. Yung adaptive compute controls at mga pagbabago sa service level, totoong nakakaapekto sa kung paano gumagana ang Claude Opus 4.6. Para sa devs na umaasa sa consistent na output, malaki ang epekto ng mga ganitong upgrade o tweaks.
Wala pang nilalabas na public statement ang Anthropic tungkol sa mga claim ng BridgeBench sa ngayon (April 13).





