Ibahagi

Kumalat ang Post sa BridgeBench: Claude Opus 4.6 ‘Nerfed’ Daw, Pinuna ng Crypto Community na Bad Science

Piliin kami sa Google

Written & Edited by

Lockridge Okoth

Inilathala:13 Abril 2026, 13:13 UTC

Nag-viral na X post, sinabing tumaas ng 98% ang hallucination ng Claude Opus 4.6
Pinuna ng mga kritiko na magkaiba ang test sizes na ginamit sa comparison, hindi parehas ang benchmarks.
Pinag-compare ang resulta, halos walang nabago—normal lang daw ito sa AI.

#AI insights

#Balita sa AI

#Mga Kompanya sa AI

Ipinahayag ng BridgeMind AI na parang palihim na bumaba ang kalidad ng Claude Opus 4.6 ng Anthropic matapos mag-retest ng hallucination benchmark. Maraming nagkritisismo sa viral post na ‘to dahil sa problematic niyang methodology.

Nag-viral ang claim at nagdulot ng malawak na debate kung ginagawa nga ba ng mga AI company na mag-downgrade ng mga paid na modelo nila para makatipid sa gastos.

Sabi ng BridgeMind, 98% ang In-increase ng Hallucinations

Ibinahagi ng BridgeMind, ang team sa likod ng BridgeBench coding benchmark, na bumaba raw ang Claude Opus 4.6 mula second place papuntang tenth place sa hallucination leaderboard nila. Mula 83.3% na accuracy, bumagsak ito sa 68.3%.

“CLAUDE OPUS 4.6 IS NERFED. Pinakita ito ng BridgeBench. Noong nakaraang linggo, #2 sa Hallucination benchmark ang Claude Opus 4.6 na may accuracy na 83.3%. Ngayon, ni-retest namin at bumagsak ito sa #10 sa leaderboard, 68.3% na lang accuracy,” sulat nila.

Nilahad ng post na ito raw ay “patunay na mas mababa ang reasoning level” ng model. Pero kung titignan nang mabuti ang aktwal na data, iba pala ang kwento.

Sabi ng Mga Kritiko, Mali ang Comparison na Ginawa

Ayon kay computer scientist Paul Calcraft, “matinding sablay” ang ginawa nilang analysis, at may malaking problema talaga sa methodology.

“Matinding sablay sa science: 30 tasks ang tinest nyo sa Opus ngayon, dati 6 lang. Sa 6 na parehong task, 85.4% ang score ngayon kumpara sa 87.6% dati. Yung malaking pagbabago galing lang sa isang maling output – normal na statistical variance lang ‘yan,” comment ni Calcraft.

Yung orihinal na mataas na score galing lang pala sa anim na benchmark tasks. Sa bagong retest, pinalawak nila at naging 30 tasks na.

Doon mismo sa anim na parehas na task, halos walang pinagbago — 87.6% dati, 85.4% na lang ngayon.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

At yung bahagyang pagbaba, dahil lang sa isang dagdag na maling output sa isang task. Since hindi inuulit ang tests, normal lang ‘to para sa AI models dahil nagkakaroon talaga ng statistical variance.

Hindi talaga consistent ang output ng large language models, kaya kung mali lang ang sagot sa small sample, pwedeng mag-iba agad ang resulta.

Mas Malaking Frustration ng Community, Nadagdag sa Hype

Kahit ganun, tinamaan pa rin ng post ang damdamin ng marami. Mula nang mag-launch ito noong February 2026, madalas nagkaka-complain na may pagbaba umano sa quality ang Claude Opus 4.6.

Maraming developer ang nagrereklamong mas maikli ang mga sagot ng model, minsan hindi sinusunod nang maayos ang instructions, at parang humihina ang reasoning lalo na kapag peak hours.

May part ng mga ‘to na galing talaga sa sariling product updates ng Anthropic. Naglagay sila ng adaptive thinking controls kung saan automatic na nag-aadjust ang model kung gaano kalalim mag-isip batay sa task. Sa default, nilagay na lang nila sa medium effort level — mas mabilis pero hindi maxed out ang depth.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Sa independent na analysis ng higit 6,800 Claude Code sessions, lumabas na halos 67% ang nabawas sa reasoning depth ng model bago mag-March.

Yung ratio kung ilang beses binabasa muna ng model ang file bago mag-edit ng code bumaba mula 6.6 papuntang 2.0. Pinapakita nito na minsan nag-aattempt mag-fix kahit hindi masyadong binasa maigi yung code.

Ano’ng Ibig Sabihin Nito Para sa AI Users?

Pinapakita nito na mainit talaga ang tensyon sa AI industry. Pinipilit ng mga company maging efficient at scalable yung models nila matapos mag-launch, pero syempre yung mga heavy user gusto consistent at laging mataas ang performance. Dahil dito, nababawasan ang tiwala ng users.

Sa mga ebidensya ngayon, hindi nagpapatunay ang BridgeBench data na sinadyang i-downgrade o pababain ang Claude Opus 4.6. Hindi maganda ang pagkumpara sa benchmark, at halos pareho naman ang resulta dun sa magkakaparehong task.

Pero hindi rin 100% walang basehan ang frustration ng users. Yung adaptive compute controls at mga pagbabago sa service level, totoong nakakaapekto sa kung paano gumagana ang Claude Opus 4.6. Para sa devs na umaasa sa consistent na output, malaki ang epekto ng mga ganitong upgrade o tweaks.

Wala pang nilalabas na public statement ang Anthropic tungkol sa mga claim ng BridgeBench sa ngayon (April 13).

Upang mabasa ang pinakabagong pagsusuri sa merkado ng cryptocurrency mula sa BeInCrypto, i-click dito .

Disclaimer

Alinsunod sa mga patakaran ng Trust Project, ang opinion article na ito ay nagpapahayag ng opinyon ng may-akda at maaaring hindi kumakatawan sa mga pananaw ng BeInCrypto. Nananatiling committed ang BeInCrypto sa transparent na pag-uulat at pagpapanatili ng pinakamataas na pamantayan ng journalism. Pinapayuhan ang mga mambabasa na i-verify ang impormasyon sa kanilang sariling kakayahan at kumonsulta sa isang propesyonal bago gumawa ng anumang desisyon base sa nilalamang ito. Paalala rin na ang aming Terms and Conditions, Privacy Policy, at Disclaimers ay na-update na.