Sparčiai besivystančiame dirbtinio intelekto pasaulyje vienas didžiausių problemų kūrėjams ir verslui yra AI modelio pablogėjimas — reiškinys, kai AI sistemos laikui bėgant tyliai tampa mažiau pajėgios, naudotojams to iš karto nepastebėjus. Paskambino nauja nepriklausoma stebėjimo tarnyba Marginlab sukūrė sprendimą, kuris neseniai pastebėjo reikšmingą Anthropic’s Claude Code našumo sumažėjimą, parodydamas kritinę nuolatinio AI našumo stebėjimo svarbą.
Problema: tylus AI pablogėjimas
AI modelio pablogėjimas yra gerai dokumentuota, bet dažnai nematoma problema. Skirtingai nuo tradicinių programinės įrangos klaidų, kurios sukelia akivaizdžių gedimų, AI pablogėjimas gali būti subtilus, pasireiškiantis šiek tiek prastesniais atsakymais, sumažėjusiu tikslumu arba sumažėjusiomis galimybėmis, kurias vartotojai gali priskirti nesėkmei ar sudėtingiems raginimams, o ne sisteminėms problemoms.
Ši problema ypač išryškėjo po to, kai 2025 m. rugsėjį Anthropic paskelbė Klodo degradacijos tyrimą, kuriame išsamiai aprašomi keli incidentai, kai jų dirbtinio intelekto modelių našumas sumažėjo, o tai buvo nepastebėta ilgą laiką. Šis skaidrumas atskleidė esminę AI ekosistemos spragą: poreikį nepriklausomai, nuolat stebėti AI sistemos veikimą.
Pristatome Marginlab Claude Code Tracker
„Marginlab“, nepriklausoma trečiosios šalies stebėjimo paslauga, nesusijusi su pasienio modelių tiekėjais, sukūrė išsamią stebėjimo sistemą, skirtą specialiai „Claude Code“ veikimui. Jų stebėjimo priemonė, pasiekiama adresu marginlab.ai/trackers/claude-code, pateikia kasdienius etalonus, skirtus aptikti statistiškai reikšmingus Claude Code’o programinės įrangos inžinerijos užduočių pablogėjimus.
Paslauga orientuota į Claude Code Opus 4.5pažangiausias Anthropic kodavimo modelis ir kasdien atlieka kuruojamo pogrupio vertinimus SWE-Bench-Pro — užteršimui atsparus etalonas, specialiai sukurtas dirbtinio intelekto sistemoms įvertinti atliekant realias programinės įrangos inžinerijos užduotis.
Kaip veikia stebėjimo sistema
Dienos lyginamoji metodika
„Marginlab“ metodas yra metodologiškai griežtas:
Mėginio dydis: Kiekvienas kasdienis vertinimas atliekamas 50 bandymų atvejų, užtikrinant pusiausvyrą tarp statistinio patikimumo ir skaičiavimo galimybių.
Testavimas realiame pasaulyje: Etalonai vykdomi tiesiogiai Claude Code CLI naudojant naujausią turimą leidimą ir moderniausią modelį (šiuo metu Opus 4.5), be pasirinktinių diržų. Taip užtikrinama, kad rezultatai atspindės faktinius naudotojų patirtį.
Statistinė analizė: Sistema modeliuoja testus kaip Bernoulli atsitiktinius kintamuosius ir apskaičiuoja 95 % pasikliautinuosius intervalus pagal dienos, savaitės ir mėnesio išlaikymo rodiklius.
Atsparumas užteršimui: Etalonui naudojamas kuruojamas SWE-Bench-Pro pogrupis, specialiai parinktas taip, kad būtų atsparus treniruočių duomenų užteršimui, užtikrinant, kad testai išliktų galioti laikui bėgant.
Našumo metrika ir slenksčiai
Stebėjimo priemonė pateikia kelis našumo rodiklius:
Pradinis išlaikymo rodiklis: istorinis vidurkis (šiuo metu 58 %), naudojamas kaip nuoroda našumo pokyčiams nustatyti.
Dienos bilietų tarifas: palyginimo užduočių, atliktų paskutinės dienos vertinimuose, procentas.
7 dienų leidimų norma: bendras išlaikymo rodiklis per praėjusią savaitę, suteikiantis stabilesnį matą nei dienos rezultatai.
30 dienų leidimų norma: bendras išlaikymo rodiklis per pastarąjį mėnesį, siūlantis geriausią ilgalaikio našumo matą.
Statistinis reikšmingumas: Sistema apskaičiuoja reikšmingumo ribas pagal imties dydžius – ±14,0 % dienos rezultatams (50 bandymų), ±5,6 % savaitės rezultatams (250 bandymų) ir ±3,4 % mėnesio rezultatams (655 bandymai).
Naujausias degradacijos aptikimas
Stebėjimo sistema neseniai aptiko reikšmingą Claude Code veikimo pablogėjimą, įrodantį jos efektyvumą:
Laiko juosta: pablogėjimas buvo aptiktas per 30 dienų laikotarpį, o sistemos našumas statistiškai reikšmingai sumažėjo 4,1 %.
Statistinis reikšmingumas: Su 655 tyrimais per 30 dienų buvo viršyta ±3,4 % riba, o tai rodo tikrą degradaciją, o ne atsitiktinį pokytį.
Antropo atsakas: Thariq iš Claude Code komandos atsakė į Hacker News, patvirtindamas, kad jie nustatė ir ištaisė „Claude Code laidų problemą”, kuri buvo pristatyta sausio 26 d. ir panaikinta sausio 28 d.
Rezoliucija: Vartotojams buvo patarta paleisti claude update siekdami užtikrinti, kad jie turi naujausią versiją su pataisymu.
Techninė informacija: kas yra „pakabų problema“?
Degradacija buvo siejama su „pakinktų problema“, o ne su pagrindinio AI modelio problema. AI sistemose diržai nurodo pastolių kodą, kuris:
- Valdo vartotojo ir AI modelio sąveiką
- Tvarko įrankių iškvietimą ir API integravimą
- Valdo agentinę kilpą, leidžiančią AI planuoti ir vykdyti užduotis
- Valdo kontekstą ir atmintį įvairiose sąveikose
Kaip pastebėjo vienas bendruomenės narys, ši problema greičiausiai paveikė Claude Code programos gebėjimą efektyviai panaudoti pagrindinį modelį, o ne pats modelis tapo mažiau pajėgus. Šis skirtumas yra labai svarbus, nes pajungimo problemos dažnai gali turėti didesnį poveikį nei modelio pablogėjimas, nes jos turi įtakos modelio galimybių prieinamumui ir panaudojimui.
Platesnės AI stebėjimo pasekmės
Kodėl nepriklausomas stebėjimas yra svarbus
Claude Code incidentas išryškina keletą svarbių dalykų, susijusių su AI sistemos stebėjimu:
Pardavėjo aklosios dėmės: Net sudėtingos dirbtinio intelekto įmonės gali nepastebėti savo sistemų veikimo pablogėjimo. Vidinis stebėjimas gali nepastebėti visų problemų, ypač tų, kurios turi įtakos tam tikriems naudojimo atvejams ar vartotojo darbo eigoms.
Naudotojo patirtis ir palyginimai: tradiciniai palyginimai gali neatspindėti realių naudojimo modelių. „Marginlab“ metodas testuojant tikrąją vartotojui skirtą programą suteikia daugiau tinkamų įžvalgų.
Statistinis griežtumas: Norint atskirti tikrąją degradaciją nuo normalios dispersijos, būtina tinkama statistinė analizė. Sistemos patikimumo intervalų ir reikšmingumo testų naudojimas užtikrina patikimą aptikimą.
Skaidrumas: Nepriklausomas stebėjimas sukuria atskaitomybę ir skaidrumą dirbtinio intelekto ekosistemoje, o tai naudinga ir vartotojams, ir paslaugų teikėjams.
Bendruomenės atsakas ir techninė diskusija
Hacker News diskusija apie degradacijos aptikimą atskleidė keletą svarbių įžvalgų:
Dispersija prieš degradaciją: SWE-Bench bendraautorius Ofir Press pažymėjo, kad atliekant tik 50 kasdienių testų, tikimasi didelės dispersijos. Jis pasiūlė atlikti 300 užduočių su 5–10 kasdieninių bėgimų, kad rezultatai būtų patikimesni.
Su apkrova susijusios problemos: Bendruomenės nariai aptarė, kaip serverio perkrova gali sukelti nedeterministinį dirbtinio intelekto sistemų elgesį, o tai gali lemti pablogėjimą net ir be tyčinių pakeitimų.
Architektūros sudėtingumas: Atskleidimas, kad Claude Code naudoja „React“ pagrįstą atvaizdavimo sistemą su 60 kadrų per sekundę dažniu, nustebino daugelį kūrėjų, pabrėždamas šiuolaikinių AI programų sudėtingumą.
Susirūpinimas dėl kompensavimo: Vartotojai kėlė klausimų dėl simbolinio kompensavimo, kai dėl pablogėjimo eikvojami skaičiavimo ištekliai, nors Anthropic atsakymas į tokius prašymus atrodo nevienareikšmis.
Techniniai iššūkiai, susiję su AI našumo stebėjimu
Nedeterminizmas AI sistemose
Vienas iš pagrindinių AI stebėjimo iššūkių yra būdingas didelių kalbų modelių neapibrėžtumas. Net nustačius 0 temperatūrą, dirbtinio intelekto sistemos gali gaminti skirtingus rezultatus dėl:
- Slankaus kablelio aritmetiniai variantai GPU skaičiavimuose
- Lygiagretus apdorojimo užsakymas turinčios įtakos kaupimo rezultatams
- Apkrovos balansavimas įvairiose aparatinės įrangos konfigūracijas
- Atminties valdymas ir konteksto tvarkymo variantai
Dėl šio nedeterminizmo sunku atskirti tikrą degradaciją nuo normalios sistemos dispersijos.
Matavimo problema
Veiksmingam AI stebėjimui reikia suderinti kelis konkuruojančius veiksnius:
Mėginio dydis ir kaina: Didesni imčių dydžiai suteikia patikimesnę statistiką, bet padidina skaičiavimo išlaidas.
Dažnis prieš stabilumą: Dažnesnis tikrinimas užtikrina greitesnį aptikimą, bet gali padidinti duomenų triukšmą.
Realaus pasaulio aktualumas prieš standartizavimą: Tikrųjų programų testavimas suteikia atitinkamų įžvalgų, bet apsunkina konkrečių problemų išskirti.
Jautrumas prieš klaidingus teigiamus teiginius: jautresnis aptikimas užfiksuoja mažesnius pablogėjimus, bet gali sukelti klaidingus pavojaus signalus.
AI našumo stebėjimo ateitis
Aprėpties išplėtimas
Marginlab sėkmė stebint Claude Code rodo platesnės aprėpties potencialą:
Keli modeliai: Stebėjimo išplėtimas į kitas AI sistemas, tokias kaip GPT-4, Gemini ir atvirojo kodo modelius.
Skirtingi domenai: Stebėjimas gali apimti ne tik kodavimą, bet ir rašymą, samprotavimus, matematinių problemų sprendimą ir kitas AI galimybes.
Kelių platformų analizė: skirtingų AI teikėjų našumo palyginimas, siekiant nustatyti pramonės tendencijas.
Pažangūs stebėjimo metodai
Ateities pokyčiai gali apimti:
Įspėjimai realiuoju laiku: Nedelsiant pranešama, kai aptinkamas pablogėjimas, todėl greitesnis atsakymas.
Nuspėjamoji analizė: Istorinių duomenų naudojimas siekiant numatyti galimą gedimą prieš jiems įvykstant.
Priežastinė analizė: geresni įrankiai, skirti nustatyti pagrindines veiklos pokyčių priežastis.
Specialus naudotojo stebėjimas: pritaikytas stebėjimas konkretiems naudojimo atvejams ir darbo eigoms.
Pamokos AI naudotojams ir kūrėjams
AI vartotojams
Nepasitikėk, patikrink: Net patikimiausios AI sistemos gali susilpnėti. Nepriklausomas patikrinimas yra vertingas.
Dokumento atlikimas: saugokite AI sistemos našumą atliekant konkrečias užduotis, kad nustatytumėte galimas problemas.
Būkite informuoti: stebėkite nepriklausomas stebėjimo paslaugas ir bendruomenės diskusijas apie AI sistemos veikimą.
Turėkite atsarginius planus: Nepasikliaukite viena AI sistema svarbioms programoms.
AI kūrėjams
Įdiekite išsamų testavimą: Vidinis stebėjimas turėtų apimti realius naudojimo modelius, o ne tik sintetinius etalonus.
Priimk skaidrumą: Atviras bendravimas problemomis kuria pasitikėjimą ir padeda bendruomenei greičiau nustatyti problemas.
Apsvarstykite išorinį stebėjimą: Nepriklausomos stebėjimo paslaugos gali suteikti vertingų įžvalgų, kurių gali nepastebėti vidinės sistemos.
Degradacijos planas: kurkite sistemas, kurios gali grakščiai valdyti AI našumo pokyčius.
Išvada
Claude Code degradacijos incidentas ir Marginlab sėkmingas jo aptikimas yra svarbus AI sistemos stebėjimo etapas. Kadangi dirbtinio intelekto sistemos tampa vis svarbesnės verslo operacijoms ir kasdienėms darbo eigoms, patikimos, nepriklausomos veiklos stebėjimo poreikis tampa vis svarbesnis.
„Marginlab“ metodas, derinantis statistinį griežtumą, testavimą realiame pasaulyje ir skaidrias ataskaitas, suteikia modelį, kaip turėtų veikti AI veiklos stebėjimas. Jų sėkmė aptinkant Claude Code problemą ir padedant ją išspręsti rodo nepriklausomos AI ekosistemos priežiūros vertę.
AI sistemoms toliau tobulėjant ir tampant sudėtingesnėms, galime tikėtis, kad atsiras sudėtingesnių stebėjimo sprendimų. Tikslas yra ne sugauti dirbtinio intelekto teikėjus darančius klaidas, o sukurti patikimesnę ir patikimesnę DI ekosistemą, kuri būtų naudinga visiems.
Kūrėjams ir įmonėms, pasikliaujančioms dirbtinio intelekto sistemomis, žinutė yra aiški: pasitikėkite, bet patikrinkite. Nepriklausomos stebėjimo paslaugos, tokios kaip Marginlab Claude Code tracker, teikia esminę paslaugą, užtikrinančią, kad AI sistemos, nuo kurių mes priklausome, ir toliau veiktų tokiu lygiu, kokio tikimės.
Dirbtinio intelekto ateitis priklauso ne tik nuo galingesnių sistemų kūrimo, bet ir nuo sistemų, kuriomis galime pasitikėti, kad laikui bėgant išlaikytų savo galimybes. Nepriklausomas stebėjimas yra esminė šio pasitikėjimo dalis.
Jei tekste radote klaidą, siųskite pranešimą autoriui pažymėdami klaidą ir paspausdami Ctrl-Enter.
Nuoroda į informacijos šaltinį