Stipriausias AI modelis, kurį galite treniruotis nešiojamame kompiuteryje per 5 minutes

Klausimas:
Koks yra galingiausias AI modelis, kurį galite treniruotis „MacBook Pro“ vos per penkias minutes?

Trumpas atsakymas:
Geriausias, kurį aš sugebėjau, buvo ~ 1,8 m parametras GPT stiliaus transformatorius, apmokytas ~ 20m „TinyStories“ žetonų. Tai pasiekė ~ 9,6 pasipiktinimą, kai išsiskyrė.

Išvesties pavyzdys (Reikia BOLD)

Kažkada ten buvo mažas berniukas, vardu Timas. Timas turėjo mažą dėžę, su kuria mėgo žaisti. Jis stumtų dėžę atidaryti. Vieną dieną savo kieme jis rado didelį raudoną rutulį. Timas buvo toks laimingas. Jis jį pasiėmė ir parodė savo draugui Jane. „Pažvelk į mano krepšį! Man to reikia!” – pasakė ji. Jie visą dieną žaidė su kamuoliu ir puikiai praleido laiką.

Ne visai Shakespeare’as, bet neblogai penkias minutes.

Turinys:

Iššūkis

Tai dažniausiai buvo įdomus, smalsumo skatinamas eksperimentas-ir galbūt šiek tiek kvailas-dėl dviejų priežasčių:

Jei galite sau leisti „MacBook Pro“, galite tiesiog išsinuomoti 30 minučių „H100 GPU“ ir išmokyti ką nors žymiai stipresnio.
Jei esate užstrigęs nešiojamame kompiuteryje, nėra jokios tikros priežasties apriboti treniruotes iki penkias minutes.

Beje, suvaržymai veisia kūrybiškumą. Tikslas: Apmokykite geriausią įmanomą kalbos modelį vos per penkias apskaičiavimo laiko minutes.

Raktų apribojimas: žetonai per sekundę

Penkios minutės nėra pakankamai ilgos, kad per modelį būtų galima išstumti daugybę žetonų, taigi:

Dideli modeliai yra ne – jie per lėtai už žetoną.
Mažyčiai modeliai Greitai treniruokitės, bet negaliu daug išmokti.

Tai balansavimo veiksmas: geriau treniruotis a 1m parametro modelis milijonams žetonų nei kelių tūkstančių milijardų parametrų modelis.

Našumo optimizavimas

Pradiniai transformatorių mokymai „Apple“ MPS Backend pasiekia ~ 3000 žetonų/sek. Keista:

torch.compileAr float16ir kiti matematikos patarimai nepadėjo.
Gradiento kaupimasis pasidarė lėtesni (paleisti pridėtines vertes buvo tikroji kliūtis).
Perjungimas nuo Pytorch to MLX nedavė jokio reikšmingo postūmio.

Geriausia šios skalės praktika:

Naudoti MPS
Praleiskite kompiliaciją/kiekybiškai
Venkite gradiento kaupimosi
Laikykite modelį mažą

Tinkamo duomenų rinkinio pasirinkimas

Su ~ 10m žetonais (~ 50 MB tekstas), duomenų rinkinio pasirinkimas yra svarbus.

Paprasta anglų vikipedija Buvo tinkama pradžia, tačiau išvestis buvo sunkūs ir apsunkinti daiktavardžių.
„TinyStories“ -Sintetinės, trumpos, 4 metų lygio istorijos-veikė daug geriau:
- Nuoseklūs pasakojimai
- Priežasties ir pasekmės logika
- Minimalūs tinkami daiktavardžiai
- Paprasta gramatika

Puikiai tinka mažų kalbų modeliams.

Tokenizacija

Tokenizatorių mokymai nebuvo įskaičiuoti į penkių minučių biudžetą. Tokiu mastu:

Tokenizacijos pridėtinė vertė yra nereikšminga.
Daugiapakopiams žetonams mažiems modeliams lengviau išmokti nei neapdorotus simbolius.

Architektūros eksperimentai

Transformatoriai

GPT-2 stilius buvo numatytasis pasirinkimas.
Swiglu Aktyvacija suteikė postūmį.
2–3 sluoksniai dirbo geriausiai.
Mokymosi greitis: 0,001–0,002 buvo optimalus greitam konvergencijai.
Padėties įterpimai pralenkta virvė.

LSTMS

Panaši struktūra, tačiau šiek tiek blogesnis pasipiktinimas nei transformatoriai.

Difuzijos modeliai

Bandė D3PM Kalbos difuzija – rezultatai buvo nenaudojami, sukeliantys atsitiktinius žetonus.
Transformatoriai ir LSTM per minutę pasiekė gramatinę išvestį; Difuzija to nepadarė.

Rasti saldžią vietą modelio dydyje

Eksperimentuojama su dydžiais:

~ 2M parametrai buvo viršutinė praktinė riba.
Bet koks didesnis: per lėtas, kad per 5 minutes susilieti.
Bet koks mažesnis: plokščiakalniai per anksti.

Tai buvo išdėstyta su Chinchilla mastelio įstatymaikuris yra susijęs su optimaliu modelio dydžiu su mokymo žetonais.

Galutinės mintys

Šis eksperimentas nepakeis AI treniruočių ateities – įdomiausias elgesys įvyks po penkių minučių. Bet tai buvo:

Puikus būdas tyrinėti Mažyčio modelio treniruočių dinamika
Smagus testas Nešiojamojo kompiuterio GPU galimybės
Įrodymas, kad galite gauti a nuoseklus pasakojimo modelis per penkias minutes

Turėdami geresnes architektūras ir greitesnius vartotojų GPU, galų gale galime pamatyti stebėtinai pajėgūs modeliai, treniruojami per kelias minutes – tiesiai iš nešiojamojo kompiuterio.

Jei radote klaidą tekste, atsiųskite pranešimą autoriui pasirinkdami klaidą ir paspausdami „Ctrl-Enter“.

Jūs turite būti prisijungę, kad pakomentuotumėte.

Stipriausias AI modelis, kurį galite treniruotis nešiojamame kompiuteryje per 5 minutes

Iššūkis

Raktų apribojimas: žetonai per sekundę

Našumo optimizavimas

Tinkamo duomenų rinkinio pasirinkimas

Tokenizacija

Architektūros eksperimentai

Transformatoriai

LSTMS

Difuzijos modeliai

Rasti saldžią vietą modelio dydyje

Galutinės mintys

Kauno miesto savivaldybė Šilainių baseino atidarymas

Lietuvos ekonomikos paveikslas – šviesus, bet ateitį temdo viešųjų finansų ir našumo iššūkiai bei demografijos problema

Maksimalus parduotuvės matomumas iš vidaus ir išorės »Rezidencijos stilius

„NVIDIA RTX 5070“ ir „RTX 4070“ nešiojamojo kompiuterio GPU: 25 žaidimų demonstravimas

Iššūkis

Raktų apribojimas: žetonai per sekundę

Našumo optimizavimas

Tinkamo duomenų rinkinio pasirinkimas

Tokenizacija

Architektūros eksperimentai

Transformatoriai

LSTMS

Difuzijos modeliai

Rasti saldžią vietą modelio dydyje

Galutinės mintys

By admin

Susiję įrašai

Jūs dar neperskaitėte