Klausimas:
Koks yra galingiausias AI modelis, kurį galite treniruotis „MacBook Pro“ vos per penkias minutes?
Trumpas atsakymas:
Geriausias, kurį aš sugebėjau, buvo ~ 1,8 m parametras GPT stiliaus transformatorius, apmokytas ~ 20m „TinyStories“ žetonų. Tai pasiekė ~ 9,6 pasipiktinimą, kai išsiskyrė.
Išvesties pavyzdys (Reikia BOLD)
Kažkada ten buvo mažas berniukas, vardu Timas. Timas turėjo mažą dėžę, su kuria mėgo žaisti. Jis stumtų dėžę atidaryti. Vieną dieną savo kieme jis rado didelį raudoną rutulį. Timas buvo toks laimingas. Jis jį pasiėmė ir parodė savo draugui Jane. „Pažvelk į mano krepšį! Man to reikia!” – pasakė ji. Jie visą dieną žaidė su kamuoliu ir puikiai praleido laiką.
Ne visai Shakespeare’as, bet neblogai penkias minutes.
Iššūkis
Tai dažniausiai buvo įdomus, smalsumo skatinamas eksperimentas-ir galbūt šiek tiek kvailas-dėl dviejų priežasčių:
- Jei galite sau leisti „MacBook Pro“, galite tiesiog išsinuomoti 30 minučių „H100 GPU“ ir išmokyti ką nors žymiai stipresnio.
- Jei esate užstrigęs nešiojamame kompiuteryje, nėra jokios tikros priežasties apriboti treniruotes iki penkias minutes.
Beje, suvaržymai veisia kūrybiškumą. Tikslas: Apmokykite geriausią įmanomą kalbos modelį vos per penkias apskaičiavimo laiko minutes.
Raktų apribojimas: žetonai per sekundę
Penkios minutės nėra pakankamai ilgos, kad per modelį būtų galima išstumti daugybę žetonų, taigi:
- Dideli modeliai yra ne – jie per lėtai už žetoną.
- Mažyčiai modeliai Greitai treniruokitės, bet negaliu daug išmokti.
Tai balansavimo veiksmas: geriau treniruotis a 1m parametro modelis milijonams žetonų nei kelių tūkstančių milijardų parametrų modelis.
Našumo optimizavimas
Pradiniai transformatorių mokymai „Apple“ MPS Backend pasiekia ~ 3000 žetonų/sek. Keista:
- torch.compileAr float16ir kiti matematikos patarimai nepadėjo.
- Gradiento kaupimasis pasidarė lėtesni (paleisti pridėtines vertes buvo tikroji kliūtis).
- Perjungimas nuo Pytorch to MLX nedavė jokio reikšmingo postūmio.
Geriausia šios skalės praktika:
- Naudoti MPS
- Praleiskite kompiliaciją/kiekybiškai
- Venkite gradiento kaupimosi
- Laikykite modelį mažą
Tinkamo duomenų rinkinio pasirinkimas
Su ~ 10m žetonais (~ 50 MB tekstas), duomenų rinkinio pasirinkimas yra svarbus.
-
Paprasta anglų vikipedija Buvo tinkama pradžia, tačiau išvestis buvo sunkūs ir apsunkinti daiktavardžių.
-
„TinyStories“ -Sintetinės, trumpos, 4 metų lygio istorijos-veikė daug geriau:
- Nuoseklūs pasakojimai
- Priežasties ir pasekmės logika
- Minimalūs tinkami daiktavardžiai
- Paprasta gramatika
Puikiai tinka mažų kalbų modeliams.
Tokenizacija
Tokenizatorių mokymai nebuvo įskaičiuoti į penkių minučių biudžetą. Tokiu mastu:
- Tokenizacijos pridėtinė vertė yra nereikšminga.
- Daugiapakopiams žetonams mažiems modeliams lengviau išmokti nei neapdorotus simbolius.
Architektūros eksperimentai
Transformatoriai
- GPT-2 stilius buvo numatytasis pasirinkimas.
- Swiglu Aktyvacija suteikė postūmį.
- 2–3 sluoksniai dirbo geriausiai.
- Mokymosi greitis: 0,001–0,002 buvo optimalus greitam konvergencijai.
- Padėties įterpimai pralenkta virvė.
LSTMS
- Panaši struktūra, tačiau šiek tiek blogesnis pasipiktinimas nei transformatoriai.
Difuzijos modeliai
- Bandė D3PM Kalbos difuzija – rezultatai buvo nenaudojami, sukeliantys atsitiktinius žetonus.
- Transformatoriai ir LSTM per minutę pasiekė gramatinę išvestį; Difuzija to nepadarė.
Rasti saldžią vietą modelio dydyje
Eksperimentuojama su dydžiais:
- ~ 2M parametrai buvo viršutinė praktinė riba.
- Bet koks didesnis: per lėtas, kad per 5 minutes susilieti.
- Bet koks mažesnis: plokščiakalniai per anksti.
Tai buvo išdėstyta su Chinchilla mastelio įstatymaikuris yra susijęs su optimaliu modelio dydžiu su mokymo žetonais.
Galutinės mintys
Šis eksperimentas nepakeis AI treniruočių ateities – įdomiausias elgesys įvyks po penkių minučių. Bet tai buvo:
- Puikus būdas tyrinėti Mažyčio modelio treniruočių dinamika
- Smagus testas Nešiojamojo kompiuterio GPU galimybės
- Įrodymas, kad galite gauti a nuoseklus pasakojimo modelis per penkias minutes
Turėdami geresnes architektūras ir greitesnius vartotojų GPU, galų gale galime pamatyti stebėtinai pajėgūs modeliai, treniruojami per kelias minutes – tiesiai iš nešiojamojo kompiuterio.
Jei radote klaidą tekste, atsiųskite pranešimą autoriui pasirinkdami klaidą ir paspausdami „Ctrl-Enter“.
Jūs turite būti prisijungę, kad pakomentuotumėte.
Prisijunkite
Nuoroda į informacijos šaltinį