Wst臋p
Poni偶ej znajduje si臋 podsumowanie mojego obecnego rozumienia du偶ych modeli j臋zykowych (LLM, Large Language Model) potocznie nazywanych sztuczn膮 inteligencj膮 (SI) lub AI (artificial intelligence).
O du偶ych modelach j臋zykowych
Czym s膮 i jak dzia艂aj膮 LLM
Tworzenie AI zaczynamy od du偶ego zbioru danych, np. wikipedia, b臋d膮cego zbiorem danych treningowych (training dataset).
System
roz艂o偶y dane wej艣ciowe na tokeny, tzn. niepodzielne cz膮stki
(g艂oski, litery, wyrazy, fonemy czy cokolwiek tam mu b臋dzie pasowa膰). Na potrzeby uproszczenia opisu poni偶ej zak艂adam, 偶e token odpowiada s艂owu. W rzeczywisto艣ci s艂owo sk艂膮da sie zazwyczaj z dw贸ch lub wi臋cej token贸w.
Szukamy po艂膮czenia (korelacji) mi臋dzy
danymi. Przyk艂adowo mi臋dzy s艂owami i ich umiejscowieniem w zdaniu dzi臋ki czemu
potrafimy przewidzie膰, 偶e przyk艂adowo po wyrazie "kurka" najcz臋艣ciej
wyst臋puje "wodna" ale mo偶e te偶 wyst膮pi膰 "grzyb". Okre艣lamy te偶 jak prawdopodobne jest
wyst膮pienie ka偶dego z wyraz贸w i wyznaczamy prawdopodobie艅stwo dla wszystkich.
Rzeczywisty system jest bardziej skomplikowany. Dane wej艣ciowe zamieniamy na dane
numeryczne. Matematycznie s膮 to jakie艣 pozycje w przestrzeni token贸w, a
podobne tokeny znajduj膮 si臋 w niej niedaleko siebie. Przestrze艅 nie jest
p艂aska, ani nawet tr贸jwymiarowa - wymiar贸w jest du偶o wi臋cej.
Pozycje
w przestrzeni okre艣lamy z jak膮艣 dok艂adno艣ci膮. Dla uproszczenia zak艂贸偶my dwa
wymiary i wsp贸艂rz臋dne (x, y). S艂owo "niebieski" mo偶e mie膰 pozycj臋
(100.51, 35.33) a "turkusowy" pozycj臋 (101.02, 34.51), poniewa偶 te s艂owa maj膮 zbli偶one znaczenie.
Pozycje
okre艣lamy ze sko艅czon膮 dok艂adno艣ci膮, np. (100.5, 35.3) i (101.0, 34.5) lub
(100, 35) i (101, 35). Warto zauwa偶y膰, 偶e przy ma艂ej dok艂adno艣ci s艂owa
mog膮 dosta膰 t臋 sam膮 pozycj臋. W rzeczywisto艣ci wymiar贸w mamy wi臋cej ni偶 dwa i nawet przy niskiej precyzji modele osi膮gaj膮 stosunkowo dobre wyniki.
W powy偶szy spos贸b mo偶emy przewidzie膰 jakie s艂owo nast膮pi po innym.
Tokeny
zbieramy w grupy i powtarzamy z szersz膮 perspektyw膮. Dzi臋ki temu mo偶emy
rozr贸偶ni膰 "zamek do drzwi" i "zamek u spodni". Tokeny s膮 takie same, lecz
ich znaczenie jest zupe艂nie inne. Token "zamek" powinien posiada膰 przynajmniej dwa r贸偶ne
po艂o偶enia w zale偶no艣ci od kontekstu. Je艣li dobrze zrozumia艂em LLM to
wielowarstwowe przetwarzanie stanowi cz臋艣ciowe obej艣cie tego problemu. By膰 mo偶e da艂o by si臋 to rozwi膮za膰 poprzez przypisanie jednemu tokenowi zestawu pozycji, tzn. zestawu wektor贸w. Z drugiej strony przetwarzanie na wielu warstwach jest zbli偶onym dzia艂aniem.
Na koniec system przewiduje jaki token nast膮pi po innym tokenie na wej艣ciu oraz po zestawie token贸w.
Praca z problemami wcze艣niej nie spotykanymi
Chcemy aby AI potrafi艂o pracowa膰 z danymi, kt贸re nie s膮 takie same jak zbi贸r danych treningowych.
- Rzeczywisty
model chcieli by艣my "douczy膰" w czasie rzeczywistym poprzez podanie
skomplikowanego zestawu danych wej艣ciowych, np. stron internetowych.
Niestety to jest proces powolny i trzeba szuka膰 alternatywnego
rozwi膮zania.
- Je艣li ilo艣膰 token贸w na wej艣ciu jest zbyt du偶a -
model ma problem aby okre艣li膰 dobrze kolejne tokeny. Jest to zwi膮zane z
brakiem dobrych du偶ych danych wej艣ciowych do szkolenia modelu jak i
skomplikowanym procesem przetwarzania (i oszcz臋dno艣ciami w
obliczeniach).
- Aby zweryfikowa膰 czy nasz model radzi sobie dobrze z nieznanymi wcze艣niej danymi zwykle zbi贸r danych wej艣ciowych dzielimy na dane treningowe i inne, np. walidacyjne.
- Temperature.
Jest to wsp贸艂czynnik kt贸ry pozwala na wyb贸r niekoniecznie dok艂adnych
korelacji mi臋dzy tokenami (ich odzwierciedleniem w przestrzeniach
wielowymiarowych). Warto艣膰 0% (0.00) oznacza dok艂adny wynik, warto艣膰 20%
(0.20) oznacza potencjalnie nieszablonowe rozwi膮zania (kreatywno艣膰).
Wyzwania, problemy i zagro偶enia zwi膮zane z LLM
AI jest obarczona szeregiem problem贸w i zagro偶e艅. Cz臋sto nie mo偶na ich unikn膮膰 ale staramy si臋 przynajmniej zminimalizowa膰 prawdopodobie艅stwo niepo偶膮danych efekt贸w.
- Czasem model ma tzw. halucynacje, tzn. wykry艂
powi膮zanie mi臋dzy jakimi艣 miejscami w danych wej艣ciowych a bzdur膮, np.
kto艣 cz臋sto pope艂nia liter贸wk臋 w wikipedii to model przyjmie to za
poprawn膮 warto艣膰. Mo偶e to by膰 te偶 powi膮zanie mi臋dzy teoretycznie
niepowi膮zanymi danymi wej艣ciowymi. W zasadzie to nie kontrolujemy tego, co model powi膮偶e ani w jaki spos贸b. Jedynie nadajemy kierunek tworzeniu tych powi膮za艅.
W ten spos贸b szkolimy model ale nie kontrolujemy go podobnie jak uczymy
dziecko (ale dziecko i tak mo偶e wyrosn膮膰 na psychopat臋).
- Bezgraniczne zdawanie si臋 na modele stanowi niebezpieczny trend.
Inwestorzy cz臋sto nie znaj膮 kontekstu swojej inwestycji, w kt贸ry inwestuj膮 pieni膮dze. Inwestorzy oczekuj膮 jedynie zysk贸w a firmy kieruj膮 si臋 zyskiem jako
s艂ownym wyznacznikiem swoich dzia艂a艅. Przepisy oraz moralno艣膰 s膮
naginane do granic ryzyka (oraz konsekwencji ich z艂amania i wykrycia). Takie
podej艣cie powoduje sk艂onno艣ci do nadmiernego ryzyka.
- Powierzaj膮c AI wykonanie jakiego艣 zadania ca艂o艣ciowo powinni艣my pami臋ta膰 o jego u艂omno艣ciach i ograniczeniach.
- Model nie ma emocji i polega jedynie na matrycy prawdopodobie艅stwa wygenerowanej z danych wej艣ciowych.
- Model jest cyniczny i 艣lepo wykonuje polecenia.
- Model jest ska偶ony wszelkimi nieprawid艂owo艣ciami w danych wej艣ciowych i ma tendencje do halucynacji.
- Model nie jest kreatywny a zwi臋kszaj膮c "temperatur臋" zwi臋kszamy mo偶liwo艣膰 halucynacji.
- Obecnie powierzamy modelom wykonianie jakiego艣 zadania. Nast臋pnie dajemy mu kontrol臋 nad narz臋dziami do wykonania zadania.
- Wej艣ciowe
zadanie zazwyczaj podamy nieprecyzyjnie - nie jeste艣my w stanie
przewidzie膰 wielu komplikacji przed ich wyst膮pieniem. Degeneracja pierwsza.
- Akcje przewidziane przez AI s膮 wydane na powstawie nieprecyzyjnych danych obraczonych cynizmem i halucynacjami. Degeneracja druga.
- Akcje wykonane przez AI przy u偶yciu narz臋dzi nie s膮 kontrolowane. Mog膮 one prowadzi膰 do kolejnych zwyrodnie艅. Degeneracja trzecia.
- Efekt ko艅cowy jest efektem danych wej艣ciowych i funkcji na nich wykonanej razem z degeneracj膮 na ka偶dym poziomie, tzn. wynik ko艅cowy zawiera iloczyn degeneracji.
- Im wi臋kszej kreatywno艣ci oczekujemy, tym wi臋ksze degeneracje i halucynacje. To troszk臋 jak z schizofreni膮. Im wi臋ksze degeneracje, tym wi臋kszy b艂膮d wyniku na wyj艣ciu.
- Aby
kontrolowa膰 potencjalnie niepoprawne (niebezpieczne) wyniki nak艂ada sie
kolejne warstwy AI waliduj膮ce wyniki tej pierwszej warstwy. Kreatywne
AI jest w stanie (celowo b膮d藕 przypadkowo) wygenerowa膰 wyniki, kt贸re nie
zostan膮 zaklasyfikowane przez warstw臋 kontroli jako nieprawid艂owe (tym
bardziej je艣li jest ona zimna i cyniczna, tzn. posiada nisk膮
temperatur臋).
Podsumowanie
Kieruj膮c si臋 kapitalizmem
firmy powierzaj膮 zadania nieprzewidywalnym schzofrenicznym modelom
j臋zykowym zwi臋kszaj膮c ich kreatywno艣膰 (i poziom schizofreni) przez
zwi臋kszenie temperatury. AI ma coraz pot臋偶niejsze narz臋dzia pozbawione
kontroli nad ich wykorzystaniem.
I to jest obecny trend na rynku (czy偶by do pierwszej wi臋kszej wtopy zainicjowanej przez AI?).