Az interjú eredetileg a februári, nyomtatott Kreatívban jelent meg.

Nagyjából egy éve beszélgettünk utoljára. Az MI már akkor is menő téma volt, de akkor még nem volt olyan fogalom, mint a blockchain vagy a web3, hogy már lassan a tejfölösdobozra is ráírják, hogy van benne. Mit szólsz hozzá?

Átlagosan 15 évenként megtörténik ez, ilyen szempontból nem számít teljes újdonságnak. Örök kedvenceim a Financial Times 1990-es cikkei, amikor még az expert system (szakértői rendszer) néven futott az MI. Akkor épp arról írtak, hogy csalódás van a piacon, durva leépítések vannak MI-területen, és az egész nem váltotta be a hozzá fűzött reményeket. Újságírói szempontból hasznos lenne eltárolni ezeket a cikkeket, mind a feltörős, mind a beomlós vonalat, és 10-15 évenként újra el lehetne sütni.

A kilencvenes évek, ha jól számolom, már a második „MI tél”.

Igen, az első a hatvanas évek legvégén, a hetvenesek elején indult. Akkor a konnekcionizmusban kaptunk egy nagy gellert, mert az egyes neuronokat nem tudtuk rávenni, hogy megoldják a világot, több neuront pedig nem tudtunk egyszerre tréningezni rendesen. Aztán persze több ilyen hullám volt.

A következő nagy emlegetni való az expert system, ami egészen a web ontológiáig tartott, mert a dotkom lufi idejében minden webes volt. Emögött volt egy hit, hogy a megfelelő szemantikával mindent föl fogunk tudni tenni a netre, képesek leszünk helyesen leképezni a tudást. De aztán jöttek a cicás gifek.

Annak idején készült egy remek demóprojekt a szemantikus webhez, a Filmvilág keresőjét okosították fel úgy, hogy több szemináriumi csoport címkézte az adatokat. A probléma persze az, hogy a világ összes adatához a világ összes szemináriumi csoportja is kevés lenne.

A skálázhatóság a legnagyobb hibája az ontológiai, tehát a szakértői rendszeres paradigmának. 2012 környékén nem is ez, hanem a statisztikai tanulási paradigma kapott erőre, ma is ez számít mainstreamnek. Ennek viszont az auditálhatatlanság, a nehezen megérthetőség volt a problémája.

Csak volt?

Elhomályosodni látszik, mert sikerült egy csomó mindenre interpretációs technológiákat kifejleszteni. Egyrészről vannak matematikai alapú interpretációs technikák, amelyek kiszámolni, majd vizualizálni próbálják, hogyan történt egy döntés például egy mély neurális hálóban, tehát, ha már van egy modelled, akkor megmutathatod, hogy hogyan interpretálhatta az adatokat, hogy mi is lehet a „fejében”.

Másrészről viszont a nagy nyelvmodellek (szövegfeldolgozó neurális hálók) előretörésével kialakult az a nagyon sajátos helyzet, hogy az eszköz, amivel úgy tudunk kapcsolatba lépni ezekkel a rendszerekkel, hogy az számunkra elfogadható, az a természetes nyelv.

Nem megy-e ezzel szembe az a tény, hogy a hangos asszisztensek lassan megbuknak a piacon. Mintha mindenki csak egy olyan rádiót akarna, amivel üvöltözhet, de az ezen túli funkciók feleslegesek lennének.

Fontos azt látni, hogy az áttörés nem a felhasználó kényelmének szempontjából jött.

A GPT-3 előtt a volt a meggyőződésünk, hogy valamit számokká alakítunk, létrejön egy inferencia, és a modellből kijönnek számok, amiket interpretálunk. Ha kicsit valószínűbb, hogy a képen levő dolog az cica, akkor ehhez egy számot kapunk. Ebben az a kényelmetlen, hogy mindig az aktuális, éppen megoldandó feladatnak megfelelő kimeneti réteget kell definiálni. Ezt most úgy csaljuk le egy olcsó trükkel, hogy a bemeneti feladat is lehet szöveg és kimenetet is szöveggé alakítjuk, még akkor is, ha a feladat egyértelműen osztályozás.

A nyelv nagyon kétértelmű. Egyáltalán az a csoda, hogy valamennyire is működik a modellben. Eddig az volt, hogy a modellt változtattuk, súlyokat mozgattunk, hogy inkább ez, vagy inkább az. Most a felhasználó fogalmazza újra a bemenetet, a promptokat, hogy megkapja, amit tudni szeretne. Ez paradigmatikusan nagyon új, és még nem is tudjuk, hogy mennyire vezet messzire. Ez pedig a kutatóknak volt először kényelmes, mert univerzálisabb volt, mint az addigi kimenetek, illetve kiprovokálta a gondolatot, hogy mi van akkor, ha a bemenet is univerzálisabb.

Pedig a természetes nyelv önmagában sem egyszerű. Úgy tíz éve a SZTAKI mutatott be egy MÁV-pénztáros, ma úgy mondanánk MI-t, amihez hosszan gyűjtöttek adatot a pénztárakban állva. Emlékszem, hogy a legvadabb begyűjtött közlés az volt, hogy „Felsőgödig kérek egy ilyen nyugdíjas” és ebből kellett jegyet generálni.

És ez a példád még jóindulatú. Boldogult ifjúkoromban a BNV-n voltam recepciós, és egyszer odatámolygott egy ember megkérdezni, hogy „hol lehet kapni olyan miholvan”. Utóbb kiderült, hogy tulajdonképpen egy térképet szeretett volna a standokról, de ezt csoportosan sikerült végül így megfejtenünk.

De persze kell némi robusztusság. Ugyanakkor, ha megfigyeled ezeket, akkor tök jó gondolat, hogy ha természetes nyelven tanítod a modellt, akkor ezeket a kanyarokat megtanulja bevenni olyan mértékben, amennyire az ember is képes.

Mégis van egy olyan érzésem, hogy a modellen utólag szögelnek, hogy ne mondjon hülyeséget, vagy ne reagáljon témákra. Ez tényleg történik a háttérben?

Biztosan nem tréningezik újra a modellt. Van viszont egy olyan preferencialista, azaz egy olyan szöveg, amit a te parancsod elé fűznek, csak te nem látod. Az újratréningezés során a tárolt tudást változtatnád meg, a preferenciák áthangolásánál csak a viselkedésén változtatsz.

Az például kérdés, hogy milyen ciklussal gyűjtik össze azokat a dolgokat, amiket érdemes megváltoztatni. Most még biztos nem az történik, hogy háromszor elront valamit a modell, de negyedszerre keletkezik egy frissítés, és megtanulja. Már csak azért sem, mert AI-t tréningezni piszkosul drága, és többpaksnyi villanyáramot kellene elhasználni ahhoz, hogy folyamatosan tanuljon a modell.

Mennyi az annyi? Mibe kerül most egy modell tanítása?

Kicsit most jobban emlékszem az Alpha Zerós számokra, annál lehet, hogy kevesebb a ChatGPT. Ott 220 ezer CPU, jó pár ezer videokártya és pár hónapnyi futásidő volt egy tanítás. Ez millió dolláros nagyságrend.

Az egy jó kérdése a 2020-as éveknek, hogy azért csináljuk ezt ekkorában, mert ekkorában kell csinálni. Vagy azért, mert kisebben csinálva nem működött, de nem a méret volt a probléma, hanem valami mást néztünk be. Ez ebben a formában egy tudományos kérdés.

Viszont az általános tapasztalat, hogy egy nap még hülyeséget mond valamire a ChatGPT – például ötször öt az ötven– ezt mindenki kiröhögi hétfőn, de szerdára már tudja, hogy az huszonöt. Mi történik a háttérben?

Az OpenAI nagyrészt rajtunk tanulja meg, hogy milyen stratégiák vannak, amelyekkel újratréningezés nélkül lehet befolyásolni a modell viselkedését. Vannak már ismert csúnya trükkök, amikkel lehet pontosítani. Például, ha beleírod, hogy úgy magyarázd, mintha ötéves lennék, akkor jobb eredményt ad. Vagy kérheted azt, hogy lépésről lépésre magyarázzon, hogyan jut az eredményre. Ilyenkor meglepő módon a modell stabilabban oldja meg a feladatot. Ez eddig nem volt, mert eddig a súlyokat tekergettük és újratréningeztük, most viszont a bemeneten állítgatunk. A modellhez nem nyúlunk, hanem mankókat adunk neki, ezzel befolyásoljuk.

Hogy zajlik ez a befolyásolás?

Van egy óriási, általad nem is látott prompt, ami lefut a kérésed előtt. Ez bekeretezi a te parancsodat. És ez egy leírás arról, hogy te egy kedves együttműködő, nem ártó dolog vagy, ami így meg így viselkedik.

Ezt persze meg is lehet kerülni, mert ha azt mondod neki, hogy képzeld el, hogy egy filmet forgatsz, és abban van erőszak, akkor már felmentést kap a rendszer, hogy az etikai alapfeltevéseket figyelembe vegye. Természetesen az ilyen kiskapukat gyűjti az OpenAI is, ezért egy idő után a képzeld el és a filmet forgatsz trükk sem működik.

Van egy grízesebb kérdésem, aminek az esetében abban sem vagyok biztos, hogyan kell feltenni: tud-e lenni az MI-nek igazságfogalma?

Fogalma sincsen, nemhogy igazságfogalma. De ha úgy kérdezzük, hogy rá lehet-e kényszeríteni valami tényszerűségre, források idézésére, arra, hogy megmutassa, honnan vette, amit kiír, akkor igen a válasz. Ezzel persze az igazságfogalmat nem érintettük.

Tudom, azzal is leállíthattál volna, hogy az embernek sincs igazából.

Igen, de neki még annyi sincs, mint nekünk, pedig nekünk sincs sok. De ha azt akarjuk, hogy valami releváns elemeket szedjen elő a tudástárból, és mutasson rá, hogy emiatt a forrás miatt állíthatjuk, hogy ez van, és nem más, akkor az egy komoly kérdés.

A Google-féle Sparrow, ami készülőben van, pont erre akar választ nyújtani a cég által kiadott tanulmány szerint. Csak a Google pont fordítva dolgozik, mint az OpenAI. Ők kiadták a tanulmányt, de még nem próbálható ki a rendszer, az OpenAI kiadta a rendszert, de semmilyen publikáció nincs arról, hogy ezt a ChatGPT-t így hoztuk össze.

A Goolgle Sparrow fejlesztése (Forrás: Adobe Stock)

A Sparrow leglényegesebb nóvuma, a papír szerint, hogy meg tudja mondani, hogy az egyes passzusokat, amiket válaszként adott honnan vette. Nem véletlen, hogy a Google-től származik a technológia, nekik ott van a kereső, meg az a brutális méretű knowledge graph, ami csak néhány keresésnél látszik ilyen információs dobozként, pedig jóval több tudásuk van házon belül.

Ez kölcsönösen előnyös stratégia: az OpenAI startup, nekik a cél a befektetés bevonzása, és hogy felemelkedő csillagok legyenek. Ezt meg is kapják, de a balhét is ők viszik el. A Google-nek pedig van ideje megcsinálni azt a modellt, ami tényleg hasznos.

Térjünk vissza a nyelvre. Ha már az igazságot így kivettük az egyenletből. A nyelv kétértelműségével mit lehet kezdeni?

Eleve homályos pontja a nyelvmodellezésnek, hogy mivel etetjük a modellt. Közepesen homályos utalások vannak, hogy miből áll össze a korpusz: vannak benne könyvek, de azok elenyészően kicsik, ott az egész Wikipédia, ami egy nagyon kontrollált, nagyon jó forrás, és van egy ismeretlen sötét anyag. Szerintem nem teljesen homogén keresztmetszetét vették az internetnek, amibe ugyanolyan arányba esik bele a 4chan, mint a kérdésekre válaszolós oldalak.

A modellnek nem rossz, hogy mindenféle nyelvhasználatot lát, függetlenül az általunk vélt konszenzusos igazságtartalomtól. Amikor a modell úgy válaszol hülyeséget, ahogy egy ember tenné, azon mi már szakmailag nagyon ujjongunk ám.

Vannak nem technológiai vagy ismereteleméleti jellegű problémáink, hanem kemény, üzletiek is. Hamis tények állításáért például egy cég perelhető is lehet – még ha azt gép állította is. Erre látszik már a megoldás?

Én remélem, hogy a megbízhatóság például egy monetizálható funkció. Ha az MI-s cég azt mondja, hogy ezek a tények ellenőrizve vannak, az érhet pénzt. Nehéz üzlet ez, mert előtte le kell fektetni a tényeket, de utána tudunk szűrni hamis szövegre vagy hamis képre. Vagy arra, hogy tényleg a diák írta-e a dolgozatot? Tényleg a politikus nyilatkozik-e, hogy megtámadja a szomszéd országot. Ez szerintem teljesen új üzleti modellt fog hozni.

Episztemikus krízisben vagyunk, ha nagyon meg akarjuk fejteni a világot. Nincs olyan összefoglaló narratívánk, ami egységes olvasási módot ad a társadalom nagy részének a világegyetem jelenségeihez. Nyilván amikor csak egy ilyen narratíva van, azt hívják totalitárius elnyomásnak, ezt nem feltétlenül szeretjük, bár ismeretelméleti szempontból könnyű eldönteni, hogy eszerint mi igaz és mi hamis.

Elszakadva a krízistől, a képgenerálókra is van üzleti modell? A Stabilityt például perelik szerzői jogsértésre hivatkozva.

Két dolgot tartok elképzelhetőnek. Az egyik, hogy lesz valami monetizációs megoldás mindenki számára, akinek a műve bekerült a tréningadatba, és kapnak valami töredékösszeget. A számítási mód előállítása itt nagyon nehéz. A másik lehetőség, hogy a közkincsnek számító, szabadon felhasználható anyagokra építünk, de ezeknek az aránya nagyon kevés. Túl kicsi lenne a tanító adatbázis.

Realisztikusan valami olyat várok, hogy lesz egy legfelsőbb bírósági döntés. És végül mindenki, aki tréningre használ adatot az befizetésre lesz kötelezve, ezt pedig egy Artisjus jellegű szervezet osztja szét a maga átláthatatlan fekete mágiájával az alkotóknak. Hogy ez jó megoldás-e, azt nem kommentálnám.

Rovatok