Ideje iz teorije igara podižu pouzdanost jezičnih modela

Nova "igra konsenzusa" pomaže umjetnoj inteligenciji da bolje razumije tekst i razvije vještine generiranja

Mladen Smrekar nedjelja, 19. svibnja 2024. u 12:04
Istraživači se oslanjaju na ideje iz teorije igara kako bi poboljšali velike jezične modele i učinili ih dosljednijima  📷 Alex Shipps/MIT CSAIL
Istraživači se oslanjaju na ideje iz teorije igara kako bi poboljšali velike jezične modele i učinili ih dosljednijima Alex Shipps/MIT CSAIL

Istraživači Laboratorija za računalne znanosti i umjetnu inteligenciju CSAIL osmislili su "igru" koja poboljšava način na koji umjetna inteligencija razumije i generira tekst. Ova "igra konsenzusa" uključuje dva dijela AI sustava: jedan dio pokušava generirati rečenice poput davanja tragova, a drugi dio pokušava razumjeti i procijeniti te rečenice poput pogađanja tajne poruke.

Usklađivanjem predviđanja između generativnih i diskriminativnih LM upita korištenjem igre konsenzusa dobivaju se točna predviđanja 📷 Athul Paul Jacob, Yikang Shen, Gabriele Farina, Jacob Andreas
Usklađivanjem predviđanja između generativnih i diskriminativnih LM upita korištenjem igre konsenzusa dobivaju se točna predviđanja Athul Paul Jacob, Yikang Shen, Gabriele Farina, Jacob Andreas

Tretiranjem ove interakcije kao igre u kojoj oba dijela umjetne inteligencije rade zajedno prema određenim pravilima kako bi se dogovorili oko prave poruke, mogla bi se značajno poboljšati sposobnost umjetne inteligencije da daje točne i koherentne odgovore na pitanja. Novi pristup testiran je raznim zadacima, od razumijevanja pročitanog, preko rješavanja matematičkih problema do vođenja razgovora. Rezultat: AI-u je uz njegovu radio bolje u svim segmentima. Korištenje ER algoritma s modelom LLaMA-7B čak je nadmašilo rezultate mnogo većih modela.


Izgradnja konsenzusa

Veliki jezični model uključuje dva sustava: generator i diskriminator. Korištenjem igre za usklađivanje tih sustava, LLM može postati precizniji.

Pitanje: Koji je glavni grad Francuske?

Generator misli da je vjerojatni odgovor "Pariz", ali baca novčić kako bi utvrdio hoće li odgovoriti istinito ili neistinito. Diskriminator tada odlučuje je li generator dao točan odgovor ili ne.

Ako se dva dijela slažu, dobivaju bodove. Kako bi izbjegli konvergaciju oko pogrešnog odgovora - Lyon - gube bodove ako previše odstupe od svojih početnih uvjerenja. Igraju igru ​​1000 puta po pitanju. S vremenom se pojavljuje konsenzus, a model se poboljšava.


Inspirirano igrom 

Matematika igre​ ​konsenzusa djelomično je inspirirana Cicerom, AI agentom koji je pak bio nadahnut strateškom društvenom igrom Diplomacy, smještenom u Europu prije Prvog svjetskog rata, u kojoj igrači pregovaraju o savezima, izdaju prijatelje i osvajaju teritorije bez upotrebe kocki, oslanjajući se isključivo na vještinu, strategiju i međuljudsku manipulaciju. 

Iako su moderni jezični modeli, kao što su ChatGPT i Gemini, doveli do rješavanja raznih zadataka putem chat sučelja, proces statističkog dekodiranja koji generira odgovor iz takvih modela ostao je nepromijenjen desetljećima. Značajna poboljšanja performansi, navedena u istraživačkom radu nagrađenom na radionici NeurIPS R0-FoMo obećavaju i, kažu istraživači, otvaraju vrata novom načinu dekodiranja jezičnih modela.