Šta čita ChatGPT?

Profesor Dejvid Beman sa Univerziteta Berkli u Kaliforniji nedavno je pokušao da izvrši kompjutersku analizu romana „Gordost i predrasude“. Ovaj informatičar, jedan od nekolicine naučnika čiji je zadatak da nauče kompjutere da razmišljaju o umetnosti, planira da stvori nešto što naziva „algoritamskim mernim instrumentima za kulturu“. Da bi to postigao, potrebno je da iz što većeg broja dela klasične književnosti izvuče podatke koji se odnose na razne elemente poput, recimo, karaktera likova, njihovih međusobnih odnosa i slično. U slučaju poznatog romana Džejn Ostin, Beman je rešio da počne od pitanja na koje bi lako odgovorila i jedva pismena osoba: Da li su Lizi i Džejn najbolje prijateljice ili samo sestre?

Foto: Freepik

Prvo je, šale radi, odlučio da pitanje postavi veštački inteligentnom softveru ChatGPT. Šta bi se desilo kada bi u program uneo 4.000 reči iz „Gordosti i predrasuda“ i postavo jednostavno pitanje: Kakvi su odnosi između likova?

Na njegovo iznenađenje, upalilo je. Verzija GPT-4 popularnog četbota kompanije OpenAI je sa zapanjujućom preciznošću opisala porodično stablo porodice Benet. Delovalo je skoro kao da je unapred proučila roman. „Odgovor je bio toliko dobar da me je pomalo uznemirio“, kaže Beman. „Ili mu je zadatak već bio dobro poznat, ili je ’Gordost i predrasude’ video milion puta na internetu i zbog toga odlično poznaje knjigu.“

Problem je u tome što mi ne možemo da saznamo kako je GPT-4 znao ono što je znao. Unutrašnji procesi velikih jezičkih modela, bez kojih četbot ne bi mogao da funkcioniše, predstavljaju crnu kutiju; setovi podataka na kojima se „obučavaju“ toliko su važni za njihovo funkcionisanje da ih tvorci softvera smatraju poslovnom tajnom. Zato su Beman i njegov tim istraživača odlučili da postanu „arheolozi podataka“. Da bi otkrili šta je GPT-4 sve pročitao, počeli su da ispituju njegovo znanje o različitim knjigama, kao da se radi o srednjoškolcu, a zatim bi mu dali ocenu za svaku od njih. Što je ocena bila viša, to je veća bila verovatnoća da je ta knjiga bila deo botove obuke – ne samo sažvakana da bi bot usvojio novi jezik, već zapamćena.

Bemanov tim je krajem aprila ove godine objavio rezultate svog istraživanja. Kao što se i moglo očekivati, najveći deo četbotove lektire predstavljaju klasici: od „Mobi Dika“ i „Skerletnog slova“ do „Plodova gneva“ i, naravno, „Gordosti i predrasuda“. Tu je i gomila popularnih romana, od onih o Hariju Poteru i Šerloku Holmsu do „Da Vinčijevog koda“ i „Pedeset nijansi sive“. Ali ono što ih je naročito iznenadilo bila je količina naslova fantastike i naučne fantastike na kojima se temelji botovo poznavanje književnosti. Taj spisak je, u najmanju ruku, impresivan: Dž. R. R. Tolkin, Rej Bredberi, Vilijam Gibson, Orson Skot Kard, Filip K. Dik, Margaret Atvud, „Igra prestola“, čak i „Autostoperski vodič kroz galaksiju“.

Pitanje sadržaja ovog spiska literature nije isključivo akademsko. Botovi nisu inteligentni. Oni ne razumeju svet na način na koji to čine ljudi. Ali jedan od najboljih načina da upoznate nekoga – ili, u ovom slučaju, nešto – jeste da proučite njegovu policu sa knjigama. A na osnovu onoga što čitamo u Bemanovoj studiji, stiče se utisak da je GPT-4 jedan veliki štreber.

„Silmarilion“? Zaista?

Jedan od razloga zbog kojih istraživači raznih profila pokušavaju da saznaju na kojim knjigama se obučavaju četbotovi počiva u potrebi da se utvrdi da li veliki jezički modeli upotrebom tih izvora krše izdavačka i autorska prava. U ovom trenutku se u nekoliko sudnica širom Sjedinjenih Država lome koplja oko pitanja da li botovi poštuju Doktrinu poštene upotrebe zaštićenog materijala (Fair Use Doctrine) time što ga transformišu u nešto novo, i da li oni taj materijal jednostavno memorišu i reprodukuju bez dozvole i navođenja izvora.

Jedan od načina da se odgovori na ovo pitanje je da se potraže informacije do kojih se može doći samo na određenim mestima. Evo primera: kada aplikaciji za generisanje teksta Sudowrite (koristi verziju GPT-3) postavite zadatak da u tekst unese seksualne prakse karakteristične za žanr fanfikcije zvani „omegaverzum“, ona to čini bez ikakvih problema. To je jasan znak da je kompanija OpenAI pročešljala arhive omegaverzuma prilikom obuke svog četbota.

Beman i njegov tim koristili su se nešto drugačijom taktikom, koja se svodi na prepoznavanje ličnih imena. Izabrali su veći broj kratkih odlomaka iz romana objavljenih od 1749. naovamo i izbrisali iz njih imena i sve aluzije na imena književnih likova, uneli ih u nekoliko poslednjih verzija ChatGPT-a, a zatim počeli da mu postavljaju pitanja u vezi sa tim odlomcima. Ukoliko bi bot odgovorio na pitanje služeći se imenom ili imenima koja su oni izbrisali, znali su da se u njegovoj memoriji već nalaze svi podaci iz knjige iz koje je citat potekao. Postavljali su po sto pitanja o svakoj upotrebljenoj knjizi, a ocena je zavisila od broja tačnih odgovora.

Kada su obradili prikupljene podatke, dobili su konačni spisak. Pored očekivanih rezultata – Čarlsa Dikensa, Džeka Londona, „Frankenštajna“ i „Drakule“ – bilo je i nekoliko zanimljivih izuzetaka. Autoru ovog članka je bilo posebno drago kada je na spisku ugledao „Malteškog sokola“; ako mene pitate, Dešijel Hemet je bolji pisac detektivskih romana od daleko popularnijeg Rejmonda Čendlera. Ali ako preskočite naslove iz javnog domena i pređete na spisak knjiga zaštićenih autorskim pravima, otkrićete stvarni karakter GPT-4 (koji se, uzgred, veoma malo razlikuje od verzije GPT-3.5). Nije, naravno, nimalo čudno što se „Družina prstena“ nalazi na 3. mestu, ali podatak da se na 9. mestu nalazi „Silmarilion“ neće iznenaditi samo najveće zaluđenike. „Da li androidi sanjaju elektronske ovce?“ Filipa K. Dika zauzima 21. mesto, samo nekoliko pozicija ispod Gibsonovog „Neuromansera“ – a posebno je zanimljivo to što su ova dva remek-dela sajberpanka bila među prvima koja su upozorila na opasnost koja preti od veštačke inteligencije. Asimovljeva „Zadužbina“ se nalazi u samom dnu spiska. („Zadužbina“ je omiljena knjiga moje mladosti, ali kada sam je ponovo pročitao pre dve godine, pred početak emitovanja sjajne televizijske adaptacije, nije me naročito oduševila.)

Zaključak? Ne znam kako, ali ovaj spisak je prepisan iz moje glave! Javnost je upravo saznala kako izgleda spisak naučnofantastične literature svakog usamljenog, heteroseksualnog štrebera, pripadnika generacije X. Ali sada se postavlja pitanje: Da li je to važno? Čemu bi trebalo da se nadamo ako GPT-4 ima čitalački ukus četrnaestogodišnjeg klipana iz 1984. godine? (Kada smo već kod toga, „1984“ je na 2. mestu liste.)

Da li je važno šta veštačka inteligencija čita?

Baza podataka GPT-4 je ogromna. Nagađa se da se sastoji od jednog petabajta podataka. Ne postoji, dakle, jedan konkretan roman – čak ni pedeset njih – koji bi ovog bota naučio da staranje o ukletom hotelu nije lek za kreativnu blokadu („Isijavanje“ je na 49. mestu), niti da je strah „ubica uma“ („Dini“ pripada 13. pozicija). Ostrva fikcije plivaju u okeanu podataka. „Set podataka koji se koristi u predobuci botova sastoji se od ogromnog broja tekstova“, kaže Ted Andervud, profesor informatičkih nauka na Univerzitetu Ilinoisa. „Nisam siguran koliko sklonost nekom žanru može da utiče na ponašanje rezultirajućih jezičkih modela.“

Sasvim je moguće da je prisustvo pomenutih naslova u digitalnoj duši GPT-4 jednostavno odraz njihove sveprisutnosti na internetu. Internet je, naposletku, izvor svih podataka kojima se GPT-4 „hrani“. Kada je Bemanov tim u svoje testove uključio knjige iz javnog domena, rezultati su bili još viši – „Alisa u Zemlji čuda“ se našla na prvom mestu spiska sa zapanjujućim rezultatom od 98%. A pritom je dobro poznato da i internet i kompanije koje prave botove favorizuju sredovečne bele heteroseksualce i naučnu fantastiku koju ovi vole. Bemanov tim je otkrio da su knjige za koje su veliki jezički modeli dobili visoke ocene zaista najzastupljenije na internetu. I to ima smisla. Četbotovi nisu sami izabrali svoje „omiljene“ knjige. Izabrala ih je internet kultura.

Pa ipak, nije teško zamisliti scenario u kome bi naučnofantastična literatura mogla da ima podjednako loš uticaj na botove kao i svi ostali podaci na kojima se obučavaju, izazivajući istu vrstu neočekivanih predrasuda koje se redovno pojavljuju u njihovim odgovorima na pitanja korisnika. Botovi se ponekad služe rasističkim rečnikom. Ponekad neistinite informacije predstavljaju kao istinu, jer se laži na internetu veoma lako šire i umnožavaju. Sve ovo su dobro poznati rizici, a takođe i jedan od razloga zbog kojih je Sem Altman, generalni direktor OpenAI, nedavno od američkog Kongresa zahtevao da se uvede zakonska regulativa u oblast u kojoj posluje njegova kompanija.

„Izvori na kojima se veliki jezički modeli obučavaju imaće presudan uticaj na njihovo ponašanje i vrednosti koje će zastupati“, kaže Beman. Ukoliko budu čitali isključivo knjige Kormaka Makartija, verovatno će imati sumoran pogled na svet i surov rečnik, smatra on. A šta ako proguta svu raspoloživu literaturu o mračnim, distopijskim svetovima, ispunjenim Igrama gladi, Ceremonijama odabira i Belim hodačima? „Kako će ovaj žanr uticati na ponašanje jezičkih modela u situacijama nevezanim za književnost i pripovedanje?“, pita se Beman. „Mislim da još uvek nemamo odgovor na to pitanje.“

Kao veliki ljubitelj naučne fantastike, pokušaću da mu odgovorim. Mislim da je velika zastupljenost tih knjiga u bazi podataka GPT-4 dobra stvar. Mi ovde ne govorimo o pričama nadobudnih polaznika radionica za kreativno pisanje u Ajovi, krcate vanbračnim ljubavnim poniženjima sredovečnih intelektualaca. Žanrovska književnost (naučna fantastika, trileri, ljubići, horori i sl.) uopšteno govoreći, neuporedivo je interesantnija od ostatka književnosti, delom zbog toga što se u tim knjigama nešto zaista dešava. Spisak lektire GPT-4 je prava borhesovska lista epizodnih veza, klifhengera, komplikacija u trećem činu i likova koji se dižu na oružje protiv mora nedaća (i kitova).

I više od toga: naučna fantastika, fantastika i horor otvaraju prostor za promišljanje o idejama i mogućnostima. „Dina“ govori o religiji i politici revolucije. „Gospodar prstenova“ suprotstavlja pastoralizam industrijalizaciji. „Sluškinjina priča“ nas uči da seksizam i fašizam uvek idu podruku. Mogao bih da nabrajam do sutra. Nemam apsolutno ništa protiv veštačke inteligencije sa sintaksičkim pogledom na svet, utemeljenim na hipersvemiru i peščanim crvima – ili bar veštačke inteligencije koja je pročitala sve priče o tome kako veštačke inteligencije mogu da polude. Pored toga, ne bih imao ništa protiv kada bi joj se malo proširili vidici. Zašto joj, na primer, ne bismo ponudili knjige Oktavije Batler, Čarli Džejn Anders, Lavija Tidara, Semjuela Dilejnija, Čajne Mjevila... Vreme je da proširimo univerzum mogućih univerzuma.

Knjige koje čitamo menjaju način na koji razmišljamo o svetu. Ali četbotovi ne razmišljaju ni o čemu. Oni uspostavljaju statističke i vektorske veze između reči. Koga briga da li su te reči naučnofantastične? „Ono što se bez ikakve sumnje menja jesu asocijacije između koncepata koje smatraju mogućim, ili jakim, ili sistematičnim, ili periodičnim“, kaže Eli Pavlik, profesorka informatike sa Univerziteta Braun koja radi kao istraživač za Google AI. „Možda bi trebalo da se zapitamo kakvo je njihovo viđenje sveta. Uprošćeno gledano, to su samo veze između reči i koncepata, ali priroda tih veza ipak zavisi od materijala koji čitaju.“

Sve dok OpenAI i drugi tvorci četbotova ne upoznaju javnost sa sadržajem setova podataka koje koriste u obuci svojih jezičkih modela, nećemo znati u kojoj meri pročitana književna dela utiču na rezultate njihovog rada. „Ako imate model u koji je uneta ogromna količina naučne fantastike, i imate poseban model koji ste obučavali na materijalu koji izlazi iz radionice za kreativno pisanje u Ajovi“, kaže Beman, „mogli biste da im istovremeno postavite zadatak tipa: Daj mi deset prioriteta za ovaj sastanak.“ Moguće je da će bot koji je čitao isključivo pisce iz Ajove predložiti da svi učesnici sastanka opišu svoje komplikovane odnose sa roditeljima, a da će onaj drugi predložiti da se podelite na hogvortske kuće.

Ne zaboravimo, ipak, da Bemanova prvobitna namera nije bila da se bavi odgovaranjem na pitanja o autorskim pravima i čitalačkom ukusu veštačke inteligencije. On je samo želeo da zna može li četbot da mu odgovori na pitanje o konkretnom romanu. Naučnik objašnjava da mu je u međuvremenu postalo jasno da se u trenutku kada mu je GPT-4 dao odgovor o „Gordosti i predrasudama“ pomalo zaneo. Na trenutak je pomislio da pred sobom ima potencijalnog književnog analitičara. Kaže i da sada shvata da se botovi zapravo ponašaju kao studenti kojima je zadato da do sutra napišu deset strana dug esej o „Džejn Ejr“. Najveći deo tih eseja obično čine dugi citati iz knjige. I studenti i botovi samo gomilaju reči, bez želje da pruže bilo kakvu vrstu uvida.

Beman predlaže da digitalni humanisti koji koriste četbotove za sada ograniče svoju kulturnu analizu na manje poznata književna dela, koja se verovatno ne nalaze u setovima podataka za obuku. Pokušajte da otkrijete šta bot misli o „Knjizi Novog sunca“ Džina Vulfa, ili o romanu „Trava“ Šeri Teper. Tako ćemo iz onoga što botovi kažu saznati nešto više o tim knjigama, jer će im oni prići neopterećeni postojećim znanjem i predrasudama. Od koristi će biti i to što će botovi na taj način biti izloženi širim i raznovrsnijim setovima podataka. Jedino tako će dobiti priliku da kažu nešto novo i interesantno o knjigama koje čitamo – a i o svemu drugom.

Autor: Adam Rodžers
Izvor: businessinsider.com
Prevod: Jelena Tanasković

Podelite na društvenim mrežama: