Veštačka inteligencija sve je bliža dešifrovanju izgubljenih jezika

Od otkrića pisma pre nekoliko hiljada godina, ljudi su smislili bezbroj načina kako da fonetske zvukove govornog jezika pretvore u nešto vizuelno. Većina ovih pisanih jezika već je dešifrovana, od egipatskih hijeroglifa, do natpisa Maja i drevnog kineskog pisma.

U nekim slučajevima, lingvistima se posrećilo kada su dešifrovali kodove izgubljenih jezika, kao na primer kada je pronađen kamen iz Rozete. A s druge strane, da bi otkrili kodove, provodili su godine izučavajući neprimetne formule po kojima su slova složena u rečima, a reči u tekstovima.

Ali ljudi koji se bave epigrafikom, proučavanjem drevnih natpisa, još uvek muku muče sa nekoliko izgubljenih jezika. Na primer, spisi civilizacije Zapoteka i Olmeka još uvek su misterija, kao i drevni protoelamski spis iz Mesopotamije. Možda je najpoznatiji nedešifrovani jezik onaj iz spisa civilizacije Doline Inda, kojeg su bezbroj puta pokušali bezuspešno da dešifruju.

Frustrirani istoričari danas imaju na raspolaganju još jedan alat: veštačku inteligenciju. Novi napredak, kako u računanju tako i u lingvistici, omogućava algoritmu da započnu dekodiranje drevnih jezika. Najnoviji potez dolazi od tima istraživača iz MIT laboratorija za računarske nauke i veštačku inteligenciju, kao i Google Brain-a, projekta veštačke inteligencije. Osmislili su algoritam koji može da slaže reči sa nepoznatih jezika na srodne reči na jezicima koji imaju isti koren. Iako algoritam, objavljen na serveru za preprint koji se zove arKsiv, tek treba da se uhvati ukoštac sa dešifrovanjem zaista nedešifrovanog jezika, predstavlja veliki korak napred.

Čas jezika

Međutim, dešifrovanje drevnih jezika pomoću veštačke inteligencije ipak ima neke jedinstvene probleme. Algoritmi mašinskog učenja se obično obučavaju na velikim skupovima podataka koje izvlače, kako bi učili pomoću asocijacija. Većina drevnih skripti ima ograničen broj uzoraka, što otežava da algoritam dobije dovoljno podataka koje treba da nauči.

Proces obuke algoritma takođe uključuje poređenje njegovih odgovora sa poznatim vrednostima. Međutim, kada je jezik u potpunosti nedefinisan, to je nemoguće. Ne možete reći algoritmu „Da, to je bicikl“ ili „Ne, ta reč ne znači ’stani‘“, ako ne znate šta nešto od toga znači.

Dakle, istraživači su morali da osmisle druge metode učenja. Oni su namestili da algoritam koristi jezik koji deli koren sa nedešifrovanim tekstom, i spojili su ga da radi na način na koji su se jezici razvijali tokom vremena lingvističkih istraživanja. Ideja je bila da se pronađu reči na poznatom jeziku koje su slične po slovima i po kontekstu, i da se spoje sa rečima iz nepoznatog jezika.

Igra povezivanja

Dva jezika koja su koristili u svojim istraživanjima, linear B i ugaritik, nisu tehnički nedešifrovani, jer su oba uglavnom prevedena. Ali predstavljaju dobar alati za treniranje algoritma.

Iako algoritam možda neće uskoro dešifrovati protoelamske spise, ovo svakako prestavlja veliko dostignuće. Linear B korišćen je za pisanje u ranoj mikenskoj Grčkoj oko 1450. godine pre nove ere. Nema jezičke korene sa ugaritikom koji dolazi iz Mesopotamije i još je stariji. To znači da veštačka inteligencija treba da sastavi potpuno različite jezičke sisteme koristeći jedinstveni pristup. To je težak zadatak u lingvistici, gde većina skripti zahteva jedinstvenu taktiku za dešifrovanje. Pronalaženje jedinstvene metode koja se može generalizovati na više skripti učinilo bi posao mnogo bržim.

Možda se to neće desiti uskoro, ali će se jednog dana još nekoliko misterioznih drevnih jezika dešifrovati. Da li će to uraditi ljudske ruke ili računari, ostaje nam da vidimo.

Autor: Natanijel Šarping
Izvor: discovermagazine.com
Prevod: Lidija Janjić

Podelite na društvenim mrežama: