Ko ne veruje, neka čuje: Veštačka inteligencija i audio-knjige

Da li je posredi magija? Tokom proteklih deset godina prodaja audio-knjiga je, na krilima digitalizacije, eksplodirala. Prodaja je tokom 2020. premašila 1,3 milijardi dolara, što je povećanje od 12% u odnosu na 2019. Procenat Amerikanaca starijih od 18 godina koji su odslušali neku audio-knjigu sada je 45%, nakon 44% 2019. godine. Međutim, jedno se nije promenilo: naporan proces proizvodnje audio-knjiga.

Foto: Unsplash

Ali šta ako bi to bilo moguće uraditi za manje vremena, za nekoliko nedelja umesto nekoliko meseci? I šta ako bi to bilo moguće za manje novca, za nekoliko stotina umesto nekoliko hiljada dolara?

Predstavljamo automatizovanu proizvodnju audio-knjiga pomoću veštačke inteligencije.

Koji su mogući benefiti

Proizvodnja audio-knjiga je skupa, tako da je lako razumeti prednosti automatizovanog kreiranja audio-knjiga. Tradicionalan proces zahteva dva sata ili duže u studiju za jedan sat gotovog proizvoda, a prosečna audio-knjiga traje osam sati. Značajan faktor u ukupnim troškovima je narator: etablirani narator se plaća 1.000 dolara ili više po satu audio-knjige, a kada dodamo termine u studiju i postprodukciju, troškovi brzo postaju još veći.

Na drugom kraju spektra postavljanje audio-knjiga na neku od platformi (Amazon/Audible), koje se kreiraju po sistemu ACX (Audiobook Creation Exchange) plaća se na dva moguća načina: autorski udeo ili provizija. Kod autorskog udela autor (najčešće samizdat) pronalazi glumca-naratora koji je spreman da uloži svoje vreme i talenat u projekat, u zamenu za, recimo, 20% autorskog udela. Provizija je stvar dogovora.

Findaway, kompanija sa hibridnim modelom nalik na ACX, navodi da „prosečna audio-knjiga koju kreira Findaway Voices ima oko 50.000 reči i košta između 1.000 i 2.000 dolara“.

Zar ne bi bilo sjajno kada bi izdavači mogli da se otarase glumca i skrate duge cikluse proizvodnje, pritisnu dugme i dobiju instant audio-knjigu, spremnu za prodaju? Za manje izdavače i autore koji ne prodaju mnogo knjiga, nesumnjivo bi. Kako bi bilo da se audio-knjiga napravi za 500 dolara? Ili još jeftinije?

Mogući benefiti automatizovane proizvodnje audio-knjiga su mali troškovi i jednostavnost, gde je glavna pogodnost pojednostavljivanje i ogromno ubrzavanje proizvodnog procesa. Nekoliko novih startapa tvrde da mogu da naprave audio-knjigu za nekoliko dana, pa i sati, umesto za nekoliko meseci.

Tehnologija digitalnog glasa

Današnji fokus na automatizovanoj naraciji audio-knjiga pomoću veštačke inteligencije omogućila je ista tehnologija koja je Siri naučila da govori, a Amazonovu Aleksu da sluša. Siri, pa ti si skoro sama stvorila potrebu da korisnik sam bira sintetičke glasove.

„Dogodio se veliki pomak u tehnologiji konvertovanja teksta u govor, tako da je u poslednjih nekoliko godina sintetički glas postao više nalik ljudskom“, kaže Kejn Sims, osnivač VUX Worlda. „Samo poslušajte neke Aleksine glasove poznatih ličnosti, među kojima su Semjuel L. Džekson, Šekil O’Nil i Melisa Makarti“.

Iza digitalnog glasa je tekst – tekst konvertovan u govor. Siri je tako puna znanja zato što čita iz Vikipedije. Guglov asistent ima pristup milionima knjiga skeniranih i popisanih preko servisa Google Books.

Text to speech (TTS) tehnologijom konvertovanja teksta u govor stvara se veštački generisan audio-zapis koji zvuči skoro kao da govori čovek. Savršen način primene ove tehnologije do sada su bili glasovni botovi na telefonima i glasovni asistenti u kućama. Konačan cilj je bio da se njihovi glasovi ne razlikuju od ljudskih. I to ne samo jedan glas već, kao što vidimo (i čujemo) kod Siri i Guglovog asistenta, više glasova.

Sa takvim ciljem čini se da je logičan sledeći korak primena iste tehnologije za duže audio-zapise, poput audio-knjiga. Problem je u tome što glas koji zvuči prirodno dok izgovara vremensku prognozu ne zvuči baš toliko prirodno posle jednočasovne naracije. Ili možda zvuči?

„Napraviti sintetički glas koji može da održi čovekovu pažnju na duže vreme – to je priličan izazov“, kaže Sims. „Način na koji narator čita audio-knjigu, na primer, potpuno je drugačiji od načina na koji neko odgovara na jednostavno pitanje kao što je ’Koliko je sati?’ U knjizi vam može zatrebati glas koji čita vesti, uzbuđen glas, tužan glas, spor glas, brz glas, visok glas, a svi oni vam mogu zatrebati na istoj stranici teksta“.

Bredli Metrok, direktor Project Voicea i Digital Book Worlda, gleda na ovo iz drugog ugla. „Kod najboljih sintetičkih glasova koji su danas dostupni, 95% ljudi ne primećuje da su veštački“, kaže on. „Za 1 do 2 godine dostići će nivo ljudskog glasa“.

Koja vrsta knjiga je najbolja?

Opšte je mišljenje da ova tehnologija najbolje funkcioniše kod narativne nefikcije, koja ima ravnu intonaciju. Važno je da bude narativna, jer je kompleksnija nefikcija, koja ponekad obiluje ilustracijama, dijagramima i grafikonima, skoro nemoguća za laku obradu sa sadašnjom generacijom tehnologije. Ipak, dva startapa, DeepZen i Scribe, fokusiraju se upravo na fikciju.

Problem naratora

Glumci igraju centralnu ulogu u nastajanju audio-knjige; poznati glumci su prava premija. Mnogo veštine je potrebno za snimanje audio-knjige koja godi ušima. Nije to puko čitanje naglas, niti je samo gluma. Odlični naratori audio-knjiga su posebna kategorija.

Profesionalce u ovom poslu zastupa moćan sindikat SAG-AFTRA (Screen Actors Guild–American Federation of Television and Radio Artists, odnosno Američka federacija televizijskih i radijskih umetnika), koji sebe opisuje kao „najveći svetski sindikat izvođača i emitera“. Ova organizacija nudi sve sindikalne pogodnosti: obuku, garantovanu minimalnu tarifu za snimanje i zdravstveno i životno osiguranje. Veštačkim glasovima nisu potrebne ove beneficije.

Dve stvari brinu sindikat kada govorimo o veštačkoj inteligenciji. Pre svega, zamena živih glumaca kompjuterskim glasovima je loša za posao. Drugi razlog za zabrinutost je sve veća sposobnost veštačke inteligencije da klonira ljudske glasove, što predstavlja veliki rizik da vlasnik glasa neće dobiti adekvatnu nadoknadu ili možda neće ni biti plaćen.

Na pitanje kako bi veštačka inteligencija mogla da utiče na potražnju za glasovnim glumcima, predstavnik sindikata je odgovorio: „Naracija audio-knjige je ljudsko pričanje priče i skoro svim sjajnim profesionalcima koji pričaju ove priče je i te kako stalo do prenošenja priče sa čoveka na čoveka. Osim toga, žele da budu sigurni da će dobiti adekvatnu kompenzaciju i da će imati kontrolu nad upotrebom digitalizovanih glasova napravljenih na osnovu njihovog. Takođe žele da njihovi obožavatelji, potrošači budu svesni da kupuju veštačku izvedbu koju ne izvodi njihov omiljeni narator lično.“

Razni distributeri uglavnom se trude da uvere mušterije kako veoma poštuju ljudsku naraciju, dok istovremeno rade na tome da (živi) ljudi postanu nepotrebna, ili makar opciona, komponenta u stvaranju audio-knjige.

Foto: Pixabay

Može li Gugl pobediti u ovoj trci?

TTS visokog kvaliteta je sveti gral za Google, kao i za većinu drugih igrača na polju tehnologije, među kojima su Amazon, Apple, Facebook, IBM i Microsoft. Svi oni vide glasovni interfejs kao nešto neizostavno u svojim budućim softverskim platformama. Iako se prvenstveno misli na glasovne asistente, neminovno nastaju komplikovaniji glasovni izazovi, kao što su čitanje članaka na internetu, davanje glasa podkastima, a onda, isto tako neminovno, dolazi sadržaj dužine videa ili knjige.

Kompanije mogu zapravo i same da naprave svoje TTS platforme uz minimalno ulaganje ili potpuno besplatno koristeći neke od tehnologija iz postojećih. Nova kompanija koja se bavi veštačkom inteligencijom Speechki delimično je izgrađena na ovaj način, što zapravo ima najviše smisla – upotrebi najbolje od onoga što već postoji, poboljšaj za potrebe audio-zapisa dugog formata i onda se fokusiraj na pojedinačne potrebe izdavača i autora knjiga.

Gugl je već izbacio izobilje softvera vezanog za glas, TTS, transkripciju govora u tekst, a nedavno i Translatotron 2, softver za prevođenje govora u govor, u kome je kombinovano nekoliko audio-tehnologija: prepoznavanje govora, mašinski prevod i sinteza govora prevedenog teksta na stranom jeziku.

Prošle jeseni Gugl je sproveo eksperiment sa veštačkom inteligencijom koji je nazvan „Konvertovanje PDF-ova u audio-knjige pomoću mašinskog učenja“ (može se videti na Jutjub kanalu Google Cloud Tech) u kome je kompjuter razložio naučni članak sa kompleksno formatiranim stranicama, a onda pročitao članak koristeći DeepMind WaveNet, Guglov TTS softver.

Sims smatra da postoji mogućnost da Gugl postane jedan od igrača na tržištu audio-knjiga napravljenih pomoću veštačke inteligencije. „Prednost koju imaju Amazon i Google je ogromna količina resursa i mogućnost da prikupe veliku količinu podataka za treniranje veštačke inteligencije“, kaže on. „Međutim, Amazon i Google su u osnovi pružaoci usluga preko ’klauda’ (oblaka) i većina njihove tehnologije će postati deo onoga što nude na oblaku“.

„Imaju novac“, kaže Metrok. „Mogu da rade šta hoće. Amazon i Google će sigurno u budućnosti nešto raditi u ovoj oblasti“.

Problem zvani Audible

ACX je Audiblova platforma za samoizdavanje audio-knjiga, a u delu njihovog sajta gde su pravila vezana za priložene audio-zapise stoji sledeće upozorenje, predstavljeno u formi uputstva: „Priložena audio-knjiga mora imati ljudsku naraciju. TTS snimci nisu dozvoljeni. Slušaoci Audibla biraju audio-knjige zbog izvedbe materijala, kao i zbog same priče. Da biste zadovoljili ovo očekivanje, vašu audio-knjigu mora čitati ljudski narator“.

Pošto Audible kontroliše oko 50% tržišta audio-knjigama (u zavisnosti od vrste sadržaja), njihova trenutna politika vezana za naratore predstavlja veliki problem za kompanije koje žele da se probiju u ovoj oblasti.

Tajlan Kamis, direktor DeepZena, kaže: „Nije pitanje da li, već kada će Audible početi da prihvata ove naslove, jer tehnologija se razvija i postaje opšteprihvaćena“. DeepZen savetuje korisnike svojih usluga da „gledaju na duže staze“ i da imaju što je moguće više naslova spremnih za distribuciju kada Audible promeni politiku.

Drugi distributeri nemaju ista ograničenja kao Audible, tako da izdavači mogu da prodaju sadržaje napravljene pomoću sintetičkih glasova preko pedesetak distributera među kojima su Apple Books, Google Play, Kobo, OverDrive, Scribd, Spotify i Storytel.

Distributeri

U nastajućem polju automatizovane audio-konverzije, dva distributera izgleda prednjače nad ostalima: DeepZen i Speechki. Nekoliko drugih ih prati u stopu sa raznim varijantama glasovnih tehnologija i usluga.

Zanimljivo je da startapi posvećeni konvertovanju knjiga na engleskom u audio-knjige na engleskom obuhvataju distributere smeštene takoreći svuda osim u SAD: Boden u Švedskoj, Islamabad u Pakistanu, Kijev u Ukrajini, a nekoliko ih je u Rusiji, od kojih je jedan u Sibiru.

Pristupačnost

Sve u vezi sa audio-knjigama je od velike važnosti za problem pristupačnosti sa kojim se suočavaju čitaoci koji ne mogu da čitaju. Ovo se iz nepoznatih razloga često previđa u diskusijama o daljem razvoju automatizovanih audio-knjiga. Osnovna pogodnost koju dobijaju čitaoci sa disfunkcijom čitanja je očigledna: mogu da čuju tekst koji ne mogu da vide.

Veliki ekosistem pristupačnosti, u kome su organizacije poput DAISY i Benetech Bookshare, već promoviše digitalne knjige za ove čitaoce. DAISY obezbeđuje standarde i korisne alatke i resurse; Benetech obezbeđuje knjige u različitim pristupačnim formatima. U ponudi je više od milion naslova, ali ipak nedostaje mnogo miliona knjiga koje nikada nisu prebačene u digitalni format.

Startapi koje smo ovde prikazali mogli bi da naprave veliki pomak u povećavanju broja audio-knjiga profesionalnog kvaliteta koje bi bile dostupne osobama sa disfunkcijom čitanja.

Šta nas očekuje u budućnosti

Kreiranje audio-knjiga pomoću veštačke inteligencije je oblast koja mnogo obećava i koju izdavači ne bi smeli da ignorišu. Da li je ova tehnologija savršena? Naravno da nije. Može li da postane dovoljno dobra? Verovatno, ako je izdavač spreman da izdvoji dovoljno vremena za fazu projekta u kojoj se obrađuje glas. Jasno je da se ova tehnologija najbolje pokazala u publicistici, mada nekoliko distributera ima zanimljive ponude i u oblasti fikcije.

Audiblova zabrana distribucije audio-knjiga sa sintetičkim glasom je ozbiljan problem za čije rešavanje će možda proći još vremena. Ali Audible nije jedini.

Mnogi distributeri jasno stavljaju do znanja da im nije namera da zamene naraciju u najprodavanijim novim i relativno novim naslovima. Dobra prilika su stariji naslovi, gde bi investicija od 500 do 1.000 dolara u kreiranje audio-knjige imala finansijskog smisla.

U svakom slučaju, proizvodnja audio-knjiga ulazi u novu fazu, a u njenoj srži je upotreba veštačke inteligencije.

Ko ne veruje, neka čuje

Lako je opisivati ovu tehnologiju, ali pravi dokaz je u slušanju. Možete je isprobati na nekoliko načina:

DeepZen nudi jednu gotovu knjigu koju možete besplatno skinuti, a u njoj je glas Edvarda Hermana.

Takođe nude i niz kraćih odlomaka, uključujući i fikciju, na svom sajtu.

Speechki nudi malo manji izbor, koji možete proveriti ovde.

Guglovi TTS glasovi prikazuju čitav spektar kratkih klipova na više jezika.

Takođe možete posetiti sajt Balabolka i TextToSpeechRobot gde možete lično besplatno isprobati ovu tehnologiju.

Još bolje, isprobajte Majkrosoftovu funkciju Read Aloud (u okviru paketa Office 2019 i Microsoft 365), koja „čita ceo dokument... kao audio-knjigu“.

Autor: Ted Makilroj
Izvor: publishersweekly.com
Prevod: Borivoje Dožudić

Podelite na društvenim mrežama: