Eksperiment pitanja i odgovora pokazao slabosti umjetne inteligencije u razumijevanju ljudskog govora

Zajedničkim radom ljudi i računala, ovaj eksperiment pronašao je 1.213 pitanja koja su zbunila računala, a na koje su ljudi odgovorili s relativnom lakoćom.

AUTOR: College of Computer, Mathematical and Natural Sciences/University of Maryland
OBJAVLJENO: 07.08.19 u 18:01
OSVJEŽENO: 07.08.19 u 18:01
http://bit.ly/2YNqSWf
Istraživači sa Sveučilišta u Marylandu formirali su 1.213 pitanja kojima su pokazali nedostatke modela strojnog učenja.

Krajnji cilj za umjetnu inteligenciju bio bi stroj koji istinski razumije ljudski jezik i tumači značenje iz složenih i nijansiranih ljudskih interakcija. Kada je IBM-ovo računalo 2011. godine pobijedilo slavnog prvaka američke kvizaške emisije Jeopardy!, činilo se da smo došli do te točke. Međutim, na primjerima Appleove Siri i drugih sličnih virtualnih pomoćnika, puno se bolje vidi koliko je umjetna inteligencija zapravo daleko od stvarnog razumijevanja ljudskog jezika.

Da bismo došli do spomenutog cilja, računalni sustavi moraju se obučavati kroz korištenje pitanja koja bi im bila daleko veći izazov i koja bi odražavala složenost ljudskog govora u cjelini.

Znanstvenici sa Sveučilišta u Marylandu otkrili su način na koji bi se to moglo postići, razrađujući skup podataka koji sadrži više od 1.200 pitanja koja zbunjuju najbolje računalne sustave umjetne inteligencije, a i dalje su vrlo jednostavna za ljude. Sustav koji bi uspio odgovoriti na ovakva pitanja daleko bi bolje razumio ljudsku komunikaciju od svih sustava koji trenutno postoje. Njihov rad objavljen je u časopisu Transactions of the Association for Computational Linguistics.

"Većina računalnih sustava namijenjenih za odgovaranje na pitanja ne objašnjava zašto odgovaraju na pitanja onako kako odgovaraju, no naš rad pomaže u pokazivanju toga što to točno računala razumiju", rekao je Jordan Boyd-Graber, izvanredni profesor informatičkih znanosti na UMD-u i glavni autor rada. "Pored toga, napravili smo skup podataka za testiranje računala koji će otkriti čita li i obrađuje li računalni jezični sustav podatke na način na koji to čine ljudi".

Većina trenutnih radova na poboljšanju računalnih sustava namijenjenih za odgovaranje na pitanja koristi ili ljudske autore pitanja ili računala koja generiraju pitanja. Međutim, u ovom pristupu postoje dva problema. Prvi problem je kod ljudskih autora u tomu što ljudi ne mogu točno znati koji elementi pitanja zbunjuju računalo. Drugi problem kod računala za generiranje pitanja je u tome što stvaraju pojednostavljena pitanja (nadopunjavanje odgovora i slično) i čine pogreške koje mogu dovesti do besmislenih pitanja.

Novi pristup, koji je koristio ovaj tim, temelji se na zajedničkom radu ljudi i računala prilikom stvaranja pitanja, stoji u izvješću objavljenom na službenoj stranici Fakulteta informatičkih, matematičkih i prirodnih znanosti Sveučilišta u Marylandu. Boyd-Graber i njegov tim razvili su računalno sučelje koje otkriva što računalo "misli" dok mu čovjek postavlja pitanja. Pisac tako može promijeniti svoje pitanje kako bi pronašao slabe točke računala koje odgovara. Čovjek, dakle, upisuje pitanje, a računalo odgovara dajući listu potencijalnih odgovora i riječi koje su navele računalo da da upravo te odgovore.

Primjerice, ako je autor napisao sljedeće pitanje "Kojem je skladatelju Karl Ferdinand Pohl bio inspiracija za stvaranje varijacija na temu Haydna?" i ako je računalo točno odgovorilo "Johannesu Brahmsu" – sučelje će naglasiti riječi "Karl Ferdinand Pohl" kako bi pokazalo da su ga te riječi navele na odgovor koje je dalo. Koristeći taj podatak, autor može promijeniti pitanje kako bi računalu otežao odgovaranje bez da promijeni značenje pitanja. Primjerice, ime "Karl Ferdinand Pohl", zamijenjeno je opisom njegova posla kao "arhivist u Zlatnoj dvorani Musikvereina u Beču", na koje računalo nije uspjelo odgovoriti. Međutim, kvizaši bez problema odgovaraju na isto pitanje.

Zajedničkim radom ljudi i računala, ovaj eksperiment pronašao je 1.213 pitanja koja su zbunila računala, a na koje su ljudi odgovorili s relativnom lakoćom. Ta pitanja testirana su na ljudima prilikom natjecanja iskusnih igrača – od srednjoškolskih kvizaških timova do najboljih igrača u emisiji Jeopardy! - i uspoređena su s odgovorima računala. Rezultati su pokazali da su čak i najslabiji ljudski timovi bili bolji od najjačeg računalnog sustava.

"Ljudi su već neko vrijeme svjesni da su računalni sustavi namijenjeni za odgovaranje na pitanja vrlo krhki i da ih se lako može prevariti", kaže Shi Feng, student na UMD-u i jedan od autora istraživanja. "Međutim, ovo je prvi rad koji se zapravo bavi tom tematikom".

Ovaj tim je potvrdio da će im pitanja poslužiti ne samo kao skup podataka koji će poboljšati razumijevanje struke o slabim točkama računalne obrade prirodne ljudske komunikacije, nego kao i baza podataka za obuku i poboljšavanje algoritama strojnog učenja. Ova pitanja, otkrila su šest vrsta jezičnih fenomena koji kontinuirano zbunjuju računala.

Ti fenomeni mogu se podijeliti u dvije kategorije. Prvu kategoriju čine lingvistički fenomeni: parafraziranje, zbunjujuće izražavanje i neočekivani konteksti. Druga kategorija odnosi se na umijeće rasuđivanja: aluzije koje zahtijevaju logičko razmišljanje i kalkulacije, mentalna triangulacija elemenata pitanja i naposljetku povezivanje više elemenata pitanja kako bi se došlo do zaključka.

"Ljudi su daleko bolji u generaliziranju i uviđanju dubljih veza između riječi i konteksta razgovora. Iako nemamo neograničeno pamćenje poput računala, naša prednost je u tome što možemo bolje rasuđivati kontekste. Pronalaženje problema koje imaju računala pomaže nam u boljem razumijevanju stvari koje moramo riješiti kako bismo uspjeli napraviti računala koja će moći odgovoriti na pitanja onako kako ljudi to čine", zaključio je Boyd-Graber.


Prevela: Ružica Ereš