Alkalmazzunk személyi asszisztenst! (Kornai András)

Kornai AndrásVégy egy matematikus doktort az ELTE-ről, egy nyelvész doktort a Standfordról, alaposan gyúrd össze, és fűszerezd egy jó adag informatikai tudással! Máris megkaptad a nyelvtechnológiai kutatásokat végző matematikai nyelvészt, Kornai Andrást, aki jelenleg az általa vezetett nyelvtechnológiai kutatócsoporttal dolgozik az MTA SZTAKI-ban. Hosszú utat járunk be a beszélgetés során: Euklidesztől kezdve Chomskyn át az okostelefonokba bújó személyi asszisztensekig jutunk.


Matematika és nyelvészet: szabályok és statisztikák. A mai kutatásokban melyik a domináns?

Kezdjük az elején: a matematika nagyon korántól a számokról és az alakzatokról szólt, arról, hogy a számok között vannak bizonyos törvényszerűségek, gondoljunk csak Euklidészre és a prímszámokra. A nyelvészet kezdetei ugyanerre az időszakra nyúlnak vissza. Őket is azok a törvényszerű, ismétlődő dolgok érdekelték, amelyek minden egyes megnyilatkozás mögött megvannak. Ezeket kétféleképpen lehet vizsgálni: vagy azt írjuk le, hogy mik ezek a törvényszerűségek – ez a szabályalapú megközelítés –, vagy azt, hogy milyen gyakorisággal érvényesülnek – ez lenne a statisztikai megközelítés. A kettő nem zárja ki egymást, a mai módszerek általában a kettő keverékei.

Az idő során ez miként változott?

Nehéz kérdés, mert mindkettő nagyon korán jelen volt. Aki a matematikában Euklidész, az a nyelvészetben Panini, egy indiai nyelvész. Ő már kifejezetten figyelt arra, hogy az egyes szabályok gyakran vagy ritkán lépnek fel, csak az északiak, vagy a déliek nyelvjárásában is előfordul-e egy jelenség. Ő már kifejezetten megkülönböztette egymástól, hogy milyen paraméterek mentén változik egy szabály alkalmazási köre. A korszerű statisztikai elemzés a 19. század végén, 20. század elején kezdődött el, Markov nevét – aki nagy orossz matematikus volt – szokták emlegeti teljes joggal. A szimbolikus megközelítést ugyanekkor indították el Norvégiában. Volt egy időszak az ötvenes-hatvanas években, amikor a statisztika egy kicsikét háttérbe szorult, mert a szimbolikus megközelítés egy nagyon nagy képviselője, Chomsky lépett színre.

Chomsky eredményeit éppen ezért nehéz alkalmazni a gyakorlati kutatásokban?

A probléma az, hogy azokat a szabályrendszereket, amelyeket chomskyánus alapon felállít az ember, nagyon nehéz javítani, mérnöki szempontból ezek a rendszerek törékenyek. Ha figyelembe akarunk venni egy újabb adatot, akkor újra és újra javítani kell a rendszert. Ha ez már nagyon bonyolult, akkor ezt már nem tudjuk józan ésszel átlátni. Két-háromszáz szabálynál van az a határ, amennyi fölött ember ezt debuggolni – szép magyar szó – nem tudja, innentől már a dolog javíthatatlan. Ilyenkor be kell vetni a statisztikai módszereket.

Ehhez a „bevetéshez” mi szükséges?

Nagy adathalmazokat kell előállítani, ezeket a nyelvészek korpuszoknak nevezik. Egy ilyen korpusz, amit még a Műegyetemen csináltunk, a magyar webkorpusz. Ebben több mint egymilliárd szót gyűjtöttünk össze. Ez alapján meg tudjuk mondani, hogy melyik szó milyen gyakori. Majd szükség van morfológiai elemzésre – mely során a szóról különválasztjuk a tövet és a tőhöz tapadó ragokat –, ez nem egyszerű a magyarban. Erre különböző megoldások voltak, az elsőt Prószéky Gáborék csinálták  a MorphoLogicban HuMor néven. A mi szoftverünk, melynek kidolgozásában Németh László szegedi kollégánk volt a vezető, ettől annyiban tér el, hogy nyílt forráskódú, bárki bármikor hozzáférhet, javíthatja. Rendkívül népszerűvé vált, százmillió fölötti letöltésünk van, ami azért érdekes, mert magyarul beszélők legfeljebb 10- 15 millióan tölthették volna le. De ezt a szoftvert 117 nyelvre alkalmazták.

Nyelvtechnológiai eredményeiket egy „egzotikus” nevű robotban is kamatoztathatták. Mit kell tudni a robot őséről?

Az első ilyen programot SHRDLU néven Terry Winograd írta a hetvenes évek elején, aki akkor már a Stanfordon tanított. Ez a robot úgynevezett kockavilágban dolgozott: egy nagyon egyszerűen berendezett szobában, ahol gömbök, kockák, kúpok, hasábok és gúlák voltak. A robot egyrészt kérdésekre tudott válaszolni: van-e a szobában piros kocka? Vagy azt mondta, hogy nincs, vagy megadta a koordinátáit. Másrészt utasításokat tudott végrehajtani: piros gömböt a sárga kockára tett.

Miben fejlettebb a SHRDLU 2.0?

Talán nem az a legnagyobb különbség, hogy magyar, hanem, hogy a mi robotunknak határozott véleménye van arról, hogy mi hol van a helyén. Van egy elképzelése arról, hogy mikor szép egy szoba elrendezése, ez attól függ, hogy milyen esztétikával futtatjuk. Ha olyan utasítást kap, ami ettől a szépségtől eltérő irányba vitte volna a szoba állapotát, akkor tiltakozik. Javaslatokat tesz, szándékai vannak. A másik fontos különbség, hogy beépített fizikája van: tehát tudja, hogy egy gömböt nem lehet kiegyensúlyozni egy kúp csúcsán – azt válaszolja, hogy le fog esni, és tesz egy javaslatot.

És miben más ez, mint a Watson, az IBM szuperszámítógépe, ami (vagy aki) egy amerikai vetélkedőben a nagyon furmányos kérdésekre válaszolva legyőzte a bajnok játékosokat?

Ehhez mondok egy másik fejlesztést, az elvira-demót: itt olyanokat lehet kérdezni a számítógéptől, hogy mikor megy vonat Szegedről Pécsre holnap délután. Ennek a robotnak igazából nincsen adatbázisa, de azt tudja, hogy van Magyarországon egy közismert weblap, a elvira.hu , amelyik ezt meg tudja válaszolni, ezért a kérdést átfordítja az elvirának feltehető kérdésként, és visszaadja a weblapot az érdeklődőnek.  Rengeteg ehhez hasonló alkalmazás van: például hol van a legközelebbi indiai étterem. Az okostelefonban van gps, van adatbázisa, vagy hálózaton keresztül rákérdez, és az eredményt ki tudja rajzolni. Minél több ilyen funkciót rakunk össze, annál jobban használható személyi asszisztense lesz az embernek. A Watson még ezeknél is erősebb egy fokkal, mert képes rejtvényfejtésre is. Neki a Jeopardy! nevű játékban ravaszul megfogalmazott kérdésekre kell válaszolnia, amit úgy tud megtenni, hogy ügyesen kombinál és hatalmas adathalmazon ül. Ezek mögött nem egy zseniális mérnök van, hanem hatalmas teamek vannak, amelyek részproblémákon dolgoznak.

A fent említett alkalmazások jelentik a szemantikus web kezdetét?

Lényegében igen, hiszen a szemantikus web, vagy más néven web3.0 arról szól, hogy a gép már érthető formában adja tovább az információt. Amikor leírunk egy szöveget és kitesszük a webre, akkor ez ilyen formán csak az emberek számára érthető. Amíg nem végzünk valamilyen szövegelemzést, addig a gépnek fogalma sincs arról, hogy ez miről szól. Az olyan programokat szeretjük, amelyek automatikusan meg tudják mondani, hogy a szöveg miről szól, mert akkor a megfelelő adatbázishoz fordulva tudnak további információkat kérni.

Lehet úgy gondolni a webre, mint egy nagyon gazdag érzékszervre, aminek nagyon sok érzékelőpontja van, annyi, ahány helyen mi gépelni tudunk, vagy ahány mikrofon van rajta. Ez az ő szenzorikus berendezése, melyen keresztül rengeteg adatot kap minden másodpercben. Ahhoz, hogy ezt értelmesen fel tudja dolgozni, elsősorban az kell, hogy ezek az adatok kategorizálva legyenek. Egyszerűen hangzik, de a gyakorlatban nem az: a Yahoo a kezdetekkor nagyjából 300 szerkesztőt alkalmazott, akik egész nap nézték a weblapokat, és megpróbálták őket tartalmilag osztályozni. A Google azért győzött a Yahoo-val szemben, mert robotikusan oldotta meg ezt a kérdést, statisztikai alapon, emberi beavatkozás nélkül működik.

/Forrás: Mécs Anna, Élet és Tudomány/