nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Látni-e a fától az erdőt
Forradalom a gépi fordításban?

A Google szakemberei úgy gondolják, hogy minden nyelv hasonló – erre alapozva vadonatúj módszert alkalmaznak a gépi fordításban. De vajon mennyire megbízhatóak a módszer elméleti alapjai, és milyen nyelvek közötti fordításban jelenthetnek valódi előrelépést?

Fejes László | 2013. október 17.
|  

A hetvenes években, amikor az első automatikus fordítók fejlesztése megindult, a szakemberek szabályalapú fordítókban gondolkodtak. Úgy vélték, az egyik nyelv mondataiból szabályok alapján elő lehet állítani a másik nyelv mondatait. Ennek a stratégiának többféle változata létezett: volt, amikor közvetlenül próbálták előállítani az egyik nyelvből a másik mondatait, volt olyan is, amikor a forrásnyelvi mondatokat először valamilyen absztrakt, nem létező „nyelvre” (a jelentés formális reprezentációjára) alakították át, és ezt alakították át célnyelvi mondattá. Ezek a próbálkozások azonban kudarccal zárultak, igazán hatékony fordítót ilyen módszerekkel nem sikerült előállítani.

Bár a statisztikai alapú fordítás ötlete már a negyvenes évek végén felmerült, a számítástechnika csak a kilencvenes évekre jutott el arra a fejlettségi szintre, hogy a módszert a gyakorlatban is alkalmazni kezdjék. Az ötlet viszonylag egyszerű: veszünk egy halom szöveget, amelyet már lefordítottak a forrásnyelvről a célnyelvre (vagy azonos forrásból mindkettőre), és statisztikailag elemezzük, hogy a szavak miként felelnek meg egymásnak: várható például, hogy ahol a magyar szövegben megtaláljuk a tehén szót, az angol szövegben feltűnően gyakran fog felbukkanni a cow – valószínű tehát, hogy ha olyan mondatot kell angolra fordítanunk, amelyben a tehén szerepel, akkor az a legjobb, ha ezt cowként fordítjuk. (Természetesen még nagyobb hatékonyságot érünk el, ha a szónál kisebb és nagyobb egységeket is figyelembe veszünk.) Ma ezen az elven működik a netes fordítók többsége.

A legutóbbi időkig úgy tűnt, hogy a jövő útja a két módszer kombinálása. A Google szakemberei azonban egy egészen más módszerrel kísérleteznek – adta hírül az MIT Technology Review.

A kiinduló probléma az volt, hogy a fent leírt statisztikai módszer csak akkor használható, ha már léteznek a két nyelven párhuzamos szövegek. Ezek előállításához azonban emberi fordítókra van szükség, akik viszont szótárakkal dolgoznak, amiket megint csak emberek állítanak elő – tehát már az ilyen fordító fejlesztésének megkezdéséhez is rengeteg munkára van szükség. Hogyan lehet ezt megspórolni?

A Tomas Mikolov által vezetett csoport abból az elképzelésből indult ki, hogy minden nyelvnek ugyanazokat a fogalmakat kell kifejeznie, így hasonló jelentésű szavaknak kell meglenni mindegyikben: például minden nyelvben van szó a közismert állatokra, mint a macska, a kutya a tehén stb. Az is feltételezhető, hogy ezeket hasonlóan használják az olyan mondatokban, mint „a macska egy állat, mely kisebb a kutyánál”. Ezeket a viszonyokat matematikailag le lehet képezni (a módszert forrásunk nem részletezi) egy úgynevezett nyelvi térbe: mindegyik szó olyan vektorok halmaza, mely más, velük kapcsolatban álló szavakra mutat. Ezek gyakran matematikailag könnyen kezelhetők: például a king ’király’ nőnemű megfelelője a queen ’királynő’. A különböző nyelvekben a szavak közötti viszonyok hasonlóak, így két nyelv szótárának elkészítése nem más, mint a két nyelvi tér pontjainak egymással való megfeleltetése.

Bár e kísérletek még kezdeti stádiumban vannak, a kutatók meglepően hatékonynak találták módszerüket: az angol és a spanyol közötti megfeleléseket 90%-os hatékonysággal találta el. Sikeresnek tűnik a módszer olyan egymástól távol álló nyelvek esetében is, mint az angol és a vietnami. A módszer nem csak új szótárak kialakítására, de meglevők bővítésére és hibáinak felderítésére használható. Egy csoport éppen egy cseh–angol szótár tökéletesítésén dolgozik, és már számos hibát feltártak.

A módszer azért tűnik furcsának, mert nyelvészeti közhely, hogy a nyelvek különbözőképpen képezik le a valóságot. Míg a magyarban a fa szó egyaránt jelöli az élő fát és az anyagot, addig az angolban az előbbire a tree, az utóbbira a wood szót használják – viszont, csak hogy bonyolultabb legyen a kép, az utóbbi ’erdő’ jelentésben is használatos.

Fából fa
Fából fa
(Forrás: Wikimedia Commons / TwoWings)

Egy másik közhely, hogy a jelentések nem képezhetőek le olyan egyszerű elemekre, mint a férfi/nő – a szemantikának (jelentéstannak) ugyan volt egy olyan korszaka, amikor a jelentést úgynevezett szemantikai jegyekkel kívánták leírni, de a kutatások arra jutottak, hogy ezek legfeljebb bizonyos jelentésmezők (pl. rokonsági terminusok) esetében működik jól, a teljes szókincs leírására nem alkalmasak.

Az elméleti alapok nem számolnak azzal sem, hogy az egyes kultúrák között nagy eltérések lehetnek – akár az ismert állatok és növények tekintetében is. Könnyen elképzelhető, hogy a magyar tehén vagy az angol cow szót a tibeti ’jak’ jelentésű szóval azonosítja. (Abszurd módon bizonyos esetekben még adekvát fordítás is lehet– szótárakba azonban aligha lenne célszerű ezeket egymás megfelelőiként felvenni.)

Bár a módszerhez nem szükségesek párhuzamos szövegek, az alapvető fontosságú, hogy a nyelvek „feltérképezéséhez” hasonló típusú és témájú szövegek álljanak rendelkezésre. Hiába vannak az egyik nyelven mezőgazdasági szakszövegeink, a másikon romantikus regények, ezek alapján aligha sikerül hasonló nyelvi teret leképezni. És hiába van nagy mennyiségű változatos szövegünk, ha nincs mindkét nyelven szakácskönyvünk, nem fogunk vele tudni szakácskönyvet fordítani. Valójában tehát ha nincsenek is párhuzamos szövegeink, akkor lesz hatékony a módszerünk, ha a meglevő szövegek mindkét nyelven hasonlóak, és hasonlítanak azokra a szövegekre is, amelyeket fordítani akarunk.

Szakácskönyvek franciául és angolul
Szakácskönyvek franciául és angolul
(Forrás: Wikimedia Commons / Gary Soup / CC BY 2.0)

A párhuzamos szövegek hiánya leginkább azokra a nyelvekre jellemző, amelyeknél eleve hiányoznak – vagy csak szűkösen állnak rendelkezésre – a (digitalizált) szövegek. Bizonyos nyelvpárok esetében talán segíthet a módszer, de a sok szöveggel – és ezzel szinte kényszerűen párhuzamos szövegekkel – rendelkező nyelveknél aligha jelenthet jelentős előrelépést, míg a az eleve kevés szöveggel rendelkező nyelvek esetében ez a módszer sem segíthet.

Fenntartásaink ellenére természetesen elképzelhetőnek tartjuk, hogy a módszer előrelépést jelenthet – ha nem is önállóan alkalmazva, de a korábbi módszerekkel kombinálva. Nem kételkedünk abban, hogy az általunk említett nehézségekkel a szakemberek is tisztában vannak: bizonyára lenne valamilyen válaszunk felvetéseinkre. Az is elképzelhető, hogy a nyelvészeti szakirodalom eddig inkább a különböző nyelvek szókincsének különbségeit hangsúlyozta, és kevésbé figyelt a hasonlóságokra – ezek pedig valóban olyan mértékűek, hogy a módszer működik. Várjuk a fejleményeket.

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
4 Fejes László (nyest.hu) 2013. október 18. 09:28

@misibá: Természetesen foglalkoztak, foglalkoznak.

www.nyest.hu/hirek/egy-gombnyomas-magyar-felirat-angol-videokhoz

www.nyest.hu/hirek/mszny-2010-masodik-nap-delelott

www.nyest.hu/hirek/mobol-lesz-a-robbot-mav-penztaros

www.nyest.hu/hirek/a-magyar-nyelv-helyzete-a-digitalis-korban

www.nyest.hu/hirek/beszedfelismereses-ugyfelszolgalat-mar-itthon-is

www.nyest.hu/hirek/a-magyar-nyelv-es-beszedtechnologia-fejlodese

www.nyest.hu/hirek/gepekkel-emberi-nyelven-a-vilag-elvonalaban-a-mag

www.nyest.hu/hirek/nem-a-falnak-beszel

„Itt "csak" a magyar nyelv tulajdonságai jelentik a problémát - lásd a "kedves 'megegészségeskedéseitekért' " szó képzését ...” Ez jelenti a legkisebb problémát, hiszen nagyon jó magyar morfológiai elemzők vannak.

Nagyobb probléma, hogy a magyar helyesírás és kiejtés között nem olyan szoros a viszony, mint azt hangsúlyozni szokták. De ezen lehet segíteni.

www.nyest.hu/hirek/hogyan-ejtjuk-magyarul

3 misibá 2013. október 18. 08:06

Én is várom a fejleményeket, bár engem a gépi fordítás annyira nem izgat. Egy darabig szükség lesz még a legjobb fordítógépre - az emberi agyra.

Inkább az érdekel(ne), hogy foglalkoznak-e magyar nyelvészek azzal, hogy megalkossák a magyar diktáló szoftvert, amellyel pl. Wordbe magyarul bele lehetne diktálni a fordítást. Ilyen szoftver létezik angol, francia, német verzióban - amennyire én tudom. Itt "csak" a magyar nyelv tulajdonságai jelentik a problémát - lásd a "kedves 'megegészségeskedéseitekért' " szó képzését ...

Galván Tivadar juttatta eszembe: Létezik olyan magyar kiadvány, amely a hungarizmusok (az anglicizmusok, germanizmusok mintájára) össze vannak gyűjtve német/angol, stb. megfelelőivel együtt? Mert akkor a gép is tudná, hogy a fakó is kutyát jelent ebben a környezetben, nem pedig egy kifakult színt.

2 Galván Tivadar 2013. október 17. 23:54

Na, majd ha kész lesz a szuperfordító, az első mondat, amellyel megkínálom, az lesz, hogy "eb ura fakó".

1 Pesta 2013. október 17. 20:55

A Star Trekből ismert egyetemes fordítót aligha fogják létrehozni.

> A módszer azért tűnik furcsának, mert nyelvészeti közhely, hogy a nyelvek különbözőképpen képezik le a valóságot.

Sőt, a klasszikus hiba pedig az (amit a gépi fordítás sosem lesz képes áthidalni), amikor más valóságokat kevernek össze a fordítók. Az eredmény, hogy a szöveg nyelvtanilag helyes lesz, csak a valósághoz nem lesz semmi köze.

Információ
X