-
szigetva: @Sándorné Szatmári: Kérlek, fejezd be a hülyeséget. Egyszer-kétszer talán vicces, de most ...2024. 11. 13, 12:05 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @Sándorné Szatmári: 12 kiegészítés: -A mai angolban a "kulcs" szó időben csak oda helyezhe...2024. 11. 13, 11:33 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: "..„ké” milyen meggondolásból jelentene 'eszközt', abba bele se merek gondolni....2024. 11. 13, 10:55 Szótekerészeti agybukfenc
-
szigetva: @Sándorné Szatmári: Metaforák helyett akkor mondd azt, hogy nt > nn. (Egyébként ezt se ...2024. 11. 13, 10:42 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: 9 Gondolom félre értettél..: "....Csakhogy akkor a „keményebbé vált” volna" írt...2024. 11. 13, 10:06 Szótekerészeti agybukfenc
Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.
- Elhunyt Kálmán László, a Nyelvész, aki megmondja
- Így műveld a nyelvedet
- Utoljára a bicigliről
- Start nyelvstratégia!
- Változás és „igénytelenség”
Kálmán László korábbi cikkeit itt találja.
Ha legutóbb kimaradt, most itt az új lehetőség!
Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!
Finnugor nyelvrokonság: hazugság
A határozott névelő, ami azt jelenti, hogy ‘te’
Az oroszok már a fejünkön vannak!
A Google szakemberei úgy gondolják, hogy minden nyelv hasonló – erre alapozva vadonatúj módszert alkalmaznak a gépi fordításban. De vajon mennyire megbízhatóak a módszer elméleti alapjai, és milyen nyelvek közötti fordításban jelenthetnek valódi előrelépést?
A hetvenes években, amikor az első automatikus fordítók fejlesztése megindult, a szakemberek szabályalapú fordítókban gondolkodtak. Úgy vélték, az egyik nyelv mondataiból szabályok alapján elő lehet állítani a másik nyelv mondatait. Ennek a stratégiának többféle változata létezett: volt, amikor közvetlenül próbálták előállítani az egyik nyelvből a másik mondatait, volt olyan is, amikor a forrásnyelvi mondatokat először valamilyen absztrakt, nem létező „nyelvre” (a jelentés formális reprezentációjára) alakították át, és ezt alakították át célnyelvi mondattá. Ezek a próbálkozások azonban kudarccal zárultak, igazán hatékony fordítót ilyen módszerekkel nem sikerült előállítani.
Bár a statisztikai alapú fordítás ötlete már a negyvenes évek végén felmerült, a számítástechnika csak a kilencvenes évekre jutott el arra a fejlettségi szintre, hogy a módszert a gyakorlatban is alkalmazni kezdjék. Az ötlet viszonylag egyszerű: veszünk egy halom szöveget, amelyet már lefordítottak a forrásnyelvről a célnyelvre (vagy azonos forrásból mindkettőre), és statisztikailag elemezzük, hogy a szavak miként felelnek meg egymásnak: várható például, hogy ahol a magyar szövegben megtaláljuk a tehén szót, az angol szövegben feltűnően gyakran fog felbukkanni a cow – valószínű tehát, hogy ha olyan mondatot kell angolra fordítanunk, amelyben a tehén szerepel, akkor az a legjobb, ha ezt cowként fordítjuk. (Természetesen még nagyobb hatékonyságot érünk el, ha a szónál kisebb és nagyobb egységeket is figyelembe veszünk.) Ma ezen az elven működik a netes fordítók többsége.
A legutóbbi időkig úgy tűnt, hogy a jövő útja a két módszer kombinálása. A Google szakemberei azonban egy egészen más módszerrel kísérleteznek – adta hírül az MIT Technology Review.
Az oldal az ajánló után folytatódik...
A kiinduló probléma az volt, hogy a fent leírt statisztikai módszer csak akkor használható, ha már léteznek a két nyelven párhuzamos szövegek. Ezek előállításához azonban emberi fordítókra van szükség, akik viszont szótárakkal dolgoznak, amiket megint csak emberek állítanak elő – tehát már az ilyen fordító fejlesztésének megkezdéséhez is rengeteg munkára van szükség. Hogyan lehet ezt megspórolni?
A Tomas Mikolov által vezetett csoport abból az elképzelésből indult ki, hogy minden nyelvnek ugyanazokat a fogalmakat kell kifejeznie, így hasonló jelentésű szavaknak kell meglenni mindegyikben: például minden nyelvben van szó a közismert állatokra, mint a macska, a kutya a tehén stb. Az is feltételezhető, hogy ezeket hasonlóan használják az olyan mondatokban, mint „a macska egy állat, mely kisebb a kutyánál”. Ezeket a viszonyokat matematikailag le lehet képezni (a módszert forrásunk nem részletezi) egy úgynevezett nyelvi térbe: mindegyik szó olyan vektorok halmaza, mely más, velük kapcsolatban álló szavakra mutat. Ezek gyakran matematikailag könnyen kezelhetők: például a king ’király’ nőnemű megfelelője a queen ’királynő’. A különböző nyelvekben a szavak közötti viszonyok hasonlóak, így két nyelv szótárának elkészítése nem más, mint a két nyelvi tér pontjainak egymással való megfeleltetése.
Bár e kísérletek még kezdeti stádiumban vannak, a kutatók meglepően hatékonynak találták módszerüket: az angol és a spanyol közötti megfeleléseket 90%-os hatékonysággal találta el. Sikeresnek tűnik a módszer olyan egymástól távol álló nyelvek esetében is, mint az angol és a vietnami. A módszer nem csak új szótárak kialakítására, de meglevők bővítésére és hibáinak felderítésére használható. Egy csoport éppen egy cseh–angol szótár tökéletesítésén dolgozik, és már számos hibát feltártak.
A módszer azért tűnik furcsának, mert nyelvészeti közhely, hogy a nyelvek különbözőképpen képezik le a valóságot. Míg a magyarban a fa szó egyaránt jelöli az élő fát és az anyagot, addig az angolban az előbbire a tree, az utóbbira a wood szót használják – viszont, csak hogy bonyolultabb legyen a kép, az utóbbi ’erdő’ jelentésben is használatos.
Egy másik közhely, hogy a jelentések nem képezhetőek le olyan egyszerű elemekre, mint a férfi/nő – a szemantikának (jelentéstannak) ugyan volt egy olyan korszaka, amikor a jelentést úgynevezett szemantikai jegyekkel kívánták leírni, de a kutatások arra jutottak, hogy ezek legfeljebb bizonyos jelentésmezők (pl. rokonsági terminusok) esetében működik jól, a teljes szókincs leírására nem alkalmasak.
Az elméleti alapok nem számolnak azzal sem, hogy az egyes kultúrák között nagy eltérések lehetnek – akár az ismert állatok és növények tekintetében is. Könnyen elképzelhető, hogy a magyar tehén vagy az angol cow szót a tibeti ’jak’ jelentésű szóval azonosítja. (Abszurd módon bizonyos esetekben még adekvát fordítás is lehet– szótárakba azonban aligha lenne célszerű ezeket egymás megfelelőiként felvenni.)
Bár a módszerhez nem szükségesek párhuzamos szövegek, az alapvető fontosságú, hogy a nyelvek „feltérképezéséhez” hasonló típusú és témájú szövegek álljanak rendelkezésre. Hiába vannak az egyik nyelven mezőgazdasági szakszövegeink, a másikon romantikus regények, ezek alapján aligha sikerül hasonló nyelvi teret leképezni. És hiába van nagy mennyiségű változatos szövegünk, ha nincs mindkét nyelven szakácskönyvünk, nem fogunk vele tudni szakácskönyvet fordítani. Valójában tehát ha nincsenek is párhuzamos szövegeink, akkor lesz hatékony a módszerünk, ha a meglevő szövegek mindkét nyelven hasonlóak, és hasonlítanak azokra a szövegekre is, amelyeket fordítani akarunk.
A párhuzamos szövegek hiánya leginkább azokra a nyelvekre jellemző, amelyeknél eleve hiányoznak – vagy csak szűkösen állnak rendelkezésre – a (digitalizált) szövegek. Bizonyos nyelvpárok esetében talán segíthet a módszer, de a sok szöveggel – és ezzel szinte kényszerűen párhuzamos szövegekkel – rendelkező nyelveknél aligha jelenthet jelentős előrelépést, míg a az eleve kevés szöveggel rendelkező nyelvek esetében ez a módszer sem segíthet.
Fenntartásaink ellenére természetesen elképzelhetőnek tartjuk, hogy a módszer előrelépést jelenthet – ha nem is önállóan alkalmazva, de a korábbi módszerekkel kombinálva. Nem kételkedünk abban, hogy az általunk említett nehézségekkel a szakemberek is tisztában vannak: bizonyára lenne valamilyen válaszunk felvetéseinkre. Az is elképzelhető, hogy a nyelvészeti szakirodalom eddig inkább a különböző nyelvek szókincsének különbségeit hangsúlyozta, és kevésbé figyelt a hasonlóságokra – ezek pedig valóban olyan mértékűek, hogy a módszer működik. Várjuk a fejleményeket.