Van-e más út? Szeretnék vitatkozni
genezistan
, 2013. február 14. 11:08
Lenne egy ellenjavaslatom a meglévő kutatások irányait tekintve, illetve szívesen csatlakoznék olyan kutatókhoz, akik hozzám hasonlóan gondolkodnak a témáról. Mivel hosszú ideje magányosan foglalkozom a minőségi (gépi) fordítás megoldásainak keresésével, szeretném ütköztetni gondolataimat azokkal, akik e területen aktívak, de hajlandóak szélesebb horizonton gondolkodni. Eddigi elgondolásaim több tudományág közös metszetének, nevezetesen a nyelvészet, kognitív pszichológia és a számítástechnika ismeretköréből vett vagy átvett fogalmak integrálása révén fogalmazható meg, ezért nehezen találok csatlakozókat. A célom az lenne, hogy a számítógépes fordítás statisztikai és szabályalapú módszertanával szemben vagy amellett, az említett diszciplinák köréből kialakított alternatív elméleti kerettel és esetleg gyakorlati megoldási algoritmussal szolgáljunk.
Egy alternatív multidiszciplináris elmélet abból indul ki, hogy a meglévő, a gépi fordítást alátámasztó főleg a matematika, statisztikai és nyelvtani ismeretek, mint alapelméletek nem vezetnek pontos és hibátlan megoldásra. A jelenlegi eredmények azt tükrözik, hogy a korpuszokban felhalmozott szövegek felldolgozása során a szabályokból álló minőségi szűrők elégtelenek, azaz lehet, hogy az elméletből levezetett szabályok elégtelenek a természetes nyelvi feldolgozás (NLP) problémáinak megoldására.
Részleteket tekintve
1. A fordítást, mint tevékenységet az uralkodó NLP felfogásban nem érvényesül az a tapasztalat, hogy 1) a fordítás minőségének objektív megítélése megfelelő tudású emberek szubjektív egyetértésén alapszik 2) a fordítandó szöveg alapegysége nem a legkisebb jelentéssel bíró egység, a széma, lexéma vagy morféma, hanem a mondaton belül a lehető leghosszabb összefüggő szósorozat vagy szócsoport (cluster). Következésképpen a lefordítandó szöveget nem csak írásjelek közé szorítva, majd szavakra kell tagolni, hanem összefüggő szócsoportokra. Az összefüggést a szócsoport referenciális, a valóságra való hivatkozásában kell keresni, így az ilyen referendumok együttes kereshetősége problémás, hiszen szavak és szópárok, esetleg a szavak nem összetartozó elemekből álló csoportjai (címke felhők) jelentik most a kereshetőséget, szemben egy modulárisan tagolt, szemantikailag összefüggő, egészében értelmes szócsoporttal.
2. Mivel ilyen tagolást az általam ismert gépi fordítástechnológia nem végez, nem is tudnak pontos, hibátlan fordításokat készíteni és maga az eljárás, mivel nem a “készíts elsőre jót” elvet követi, igen költséges. Ugyanúgy, ahogy a keresés sem hatékony egy olyan környzeetben, ahol nagyméretű indexfájlokat kell készíteni és frissíteni. Ezért a jelenleginél gazdaságosabb és precízebb fordítási technológiát nem a korpusznyelvészetre és a szövegek statisztikai elemzésére, hanem a nyelv (szöveg) generálására kellene alapozni. Ha ezt az elvet követjük, akkor egy nyelvfüggetlen szemantikai modellel végzett ellenőrzés segítségével kell kiszűrni a nonsense, jelentésnélküli kombinációkat, ahogy annak idején ezt a helyesírás ellenőrző programok tették a szókincs értelmetlen betűkombinációinak leválogatásával. A korpuszok összefüggéstelen szövegeivel szemben egy ilyen szemantikai modell szerint létrehozott szóbokor szövegei egyfajta képalkotást szolgálnak, ahol a bővítmények segítségével addig folyik az összeillesztési munka, amíg a nyitott kérdések le nem zárulnak. A szavak kapcsolódási, bővítési lehetőségeit a rövidtávú emlékezet kaapcitása határozza meg, ezt kell a számítógépes memória egységes, nemcsak nyelvtani és lexikai tudástárának kiegészíteni a valóságról szóló domén ismeretekkel is, amelyek ma nincsenek a nyelvészet látókörében.
Tisztában vagyok azzal, hogy a jelenlegi kutatás-fejlesztési irányzatot az a piaci motíváció jellemzi, hogy az interneten és máshol elérhető nyelvi erőforrások alaktani feldolgozásából kiindulva tartalomelemzésnek nevezhető alkalmazásokat készítenek, amelyek célja üzleti információk, intelligencia (értesülések, “titkok”) kinyerése akár direkt formai kereső, akár AI reasoning módszerekkel. Amennyiben a számítógépes fordítás alkalmazási célja nem ez, hanem ezzel ellentétben az oktatás és az ismeret domének szintén legitim célnak tekintett integrálása és egyeztetése, akkor célszerűbb egy olyan tudás- és ismerettároló szerkezetet létrehozni, amelynek frissítése már kisebb költség, mint az egyre növekvő rendezetlen adattömegek folyamatos indexelése és keresése. Természetesen tudom, hogy minden pénz kérdése, és tisztában vagyok azzal, hogy a fegyverkezésre, másszóval biztonságra mindenhol több pénzt költenek, mint az oktatásra vagy másnéven a társadalmak és a természet közötti béke megteremtésének feltételeire. De egy blogot megér a gondolat.
Hol mutatkozik meg a hátránya annak, ha elfogadjuk, hogy a nyelv hat a gondolkodásra?
Hát éppen az NLP-ben, különösen az ontológiák és gépi elemzők, szótárak készítésénél, ahoy ez a MEO proektben is látszik
Hozzászólások (6):
6
genezistan
2013. szeptember 17. 14:07
Vedd vissza az Internet
Szeptember 17., 2013 : Bruce Schneier
Kormány és az ipar is elárulta az interneten , és mi.
Azáltal, hogy aláaknázza az interneten minden szinten , hogy ez a hatalmas , többrétegű és robusztus felügyeleti platform, az NSA aláásta az alapvető társadalmi szerződés . A vállalatok, kialakítása és irányítása az internetes infrastruktúra , a cégek, hogy létrehozni és eladni nekünk hardver és szoftver , illetve a cégek, hogy vendégül adatok : mi már nem bízom bennük , hogy etikus Internet stewardok .
Ez nem az interneten a világnak szüksége van, vagy az interneten az alkotók elképzelt . Meg kell , hogy vegye vissza .
És mi , mármint a mérnöki közösség.
Igen , ez elsősorban a politikai probléma , olyan politikai kérdés , amely megköveteli a politikai beavatkozást.
De ez is egy mérnöki problémát , és van néhány dolog, mérnökök - és kell - tenni .
Egy, meg kell tegye . Ha nem rendelkezik a biztonsági átvilágítását, és ha nem kapott a National Security Letter, akkor nem köti a szövetségi bizalmasan követelmények, illetve a gag sorrendben. Ha már a kapcsolatot az NSA aláásni egy termék vagy protokollt , meg kell, hogy terjesszen elő a történetet . A munkáltató kötelezettségei nem terjed illegális vagy etikátlan tevékenység . Ha a munka a minősített adatok és valóban bátor , ki , mit tud . Szükségünk bejelentők .
Meg kell tudni, hogy pontosan hogyan az NSA és más ügynökségek aláaknázza útválasztók, kapcsolók , az Internet gerincét , titkosítási technológiák és a felhő rendszerek . Már öt történeteket az emberek, mint te, és én már most kezdtem gyűjteni . Azt akarom, 50 . Van biztonság számok, és ebben a formában a polgári engedetlenség morális dolog.
Két , tudjuk tervezni . Meg kell, hogy kitaláljuk , hogyan lehet átstrukturálása az interneten , hogy megakadályozzák az ilyen nagykereskedelmi kémkedés . Szükségünk van új technikák, amelyek megakadályozzák kommunikációs közvetítők szivárgó személyes adatokat.
Tudjuk, hogy felügyelet költséges újra. Különösen szükség van nyílt protokollok , nyitott megvalósítás , nyitott rendszer - ezek lesznek nehezebb az NSA aláásni .
Az Internet Engineering Task Force , a csoport , amely meghatározza a szabványokat, hogy az internet fut , egy találkozót tervezett november elején Vancouverben. Ez a csoport kell szentelni a következő ülésen , hogy ezt a feladatot. Ez vészhelyzet , és követeli, hogy vészhelyzeti válaszadás.
Három , tudjuk befolyásolni kormányzás . Én mondom ezt ellenállt eddig , és én szomorúan mondom, de az Egyesült Államok bizonyult etikátlan steward az interneten. Az Egyesült Királyság nem jobb . Az NSA akciók jogszerűvé Internet visszaélések Kína, Oroszország , Irán és mások. Meg kell, hogy kitaláljuk, az új eszközöket internet szabályozásával is, hogy megnehezíti a hatékony tech országok ellenőrzésére mindent. Például , meg kell követelni az átláthatóság, felügyelet és elszámoltathatóságot a kormányok és a vállalatok.
Sajnos , ez lesz játék közvetlenül a kezébe totalitárius kormányok , amelyek szeretnék , hogy ellenőrizzék az ország Internet még szélsőségesebb formái felügyelet . Meg kell, hogy kitaláljuk , hogyan lehet megelőzni , hogy az is. El kell kerülnünk a hibákat a Nemzetközi Távközlési Unió , vált egy olyan fórum , hogy legitimizálja a rossz kormányzati magatartás , és hozzon létre valóban nemzetközi kormányzás nem lehet meghatározó , vagy visszaélnek bármely országban.
Generációk múlva, amikor az emberek tekint vissza a korai évtizedeiben az interneten, azt remélem, hogy nem fog csalódni bennünk. Tudjuk, hogy nem csak akkor, ha mindannyian teszi ezt a prioritást , és bevonja a vitában. Van egy erkölcsi kötelessége , hogy ezt, és nincs vesztegetni való idő.
Szétszerelése a rendőrállam nem lesz könnyű . Van olyan ország, amely részt tömeges ellenőrzésre saját polgárai önként adta fel , hogy a képesség ? Van olyan tömeges ellenőrzésre ország elkerülni egyre totalitárius ? Bármi is történik , mi lesz úttörő .
Ismét a politika ennek egy nagyobb feladat, mint a mérnöki, de a mérnöki kritikus. Meg kell követelni , hogy a valódi szakemberek részt venni semmilyen kulcsfontosságú kormányzati döntés ezekben a kérdésekben. Elég volt az ügyvédek és a politikusok nem teljesen értik a technológia , mi szükséges szakemberek az asztalnál , amikor építeni tech politikát.
A mérnökök, ezt mondom : mi épült az Internet , és néhányan közülünk segített aláásni azt. Nos, azok , akik szeretik szabadságot kell megjavítani.
Ez az írás eredetileg a The Guardian
www.theguardian.com/commentisfree/2013/sep/ ...
Annak szükségességét, hogy bejelentők :
www.schneier.com/essay-429.html
Annak szükségességét, hogy az átláthatóság , felügyelet és elszámoltathatóság :
www.schneier.com/essay-435.html
Snowden nyilatkozata az erkölcsi tettei :
wikileaks.org/ ...
Ezt mutatja például a nem értett egyet azzal, amit én írtam , de egyetértek vele.
continuations.com/post/60444129080/ ...
A cáfolat ezt az esszét :
americanscience.blogspot.com/2013/09/ ...
Utánnyomást engedélyével Crypto - Gram Newsletter szeptember 15, 2013
5
firkasz
2013. szeptember 17. 13:21
@mederi:
Valóban sokan próbálkoznak visszamenni a nyelv mutogatós fázisához, és ezért vannak inkább videó illusztrációk, képes szótárak. Két nyelv esetében, ahogy két különböző agyi hátterű ember esetében is - más a probléma. A probléma az, hogy mind az ige, mind a melléknév elvont fogalom, és a főnevek elvont konkrét osztályozása sem megfelelő. Ebből fakad az összes többi baj és félreértés. Mindez az érzékeléssel és a fogalmi rendszerünkkel függ össze, mivel teljesen összekeverjük ezt a két, elvont és konkrét szintet. A szintaktikai elemzés teljesen elfedi a szemantikai szintet, hiába vannak ott "szabályok", tudományos igazságok.
A megkenről nekem az angol graft jut eszembe, a korrumpálódott nyelvtudomány , ahogy JA-nak:(is engem sunyiságra oktat az erkölcs, és rólad is azt hiszem... J.A.) amely kiszolgálja megfigyelést, az eltitkolást, a félrevezetést, stb. Persze láttunk már ilyet matematikusoknál, fizikusoknál, mérnököknél, stb.
4
mederi
2013. szeptember 17. 09:27
@firkasz:
Tetszik a "megken" példa..:)
Magamban csak egyfajta "szituációs nyelvészet alapú" elgondolásnak nevezem azt a számomra szimpatikus megoldást, ami a korrekthez közeli megoldást jelenthatné fordító programok esetében.
A kínai írás (most nem jut eszembe, melyik fajta az újságírásuknak az a jelrendszere, amit bármelyik régiójukban megértenek saját anyanyelvükön) talán alapul szolgálhatna, bár nem tudom van-e köze "szituációkhoz" a (félig képi) jeleknek.
A modern technika lehetővé tenné azt, hogy pl. a "megken" esetében akár a jellemző mozdulatokat is bemutassuk és összevethessük két betáplált nyelv esetében, amit az összesből kiválasztottunk.
A "ken" általánosságát pl. az mutathatná, hogy több összetartozó képen különböző eszközökkel eltérő fajta kenések (kenyérre valamit (alatta pontosító képi példákkal), fára ui., falra ui., stb.) részletezve lennének megjeleníthetők, melyeknek "csomagját" akár sorszámmal, vagy a gép számára megjegyzendő karakterrel jelölhetnének. Ez a karakter "alkarakterekkel" a szituációt pontosíthatná miután a lefordítandó szöveg környezetét "kielemezte"..
3
firkasz
2013. szeptember 16. 16:21
Fatty bread és társai
A nyelvészek és a fordítóprogramok szerzői, belértve az online barkácsolókat nem tudnak elszakadni attól a dogmától, hogy a szó a nyelv legkisebb jelentéssel bíró része. Ezért a szótárak, a fordítások, glosszáriumok, lexikonok, stb. mind szócikkek köré szerveződnek és rendeződnek. Még az ontológiák is. Ez elképesztő butaság. (Hogy a szófajok dogmájáról ne is szóljak) Nemrégiben olvastam egy engem érdeklő cikket a mozgást jelentő igék “domain”-jéről. Már a domain-től is rosszul vagyok, attól meg, hogy a magyar cikk félig angolul van, már ki is akadok. De nézzük, mit lehet megtudni belőle. Egyszer azt, hogy itt úgy látszik mindenki robotokat akar programozni, ha már nyelvészkedik. Az pedig sok időt vesz igénybe, ahogy az ilyen szemléletű fordítóprogramok nagyon költségesek, és nagyon nem jók. Miért?
Az egyik tetszetős ige a megken:. Arról olvastam: “önkényesen egy skálát lehet definiálni, amely elsőeleme lehet, ha a célpontot teljesen elfedi az anyag (telekenni a kenyeret zsírral), második, ha az anyag teljes mennyisége felkerül a célpontra (rákenni a
zsírt a kenyérre), harmadik, amikor egy bizonyos konvenció, szükség szerint
megfelelő mennyiségben kerül anyag a célpontra (megkenni a kenyeret zsírral),
és negyedik, amikor nincs inherensen teljesség sem a célponton sem az
anyagból (kenni a kenyeret zsírral _ ez utóbbi azért veendő fel skálaelemnek,
hogy deklarálni lehessen azt, hogy minden anyagmozgáshoz tartozik egy skálaelem).
A nem tudományos életben az ember a zsíros kennyérrel ritkán találkozik úgy, hogy írásban kap arról utasítás, hogyan kell megkenni Videóban érdekes módon igen . De találkozhat úgy, hogy le kell fordítani egy mondatot, amelyben a zsíros kenyér (külön írjuk?) szerepel - angolra. Semmi baj, aki már tud egy kicsit angolul, az már fordítani is tud, ezért kipattan az agyából a megoldás: bread and butter. És ellenőrzi a GoogleTranslate-on: tényleg az. Ekkor bejön a szomszéd kutyája, aki szintén tud angolul, mert a nyelv hat a gondolkodásra, és mert beagle márkájú és megrázza a fejét. Annemjó ját? Az a vajas kenyér.: és lőn. “Próbáld meg mégegyszer” – jelzi a kutya a nyelvével. Erre beírja, hogy fatty bread, és mi jön ki: zsíros kenyér. Na ugye, mondja a kutya, és felemelt farokkal távozik.
Az, aki nem a fenti dogmákat vallja, az tudja, hogy a fordító nem szavakat fordít, hanem viszonyokat, amiben szemantikai és paragmatikai ismeretek szükségesek, a nyelvtaniak, a szintaktikaiak a legkevésbé. Angliában is kennek kenőcsöket a kenyérre, de inkább mártogatnak. Amit rákennek zsírként az spread, de persze nemcsak zsír, lehet más is. Amibe mártogatnak az dip. Mártogatni to dip, kenni to spread. Zsíros kenyeret kenni “to spread the bread. “People can just dip their breads in the spreads or simply spread them with a knife!” Ami azután “spread bread” – zsíroskenyér lesz, csak így parasztosan. A bread and butter viszont átlényegül és köszönőlevél lesz belőle, hogy mindenki okuljon egy kicsit, és nehogy megártson neki egy másfajta nyelvészet, amelynek első axiómája, hogy a szó a nyelv legkisebb önmagában értelmetlen egysége, ezért nem a legkisebb már önmagában értelmetlen elemű szintig bontjuk le, tagoljuk a szöveget, hanem a leghosszabb olyan szócsoportra, amely a legkisebb valóságos egységet (dolgot) jelöli, azaz azt az egyet a sok közül, amire koncentrálunk a jelenben, hogy azzal azonos értékűt, “egyenlőt” hozzunk létre a másik nyelven . www.word-detective.com/2008/07/bread-and-butter-letter/
Jegyzetek:
Gyarmathy Zsóka Szeredi Dániel 2006. november
vimeo.com/32049777
www.dummies.com/how-to/content/how-to-spread-bread-the-glutenfree-wa
2
genezistan
2013. augusztus 29. 10:58
@mederi:
Megtisztel az érdeklődése és sajnálatos, hogy az érintettek, akikről jóhiszeműen feltétezi, hogy tudják mit miért csinálnak, fél év eltelte után sem szólalnak meg. Ezért most egy kicsit konkrétan megbírálom őket, mondva, hogy dogmákhoz ragaszkodnak. Van ilyen a "tudományban".
1. Dogma. A mondatrészek szentsége. A szótárak szócikkeiben a szavakról általában azt sietnek közölni, hogy milyen mondatrészhez tartozik a szó. Azonos alaknál, mint az angolban ezkétértelműségek megszűntetésének elve miatt szükséges. Azonban a szófajok meghatározásánál kiderül, hogy átfedések vannak a szófajok között, amit az ismeretlen okú szóképzési gyakorlattal magyaráznak. magyaráznak.. Az elterjdt megoldás a szavak lemmatizálását, szótőre bontását látha megoldásnak. Ezért a gép fordítás folyamata is használja.
2. Az elvont szavak dogmája. Az elvont szó minősítés a főnevekkel kapcsolatban jelenik meg és az ellentéte a konkrét főnév. Ezzel a feloszátssal becsúszunk a konkrét és általános filozófiai kérdés területre, illetve mag az elvontság pszichológiai magyarázatot igényem, nem beszélve arról, hogy az általánosan elfogadott szemiotikai háromszög szerint a nevekkel rendelkező dolgok (tulajdonéppen tulajdonságok és viszonyok) létezéséről meg kell győzödni, ez része a fordítási munkafolyamatnak. Ennyi hülyeséget ezek az "okos" programok se írnának, ha ez része lenne a "tudásuknak". Igenám, de a szükséges kontextuális tudás már nincs a szótárakban, sem a mondatpárokban, ahogy ezt az IBM Watson sztori bizonyítja milliárdok elköltése után.
3. A szintaktikai elemzés dogmája. Ezt a lépés sokan egyben szemantikai elemzésnek is tekintik és ekkor üt be a krach. Mivel a MI területéről, a formális logikai elemzés oldaláról érkezteek az MT prakizálói, itt ők szemantikai elemzésen a kijenetések igazsgtartalmát értik, ami nonszensz. Amikor pedig a mondatelemzés gráf struktúráit gyártják le, hasonlóképpen egy alkalmatlan ösvényre lének. A csúcs az ontológiák kitalálása ezen a téren, amelyre a könyvtártudomány is ráharapott, és amelynek jelenlegi legjobb képviselőinek is van dogmája.
4. Az ontológiák dogmája. A nagy költséggel gyártott ointológiák is a szavakból indulnak ki, és számukra minden tartalmas szó lehet fogalom, amelyek un szemantikus hálókat alkotnak. De ennek a szemantikus hálónak rosszul definiáltak a legáltalánosabb kategóriái, ezért a szerkezet nem öndefináló és nem összeilleszthető külömnöző szakterületek tekintetében. Márpedik a gondolkodás az ismeretek függvénye ugyan, de nem nyelvfüggő, ahogy itt a nyesten állították egy cikkben korábban.
Ennyi egyszusra talán elég, nézzük, menyire elfogultak a nyelvészek ilyen eretnekséggel szemben.
1
mederi
2013. május 1. 15:40
Ez érdekes cikk. Az alább felvázolt megközelítését gondolom azok a szakemberek akik fejlesztik a gépi fordítókat, szintén számba vették, valami miatt mégsem ezt az utat választották..
"a jelenleginél gazdaságosabb és precízebb fordítási technológiát nem a korpusznyelvészetre és a szövegek statisztikai elemzésére, hanem a nyelv (szöveg) generálására kellene alapozni."
Igazán vitatkozni sajnos nem tudok a cikkel kapcsolatban, legfeljebb kiegészíteném a saját elgondolásommal.
Szerintem első lépéseknek a jelenlegi módszerek nagyon eredményesek, hiszen a nyelvfelismerés, és a nyers fordítás jól működik. A fentebb idézett elgondolása, mely korrekt szövegek generálására és használatára vonatkozik, egy következő, kiegészítő lépés lehetne. Ahogyan működik a nyelvfelismerés, hasonlóan működhetne a "nyersen lefordított mondat" ellenörzése a generált minta mondatokkal történő egybevetéssel. Ha pontosan megfelelő korrekt minta mondat nincs, akkor a legvalószínűbb megfeleltetést zárójelesen azért be lehetne illeszteni a lefordított szövegbe..
Az elképzelésem szerinti összevont megoldás nem tenné a fordító programokat és a hozzájuk kapcsolódó (generált minta mondatokkal bővített) adatbázisokat és azok gépi kezelését olcsóbbá, de biztosan közelebb kerülnének egy kielégítőbb megoldáshoz (amennyiben "fizetős" igény volna egy magasabb szintű, pontosabb fordítóra)..