nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Nyelv és beszéd
Gépekkel – emberi nyelven: a világ élvonalában a magyar tudomány

Néma kutatónak még az állam sem érti a szavát – talán ez lehetne a mottója a Nyelv- és Beszédtechnológiai Platformnak, ami december 8-án tartotta konferenciáját a Magyar Tudományos Akadémia székházában. A terület kutatói konkrét példákkal bizonyították, van mit meghallani: számtalan ígéretes fejlesztés alapozhatja meg a magyar kutatás jó hírét a világban.

nyest.hu | 2009. december 10.
|  

Az emberi nyelv mindig is a kommunikáció alapvető eszköze volt, ennek révén közölhetők gondolataink, élményeink, tudásunk. Az információt azonban ma már gépek segítségével közvetítjük. Egyértelmű tehát, hogy társadalmunk központi kihívása a nyelvi információ mind pontosabb, hatékonyabb feldolgozása, a gépi kommunikáció természetessé tétele. Ezeket a gondolatokat Váradi Tamás a Nyelv- és Beszédtechnológiai Platform elnöke és az MTA Nyelvtudományi Intézetének igazgatóhelyettese fogalmazta meg a Platform december 8-án rendezett konferenciáján.

Gépekkel – emberi nyelven: a világ élvonalában a magyar tudomány

„Gépekkel – emberi nyelven” – ez a mottója az első körben szűk kétéves időszakra alakult  Platformnak, ami a Nemzeti Kutatási és Technológiai Hivatal pályázata alapján, tíz másik technológiai platformmal egyetemben alakult. Az állam célja az volt ezzel a pályázati lehetőséggel, hogy segítse egy-egy gazdasági szektor önszerveződését, illetve meghatározza az adott terület „stratégiai fejlődési irányait, kitörési pontjait”.

„Mi megfogalmazzuk, mit tartunk fontos, támogatandó kutatási területeknek. Tisztában vagyunk azzal is, hogy mennyi pénz szükséges az egyes kutatási feladatokra. Az állami apparátusban nincsenek, nem kell, hogy legyenek szakértők, kutatók. Mi megfogalmazzuk a döntéshozók számára fontos információkat, a többi az állam dolga – mi pedig reménykedünk, hogy a pályázatok kiírása során figyelembe veszik az általunk kidolgozott szempontokat” – fogalmazta meg a Platform legelemibb célját Prószéky Gábor, az egyik alapító, a MorphoLogic ügyvezető igazgatója.

A Nyelv- és Beszédtechnológiai Platformot nyolc szervezet (egyetem, kutató- és technológiai cég) alapította meg, további nyolc cég pedig a megalakulás óta csatlakozott hozzá.  A Platform feladatai a kapcsolatépítés mellett egy stratégiai kutatási terv és egy megvalósítási tanulmány létrehozása, de a terület arculatépítése és a kutatási infrastruktúra bővítése is szerepel a kijelölt célok között.

A létrejött szervezet egy stratégiai szövetség, ami egyesíti a nyelv- és beszédtechnológia területén dolgozó valamennyi élvonalbeli műhelyt. Éppen ezért a szervezők várják a további potenciális tagokat, kutatás-fejlesztő és ipari partnereket, sőt a technológiákat felhasználó szervezeteket is.

Nyilvánvaló ugyanakkor, hogy a Platform szerepe több is lehet egy iparági lobbiszervezet funkcióinál: a gazdasági válságon kívül számos egyéb kihívás is éri a dinamikusan fejlődő terület szereplőit, a Google időnként talán fenyegetőnek tűnő terjeszkedésétől a nagyfelhasználók által (is) diktált platformegyesítési kihívásokig. Éppen ezért a szervezők igyekeznek a kétéves projekt keretein túl tervezni.

Gépi fordítás, intelligens keresés

A konferencián három előadás hangzott el. Prószéky Gábor rögtön egy magyar szempontból elszomorító Eurobarometer-vizsgálattal vezette fel mondandóját: idegennyelv-tudás szempontjából Magyarország sereghajtó az Unióban. Talán ez is indokolja, hogy miért vált olyan népszerűvé hazánkban a néhány éve éppen a MorphoLogic jóvoltából megjelent gépi fordítás.

A gépi fordítás önmagában sem teljesen egyértelmű terület: a piacon az elmúlt évtizedben a statisztikai fordítás vált a legelterjedtebbé. Ezek olyan rendszerek, amelyek nagymennyiségű kétnyelvű szöveget dolgoznak fel, „állítanak egymás mellé”, ezek alapján fordítanak. A szabályalapú rendszerek ezzel egyidőben háttérbe szorultak – ezekben a rendszerekben a háttérben algoritmusok elemzik a fordítandó szöveget, s ennek alapján állítják össze a fordítást.

A gépi fordítás jövőjét Prószéky szerint a hosszú távra tervezett és tervezhető kutatások jelentik, a fordításhoz tartozó szolgáltatások bővítésével (intelligens keresési megoldásokkal, szókészlet-bővítő eszközökkel), és fontos szerepet kap majd a különböző „platformok” bevonási lehetőségeinek kutatása is (például a beszédfeldolgozással való összekapcsolás, a mobil alkalmazások irányában történő terjeszkedés).

A Platform tervei a fordítástámogatásban az intelligens szótárak építése, a szótári tartalmak fejlesztése, a fordítómemóriák intelligensebbé tétele, a gépi fordítás magyar nyelvre történő további testreszabása. Az előadó felhívta a figyelmet arra, hogy mindez nem történhet kizárólag üzleti alapon, a terület célzott támogatására van szükség.

Áttörés a beszédtudományban

Mihajlik Péter a BME Távközlési és Médiainformatikai Tanszékének tudományos segédmunkatársa előadásában fontos bejelentést tett: a beszédtechnológia használható, az áttörés megtörtént. A beszédtechnológia területét általában  két fő ágra osztják: a gépi beszédfelismerés és a gépi beszédkeltés területeire. Az előadó szerint az elmúlt időszak áttörő jelentőségű eredményeket hozott mindkét területen. A beszédkutatás így ma már olyan részterületekkel tud foglalkozni, mint  például a beszélőfelismerés, az érzelemfelismerés, a beszédterápia, a beszédminősítés területei.

Mihajlik szerint noha a beszédfelismerési technológia messze nem tökéletes, használhatósága ma már nem kétséges. Az állítást olyan gyakorlati alkalmazások támasztják alá, mint a Híradókereső.

„Ki tudja kétszáz óra alatt hangzó híranyagban megtalálni a megadott ezer kulcsszó felét 24 óra alatt? Ki képes egy nagyváros összes lakosának nevét és lakcímét első hallásra tíz esetből minimum kilencszer hibátlanul leírni? – tette fel a kérdéseit az előadó. A beszédtechnológia ugyanis képes erre, méghozzá összehasonlíthatatlanul jobb áron, mint ha embereket alkalmaznánk a feladat megoldására.

Az előadó szerint a beszédtechnológia a közeljövőben számos fontos alkalmazással áll majd elő. Ilyenek például az „általános beszédinformációs tárak”, azaz olyan szolgáltatások, amelyek a rádió, a televízió és a mozi hangzó anyagaira épülnek. A vállalati szféra megbeszéléseinek hanganyagai, az ügyfélszolgálatok tevékenysége, a sajtótájékoztatók hanganyagai is feldolgozhatóvá válhatnak. A technológia hasznos eszközöket adhat az állami szféra, a felügyeleti és biztonsági szervek kezébe, de áttörést hozhat a konferenciákon, tanrendi előadásokon és az egyszeri internetezők életében is.

Kihívás: a megértés

Mit tudjon a nyelvtechnológia? – tette fel a kérdést Kornai András, az MTA SZTAKI Informatikai Kutatólaboratóriumának tudományos tanácsadója Logika, szemantika, ontológia a nyelvtechnológiában című előadásának elején. „Szeretnénk, ha a rendszer elolvasná, megértené és vissza tudná adni a szöveget, és ha már visszaadja, tegye azt esetleg más nyelven, vagy netán tömören. Az első és az utolsó elvárásunk már teljesül, a megértéssel azonban még problémák vannak.”

Az előadó annak érdekében, hogy ezt a fontos problémát megoldjuk, a hagyományos (Arisztotelészi értelemben vett) és a modern (Russel, Whitehead és Tarski óta alkalmazott) matematikai logikák mellett a proto-logika használatát ajánlotta figyelmünkbe, mivel a természetes nyelv megértéséhez az egyszerű, hétköznapi, hibás következtetési sémák feltárásán keresztül vezet az út. Kornai mindemellett a hallgatóság figyelmébe ajánlotta az ontológia (azaz a dolgok leírásának, rendszerezésének) jelentőségét, illetve azt, hogy mennyire kell részletesnek lenni a leírás folyamatában.

Az előadó állást foglalt a a szövegek, mondatok, szavak értelmével foglalkozó tudományág, azaz a szemantikai kutatás szükségessége mellett, mivel álláspontja szerint a pusztán statisztikai tanítással működő rendszerek soha nem működnek majd jól, hiszen tanításukhoz egyszerűen nem létezik elegendő adat.

A konferencia bemutatókkal zárult, ahol a Platform tagjai kutatási eredményeiket, konkrét alkalmazásaikat ismertették.

Információ
X