Nyelv és Tudomány- Blog - Írástudók hajnala: innováció a médiában II.

Kövessen, kérem!

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

Írjon! Nekünk!

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

| Indítson saját blogot!

Írástudók hajnala: innováció a médiában II. - Az adatok kora

Számítógépes nyelvészet

zoltanvarju , 2011. február 15. 21:17

0 hozzászólás

Információ - adat
Mi a különbség az információ és az adat között? Van-e egyáltalán ilyen különbség? Itt és most fogadjuk el hogy információnak azt tekintjük ami valami újat mond, valamilyen módon kontextusba helyez egy adatot vagy adathalmazt. Az adat fogalmát pedig tekintsük egyszerűen egy leírójellegű statisztikának, ilyen pl. a munkanélküliségi ráta. Ez önmagában csupán egy adat, információ akkor válik belőle ha összevetjük más adatokkal, pl iskolázottság, lakhely, kor, nem stb. Vegyük észre hogy az adat-információ viszony nem abszolút, hiszen a lakóhely és a munkanélküliség korrelációja egyrészt információval szolgálhat nekünk (informál minket arról hogy hol hogyan alakul a munkanélküliség), de adat lehet egy következő összevetésben is (pl. az egyes területek munkanélküliségi rátája hogyan viszonyul az adott terület gazdasági fejlettségéhez).

Ha ezt vesszük alapul, akkor beláthatjuk hogy az elektronikus médiában az elemző cikkek nem csak információt jelenthetnek, hanem tekinthetünk rájuk adatként is. A New York Times fejlesztőközpontjában is úgy gondolják hogy nem csak a publikus statisztikák szolgálhatnak alapul egy elemzéshez, hanem az újság archívuma is. A Guardian Open Platform kezdeményezése sem csupán abban segít hogy a különböző adatforrásokhoz egy helyen, kényelmesen férhessünk hozzá, hanem a lapot magát is adatforrásként kínálja fel.

Rakjunk rendet az adatok között!
Habár Bernens-Lee népszerű TED elődadásában arra buzdít mindenkit hogy követeljük a nyers adatok azonnali publikussá tételét, nem árt tudni hogy nem olyan könnyű ún. struktúrálatlan adatokkal dolgozni. A Wordnik SmartWords kezdeményezése pl. a "nyers" szöveges információ elemet kapcsolja össze saját szótárával, ami lehetővé tesz hogy egyszerű kapcsolatokat keressünk a szavak között, vagy éppen lekérdezhetővé tegyük az egyes szavak definícióit, de automatikusan generálhatunk egy szójegyzéket is. Ez a kezdeményezés vállaltan "könnyűsúlyú", nem akar tovább menni a lexikográfiai elemzésnél.

Az AlchemyAPI viszont igaz "nehézsúlyú" elemzést tesz lehetővé, mivel szemantikai információval dúsítja fel adatainkat. A szöveges információt (persze angol nyelvűt) az Alchemy segítségével széles körben elemezhetjük, kezdve az egyszerű pos taggingtől, a kulcsszó kivonatoláson át az entitás kinyerésig. Habár a rendszer nem tökéletes, megbízhatóan működik és alkalmas arra hogy egy vagy több dokumentumon belül is bonyolultabb relációkat fedezhessünk fel (saját próbálkozásunk ennek bemutatására Szöveges információk vizualizációja Gephi és az AlchemyAPI segítségével című posztunk).

Szemantikus web?
Miért van minderre szükség? A szemantikus web még várat magára. Persze egyrészt már itt van és egyre több információt közölnek szemantikus formában, azonban gyakorlati szempontból a legtöbb szöveges információt nem éri meg ilyen metaadatokkal ellátni. Talán nem is szükséges mindenre kiterjeszteni ezt az ideát, ennek egyik gyakorlati jele az ún. mikroformátumok megjelenése mely a "kritikus" területekre koncentrál, és a meglévő eszközökbe beágyazva a minimálisan szükséges szemantikus információt nyújtja, a "bővebb" elemzést pedig a fent bemutatott eszközökkel elvégezhetjük amikor szükséges.

Címkék: AlchemyAPI, Wordnik, lexikológia, szamantikus, web, újmédia

Hozzászóláshoz lépjen be vagy regisztráljon.

Még nincs hozzászólás, legyen Ön az első!