nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Ó- és középmagyar korpuszok fejlesztése
Keressen ómagyar szövegekben ön is!

Mindig is tudni szerette volna, hányszor szerepel az ómagyar szövegekben az, hogy „útelágadozás”? Érdekelné, hogy ó- és középmagyar nyelvemlékeinkben hányszor és milyen összefüggésben említették az „adó” szót? Az MTA Nyelvtudományi Intézete jóvoltából most minden kérdésére választ kaphat.

Simon Eszter | 2010. március 29.
|  

Képzeljük el, hogy a 21. században a nyelvtörténészek ha egy nyelvi jelenségre szeretnének példát találni, még mindig úgy keresnek, hogy felnyúlnak a polcra mondjuk a Jókai-kódexért, és kézzel-szemmel keresik ki benne a megfelelő szöveghelyet. Az évek, évtizedek alatt összegyűjtött nyelvtörténeti tudásukat mozgósítják olyankor, amikor például a határozott névelő első megjelenését szeretnék detektálni. De mi van azokkal a szerencsétlen földi halandókkal, akik mögött nem áll évtizedes kutatómunka, az olyan magyartanárokkal, akik nem annyira járatosak a területen, de érdekes példákkal szeretnének szemléltetni valamilyen történeti változást a magyarban? Vagy mit tegyen az az elméleti nyelvész, akit különböző magyar mondatszerkezetek kialakulása foglalkoztat? Ők nem feltétlenül tudják kapásból, hogy melyik nyelvemlékünkben említették először mondjuk a zsálya szót, vagy hogy melyik kódexben keressenek elváló igekötőket, melyikben nem érdemes, mert még nem alakult ki. Többek között nekik lehet nagyon hasznos segédeszköz a most készülő ó- és középmagyar szövegemlékek elektronikus adatbázisa.

A Jókai-kódex 1440 tájékáról
A Jókai-kódex 1440 tájékáról
(Forrás: MTI/Honéczy Barnabás)

A projekt 2009. április elsején, vagyis éppen egy éve indult az MTA Nyelvtudományi Intézetében. A 4 éves munka egyik vállalt célja egy olyan elektronikus adatbázis felépítése, amely tartalmazza a teljes ómagyar anyagot, és válogat a szövegekben jóval gazdagabb középmagyar kor anyagaiból. A nyelvtörténeti korszakok időhatárai a magyar történelem kiemelkedő pontjaihoz kapcsolódnak: az ómagyar kor a honfoglalástól Mohácsig, a középmagyar kor Mohácstól 1772-ig, vagyis Bessenyei György művének, az Ágis tragédiájának megjelenéséig, a magyar felvilágosodás kezdetéig tart. A projekt vállalásai között csak az összefüggő szövegemlékek feldolgozása szerepel, vagyis az ún. szórványemlékeket, amelyek csak egyes magyar szavakat tartalmaznak elszórva a szövegben, nem digitalizálnak. Eszerint az adatbázis 28 rövidebb ómagyar szövegemléket és 47 kódexet fog tartalmazni, ha elkészül.

A Bécsi-kódex egy lapjának másolata
A Bécsi-kódex egy lapjának másolata
(Forrás: Wikimedia)

Szövegemlékek a világban

Az elmúlt években világszerte egyre fontosabb szerepet kap az írott kultúrkincsnek a digitális korba való átmentése. Ebben (is) jelentős segítséget tudnak nyújtani az automatikus szövegfeldolgozás látványosan javuló minőségű technológiái. Az OSZK elektronikus könyvtárában számos kódex beszkennelt változata olvasható. A régi magyar szövegemlékek beolvasása önmagában azonban még nem teszi hozzáférhetővé a bennük lévő szöveget, szükséges a szöveg kinyerése, automatikus morfológiai és szintaktikai elemzése is. Ez biztosítja a szövegek olyan részletes keresését és elemzését, amilyenre a nyelvtörténészeknek, kutatóknak valójában szükségük van, és amelynek elkészülte a magyar nyelvtörténet kutatásának hatalmas lendületet adhat. Hasonló értékmentő, az adott nyelv történeti korpuszának megépítését célzó projektek a világ minden táján folynak, lásd például a Penn-Helsinki korpuszt, a spanyol nyelv történeti korpuszát vagy a walesi történeti korpuszt.

A Birk-kódex részlete
A Birk-kódex részlete
(Forrás: Molnár József-Simon Györgyi: Magyar nyelvemlékek. Tankönyvkiadó)

Korpuszoknak a nyelvészetben a nagy és strukturált szöveghalmazokat nevezzük, melyek elektronikusan tárolhatóak és feldolgozhatóak. Segítségükkel egyszerűen és gyorsan juthatunk információhoz az adott nyelvről, dialektusról, vizsgált nyelvi jelenségről – attól függően, hogy a korpusz milyen típusú szöveget és információkat tartalmaz. Vagyis itt nem csak a szövegek számítógépen való olvashatóvá tételéről van szó, hanem azok különféle nyelvészeti információval való ellátásáról is. Jelen projektben az adatbázis minden szövege többszintű, azaz a korpuszban minden egyes szövegszó mellett szerepelni fognak a következő adatok:

  • az eredeti, betűhű szóalak, pl.: adÿad
  • egy egyszerűsített alak, amely a mai magyar olvasó számára könnyebben olvasható: adyad
  • az ún. normalizált alak, amely követi a mai magyar helyesírás szabályait: adjad
  • a szóalak töve: ad
  • a szóalak morfológiai elemzése: ad[V.Sub.S2.Def] (felszólító módú, egyes szám második személyű, határozott tárgyú ige)

A betűhű szöveg elektronikus változatának előállítása többféleképpen történhet. A legegyszerűbb, ha már megvan, mert már valaki begépelte – ez a legritkább eset. Az elektronikusan nem elérhetőeket a számítógép által olvasható és feldolgozható formára kell hozni: ez vagy úgy történik, hogy begépeljük, vagy – hosszabb szövegek esetében – optikai karakterfelismerő (Optical Character Recognition, OCR) szoftver segítségével a kódex nyomtatott kiadásának beszkennelt változatából kinyerjük a szöveget. A betűhű változatból készül egy egyszerűsített átirat, melynek az a célja, hogy a mai magyar olvasó számára könnyebben befogadható legyen az amúgy elég nehezen olvasható ómagyar szöveg. A normalizálás során két fő alapelvet tartunk szem előtt: először is elhagyunk minden fonológiai és helyesírási esetlegességet, és egységes, a mainak megfelelő helyesírásra törekszünk, másrészt viszont megtartunk minden ma már nem létező szót, toldalékot, morfológiai konstrukciót. Erre azért van szükség, mert az ómagyar korban korántsem volt egységes a helyesírás, az egyes korszakokban különféle helyesírási rendszereket követtek a kódexek másolói, a szkriptorok, és sokszor a saját dialektusuk jellemzőit is belevitték a szövegbe. A Müncheni kódex másolója például erősen ö-zik: "Jézus Krisztus Dávid fia Ábrahám fia születetének könyvö". A morfológiai elemzés automatikusan készül, a mai magyarra már létező alkalmazás ómagyarra való adaptálásával.

A kívánt információk lekérdezéséhez készült egy grafikus felület, amelynek egy tesztváltozata már elérhető és kipróbálható ezen az oldalon. A lekérdező lényege, hogy bármely szinten meg lehet fogalmazni a kérdésünket. Ha arra vagyunk kíváncsiak, hogy például a Bécsi-kódexben használtak-e mellékjeles betűket, akkor a betűhű szinten kell keresnünk. Ha gyakorisági listát szeretnénk készíteni a korpusz egy részéből, például arról, hogy hányszor szerepel a Mária vagy a picsa, akkor a szótövek szintjéhez kell fordulnunk. (Egyébként 12-1...) Ha nyelvészként azt szeretnénk vizsgálni, hogy egy igealak és a hozzá tartozó igekötő között milyen szavak szerepelhetnek, akkor ehhez már szükségünk van a szavak szófajára is, vagyis a morfológiai elemzés szintjén kell megfogalmaznunk a lekérdezésünket.

Az adatbázis jelenleg 3 kódexet (Bécsi, Birk, Jókai) és 18 kisebb ómagyar szövegemléket tartalmaz. A fejlesztők minden konstruktív hozzászólást szívesen vesznek.

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
Még nincs hozzászólás, legyen Ön az első!
Információ
X