-
szigetva: @Sándorné Szatmári: Kérlek, fejezd be a hülyeséget. Egyszer-kétszer talán vicces, de most ...2024. 11. 13, 12:05 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @Sándorné Szatmári: 12 kiegészítés: -A mai angolban a "kulcs" szó időben csak oda helyezhe...2024. 11. 13, 11:33 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: "..„ké” milyen meggondolásból jelentene 'eszközt', abba bele se merek gondolni....2024. 11. 13, 10:55 Szótekerészeti agybukfenc
-
szigetva: @Sándorné Szatmári: Metaforák helyett akkor mondd azt, hogy nt > nn. (Egyébként ezt se ...2024. 11. 13, 10:42 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: 9 Gondolom félre értettél..: "....Csakhogy akkor a „keményebbé vált” volna" írt...2024. 11. 13, 10:06 Szótekerészeti agybukfenc
Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.
- Elhunyt Kálmán László, a Nyelvész, aki megmondja
- Így műveld a nyelvedet
- Utoljára a bicigliről
- Start nyelvstratégia!
- Változás és „igénytelenség”
Kálmán László korábbi cikkeit itt találja.
Ha legutóbb kimaradt, most itt az új lehetőség!
Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!
Finnugor nyelvrokonság: hazugság
A határozott névelő, ami azt jelenti, hogy ‘te’
Az oroszok már a fejünkön vannak!
Az önjelölt szótáríró még munkához sem látott, s máris útelágadozáshoz érkezik. Hány szó az épp elég? Melyek? Miért pont azok? Nem nehéz a választás, csak komplikált: olyan kérdések állnak lesben, mint hogy „mi a szó” és „hány szó van egy nyelvben”. A hős bölcsen kikerüli ezeket, és amikor senki nem néz oda, elővarázsol a kalapból tízezer megnyerő címszót. Uszkve.
Induljunk a kályhától. Amikor 2015 elején fejembe vettem, hogy közösségi szótárat építek, világos volt, hogy csak akkor van esélye a CHDICT-nek, ha nem üresen indul. Szép felhívás, hogy „Itt egy remek kis szótár készül, bár egyelőre egyetlen szócikket sem tartalmaz. Gyere és légy te, aki az elsőt megírja!” Én a magam részéről biztosan nem válnék törzsvendéggé ebben az ígéretes klubban. A CHDICT-nek tehát törzsanyagra volt szüksége.
De mekkora az a méret, amitől már – feltételezhetően – hasznos a szótár?
Mi a szó?
Kísérletet sem teszek, hogy ezt megválaszoljam. Inkább néhány példával illusztrálom, hogy mitől olyan reménytelenül nehéz ez a kérdés.
Kezdjük az alfabetikus írást használó nyelvekkel. Itt legalább egy fogódzója van az írott szöveggel foglalkozó számítógépes nyelvésznek: daraboljuk csak szét a bekezdéseket szóközök mentén, csupáljuk le mindenről az írásjeleket, s ami marad, azok a szavak. Apró bonyolítás, hogy a ragozás miatt ugyanaz a szó sok-sok formát ölthet, de ma már van erre polcról levehető eszköz: tövesítőnek hívják.
A kínaival egyszerre könnyebb és nehezebb a dolgunk. Toldalékolás lényegében véve nem létezik a nyelvben. Szóalakok így, többes számban, nincsenek, ezért tövesítenivaló sincsen.
Nagyobb gond, hogy a kínai írás nem jelöli a szóhatárokat. Olyannyira nem, hogy a „szó” fogalma egészen frisskeletű elképzelés a kínai filológiában. Nem mintha nem lennének már évszázadokkal ezelőttről leíró munkák, csak éppen azok mind írásjegy-tárak.
Nyilván nem független ettől az a sajnálatosan elterjedt tévhit, hogy a kínaiban minden szó egyszótagos, és minden szótag önmagában is szó. Itt még a nyest egyik bloggere is bakizott, amikor 2014-ben így fogalmazott: minden szóhoz, ami bármilyen jelentéssel bír, tartozik egy jel, amivel le lehet írni.
De lendüljünk tovább: szóközök ide vagy oda, a kínai nyelv is szavakból, méghozzá túlnyomórészt többszótagos szavakból építkezik. Sajnos vannak egyéb nehézségek is, ráadásul olyanok, amiket a magyarból is jól ismerünk. Sok szónak az a furcsa szokása, hogy néha összefüggően lép fel, néha viszont alkotóelemeire szakad, amik kisebb-nagyobb távolságra elkalandoznak egymástól a mondaton belül. Az előző mondatban is volt erre példa: a fellép ige két részre szakadt, s ezek sorrendje még fel is cserélődött. Valami hasonlót művelnek egyes kínai igék. A 睡觉shuì jiào egy ige, jelentése ’aludni’, a 睡不着觉 shuì bù zháo jiào ’nem tud elaludni’ szerkezetben viszont darabjaira esik.
A szóhatárok beazonosítása és a nem összefüggő elemek egy szóként való felismerése a két elemi kihívás, ami a kínai szövegek számítógépes feldolgozása előtt áll. De miért akarnánk szöveget feldolgozni – nem szótárról volt szó? A cikk végére világos lesz az ok.
Az oldal az ajánló után folytatódik...
Hány szó van egy nyelvben?
A továbblépés érdekében tegyük most fel, hogy a „mi a szó” kérdésére találtunk valamiféle pragmatikus megoldást. Egyből előbújik tudalattinkból az eddig csöndben lapító mérnök, és követeli, hogy számoljuk meg ezeket a szavakat!
Mérnök-énünk lelki társra talál leíró nyelvész énünkben, és mindketten úgy vélik, a kérdésre empirikus módszerrel kell választ adni. Gereblyézzünk hát össze annyi valódi szöveget, amennyit csak tudunk, nevezzük el az egészet korpusznak, és lássunk hozzá a számolgatáshoz.
Pontosabban ne tegyünk semmit, csak olvassuk el, mit írtak azok, akik ezt előttünk már mind végigcsinálták. Meglepő következtetésre jutunk: minden jel arra mutat, hogy a nyelvek szókincse végtelen. Ahogy rójuk a sorokat egy korpuszban, egyre ritkábban bár, de szüntelenül találunk új szavakat. Hiába próbálkozunk ötször, tízszer, ezerszer akkora korpusszal, abban is ugyanez a helyzet.
Ezt én személyesen legalább akkora fricskaként élem meg a világtól, mint az afféle állításokat, hogy az univerzum egyszerre tágul és határtalan, de beletörődéssel tudomásul veszem a tényeket.
Hány szót ismerünk?
Ha az a kérdés nem megválaszolható, hogy hány szó van egy nyelvben, cseréljük le egy másikra: hány szót ismernek a nyelv beszélői? Erre már egész használható válaszokat találunk.
A nyest is beszámolt a TestYourVocab.com oldalról, ami egy igen rafinált, hatalmas adatgyűjtés arról, hogy az életkor, iskolázottság, nyelvtanulással töltött idő és hasonlók függvényében mekkora az angolul beszélők szókincse. Később Marc Brysbaert, a Genti Egyetem professzora végzett más kutatókkal egy egész Belgiumra és Hollandiára kiterjedő felmérést, amelyben 400.000-en (!) vettek részt. Ugyanez a kutatócsoport tett közzé 2016-ban egy részletes tanulmányt a szókincs témájában.
A szókincstesztek rákfenéje, hogy nincs pontos válaszunk sem arra, hogy „mi a szó” (ezt már a fentiekben láttuk), sem arra, hogy mi jelent pontosan „ismerni” egy szót. Ennek ellenére a felmérésekből kirajzolódik néhány sarokszám:
- A felnőtt anyanyelvi beszélők szókincse 20-40 ezer közé tehető
- A teljes szókincs 11 ezer körüli szócsaládra vezethető vissza
- A szókincs felnőttkorban is folyamatosan bővül
- A 8-10 éve angol nyelvterületen élő nem angol anyanyelvűek szókincse 17 ezer körüli
A szókincs kérdése önmagában is annyira bámulatos, hogy a CHDICT fejlesztése közben egy hónapra teljesen eltérültem és a TestYourVocab mintájára, merő kíváncsiságból, gyártottam egy saját német nyelvű tesztet. Töltsétek ki ti is!
Szereplőválogatás
A fenti fogódzókon kívül tekintetbe vettem pár egyéb támpontot is, hogy kitűzzem a „pont elég” elvárását teljesítő szótárméretet.
Az egyik a hivatalos (kontinentális) kínai nyelvvizsga, a HSK. A legfelső szintjéhez elvárt teljes szókincs 6.000 szót tesz ki, amelyek listája különböző weblapokon, például itt, megtalálható. Sokat haboztam, hogy mit kezdjek ezzel az információval, mert alapvetően bizalmatlan vagyok a HSK-vizsgával kapcsolatban. Sok jel utal arra, hogy nem a valós hétköznapi nyelvhasználatot tükrözi, hanem valamiféle idealizált és ideologizált elképzelést a nyelvről. De győzött a pragmatizmus: a HSK-vizsga léte kőkemény valóságfaktor, minden Kínába készülő diáknak ezen kell átesnie, így nem teheti meg a CHDICT, hogy nem szolgálja ki őket.
Nyilvánvaló viszonyítási pont volt a kiváló Bartos-Hamar-féle Kínai-magyar szótár, amely 3.750 írásjegy-címszót és 8.000 összetett címszót, vagyis összesen közel 12 ezer címszót tartalmaz.
Ennyi körmönfont méricskélés után némileg szeszélyesen, ám annál gyakorlatiasabban meghoztam az egyszerű döntést: legyen 10 ezer címszó. Ez egyrészt kerek szám, másrészt kevesebb, mint az igen magas szintet elért nem anyanyelvi beszélők szókincse, harmadrészt pedig több, mint a legmagasabb szintű HSK-vizsga előírása. Fényévekre van egy nagyszótártól, de magabiztosan meghaladja a „kicsi” méretet.
Rangsorolás
Most már csak azt kellett eldönteni, a HSK-nak eladott kontingens feletti helyet mivel töltsem ki. Az alapelv nem volt kérdés: természetesen a leggyakoribb szavakkal. A bonyodalom abban áll, hogy mit értünk pontosan a gyakori szavak alatt. A választ két tényező befolyásolja erősen: milyen korpuszt vizsgálunk, és hogyan szegmentáljuk szavakra az illető korpuszt.
Mindkét kérdés több évre lefoglalhat egy kutatót, az én dolgomat viszont leegyszerűsítette egy prózai tény: szélsőségesen kevés nyilvános adat állt rendelkezésre 2015 elején. Írásjegy-gyakorisági listákból nincs hiány, szógyakorisági listák viszont éppenséggel nem hemzsegnek az interneten.
Az egyik szóba jövő forrás a 10 ezer leggyakoribb szót feltüntető Wiktionary-oldal. Bár a lap tetején egy köszönetnyilvánítás áll, az adatok forrását és az alkalmazott szószegmentálási módszert alapvetően homály fedi. Ráadásul a tartalmat feldolgozva egyből kiderül, hogy a 10 ezer szó rengeteg duplikátumot tartalmaz, és valójában csak 8.295 különböző elemről beszélhetünk. Az ilyesmi nem túl bizalomgerjesztő, bármilyen forrást kapirgálunk is meg.
De nem csigázom tovább az olvasót: a nyertes a SUBTLEX-CH korpusz közzétett szógyakorisági listája lett. A 33 millió szavas korpusz filmfeliratokat tartalmaz, aminek olvastán kisebbfajta örömtáncot lejtettem. Több kutatás is azt találta, hogy a különféle szövegtípusok közül a filmfeliratok reprezentálják a legjobban a szógyakorisággal kapcsolatos pszicholingvisztikai hatásokat (egy témába vágó írás itt). Leegyszerűsítve: az én célom a CHDICT-tel a hétköznapi nyelvhasználat hű leírása, amire a filmfeliratoknál jobb háttéranyagot keresve sem találhatnánk.
Az univerzum újabb fricskája (esküszöm, ez teljesen véletlen egybeesés), hogy a SUBTLEX-CH gyakorisági listáját ugyanaz a Marc Brysbaert publikálta, akit a szókincs-kutatással kapcsolatban emlegettem. Milyen kicsi a világ.
Osztódással szaporodnak
Miközben az adatokat előkészítettem a szótárfordításhoz, a 10 ezer szóból varázsütésre 12.500 lett.
A burjánzás egyik oka merő definíciós kérdés. A szógyakorisági lista egyszerűsített írásjegyekkel írt szavakat tartalmaz. A CHDICT szócikkei viszont háromeleműek: egyszerűsített, hagyományos, illetve pinyin-átirat. Ha bármelyik eltér, az már külön szócikk. Amikor az egyszerűsített írással írt szavakat kulcsként használva leválogattam a két forrásomat, a CC-CEDICT-et és a HanDeDict-et, felszínre kerültek a többértelműségek: számos írásjegynek több olvasata is van, és az is előfordul, hogy egy adott egyszerűsített írásjegynek kettő vagy több hagyományos írásjegy is megfelel.
Ezen felül a burjánzáshoz hozzájárultak a forrásaim közötti nézeteltérések is. A HanDeDict a tajvani nyelvhasználat felé hajlik, a CC-CEDICT viszont a szárazföldi felé, ezért sok szónál eltérő kiejtést tüntetnek fel. Végül pedig mindkettő tartalmaz hibákat (igaz, a HanDeDict érzésem szerint többet), ami szintén ahhoz vezet, hogy egyazon egyszerűsített címszóhoz eltérő kiejtést vagy eltérő hagyományos írásjegyeket adnak meg.
Így lett a 10 ezerből 12.500 címszó, amelyek azonban a szótárfordítás során szépen fogyatkoztak: a hibák és többértelműségek esetén csak egy változatot tartottam meg. Prózaian fogalmazva, a redundáns vagy téves elemeket kilövöldöztem. A számláló 10.888 szócikknél állt meg.
Az viszont már egy másik írás tárgya lesz, hogy hogyan jutottam el odáig.
A sorozat első része:
Hivatkozások:
Wortschatz.tk német szókincsteszt
Woordenkennis van Nederlanders en Vlamingen anno 2013: Resultaten van het Groot Nationaal Onderzoek Taal. Marc Brysbaert, Emmanuel Keuleers, Paweł Mandera, & Michael Stevens. 2013 [PDF]
How Many Words Do We Know? Practical Estimates of Vocabulary Size Dependent on Word Definition, the Degree of Language Input and the Participant’s Age. Marc Brysbaert*, Michaël Stevens, Paweł Mandera és Emmanuel Keuleers. Frontiers In Psychology, 2016. [link]
Subtitle-Based Word Frequencies as the Best Estimate of Reading Behavior: The Case of Greek. Maria Dimitropoulou, Jon Andoni Duñabeitia, Alberto Avilés, José Corral és Manuel Carreiras. Frontiers In Psychology, 2010. [link]
SUBTLEX-CH: Chinese Word and Character Frequencies Based on Film Subtitles. Qing Cai, Marc Brysbaert. PLOS ONE, 2010. [link]