Nyelv és Tudomány- Főoldal - Gigantikus korpusz szolgálja a nyelvészeti kutatásokat

Nyelv és politika Természettudomány Nyelvtudomány Oktatás LEITERJAKAB

Cikkfolyam

Kövessen, kérem!

Nem lát minket a Facebookon?

Kenyérpirítón szeretné?

Legutolsó hozzászólások

Sándorné Szatmári: @CIkk: Mende Balázs Gusztáv kutató csoportja írta "..az avarok anyai ágú etnogenezise egys...
2025. 07. 15, 14:43 2. rész: nomád régészeti konferencia...
ganajtúrós bukta: Most találtam a wikiben: "Ugyanez a genom 50% manysi (finnugor), 35% szarmata (indoiráni) ...
2025. 07. 12, 20:34 Mi bizonyítja, hogy a magyar nyelv finnugor?
ganajtúrós bukta: @Sándorné Szatmári: Amúgy nincs kedved kalandmesternek jelentkezni a legközelebbi m.a.g.u....
2025. 07. 09, 18:00 Mi bizonyítja, hogy a magyar nyelv finnugor?
szigetva: @Sándorné Szatmári: Egyetlen konkrétum van a hosszú szövegedben: a magyarban E3-ban nincs ...
2025. 07. 09, 11:17 Mi bizonyítja, hogy a magyar nyelv finnugor?
Sándorné Szatmári: @ganajtúrós bukta: Idézet a cikkből: "...erősen kritizálják a nyelvcsalád fogalmát. Ennek ...
2025. 07. 09, 10:23 Mi bizonyítja, hogy a magyar nyelv finnugor?

Összes hozzászólás >>

A nyelvész majd megmondja

Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.

Kálmán László korábbi cikkeit itt találja.

A legnépszerűbb anyagok

Ismerjük vagy használjuk? Szamojéd erkölcsök a magyar ugaron Amikor az értelem legyőzi a nyelvtant A nyitás tárgya Elhunyt Kálmán László, a Nyelvész, aki megmondja

Írjon! Nekünk!

nyest.hu

Ha legutóbb kimaradt, most itt az új lehetőség!

Őrizze meg Ön is agylátását!

Ha csak egyetlen cikket töltesz fel az Academia.edu-ra a plágiumról, akkor az mindenképp plagizált cikk legyen!

Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!

Finnugor nyelvrokonság: hazugság

Hunok legyünk vagy magyarok?

A határozott névelő, ami azt jelenti, hogy ‘te’

*kota a Bölcsész Napokon

MTA: elítéljük a listákat

Az oroszok már a fejünkön vannak!

egueguegueguegu-eguegueguegueguegu...

Már baklövést is lehet véteni

Ceauşescu: jól jött neki a halál

Gigantikus korpusz szolgálja a nyelvészeti kutatásokat – is

A Google hatalmas szöveganyagot digitalizált, mely az 1800 és 2000 között megjelent könyvek 4%-ának szövegét tartalmazza. Hogy mire jó ez a hatalmas anyag?

Fejes László | 2010. december 17.

A cikk a hirdetés után folytatódik

A Language Log tömören bemutatja, milyen kutatásokról számolt be a Science-ben tizenegy kutató és a Google Books csapata. A Google több mint 5 millió könyvet digitalizált, ezek mindegyike 1800 és 2000 között jelent meg. Úgy becsülik, hogy ez az ebben az időszakban megjelent könyvek 4%-a. A világ nyelvei azonban nem egyformán vannak képviselve, a könyvek kétharmada angol nyelvű, a maradékon francia, német, spanyol, kínai, orosz és héber nyelvű könyvek osztoznak. Az angol korpusz 360 milliárd szóból áll: korábban a legnagyobb használt korpusz, a Brigham Young Egyetem által üzemeltetett amerikai angol történeti és mai szövegkorpusz 400 millió szót tartalmazott. (A legnagyobb magyar korpusz, a Magyar Nemzeti Szövegtár kb. 190 millió szavas. Helyesbítés: a legnagyobb magyar szövegtár a Szószablya, mely másfél milliárd szót tartalmaz. Ebben azonban a Google korpuszával és a MNSZ-szel szemben nem könyvek, hanem az internetről letöltött vegyes szövegek vannak.)

Az oldal az ajánló után folytatódik...

A kutatók a könyvek szövegeiben keresve, az adatokat statisztikailag feldolgozva többféle kutatást is végeztek. Megvizsgálták például, hogy az angol rendhagyó igék hogyan váltak szabályos ragozásúvá a kétszáz éves időszakban. Egy másik kutatás azt vizsgálta, hogyan mutatható ki egyes művészek és értelmiségiek elnyomása a náci Németország, a sztálini Szovjetunió, illetve a mai Kína kiadványaiban. Egy harmadik csoport a hírnév terjedésének jelenségét vizsgálta az egyes nevek gyakoriságának növekedése alapján. Ehhez 740 000 nevet választottak ki a Wikipédiából, a születési évszámaik szerint rendezték őket, és minden születési évből kiválasztották azt az ötven embert, akinek a neve a leggyakrabban fordult elő a gyűjteményben. Ezek után megnézték, hogy az így kiválasztott személyek említési gyakorisága hogyan változik évről évre az átlagos említési gyakorisághoz képest. Azt találták, hogy az emberek egyre gyorsabban válnak híressé, de hírnevük gyorsabban is elapad, mint mondjuk száz évvel ezelőtt.

Az alkalmazást megnyitva a tofu és a hot dog kifejezések gyakoriságának változását látjuk. A hot dog gyakorisága némi hullámzással, de folyamatosan emelkedik, ám a tofu kezdetben nagyon ritkán fordul elő, s csak 1970 körül kezd gyakorivá válni, az 1980 körül pedig olyan hirtelen kezd emelkedni, hogy 1982-ben már eléri a hot dog gyakoriságát, 2000-re pedig messze meg is haladja.

FRISSÍTÉS: Jelenleg az Atlantis és az El Dorado kifejezések hasonlíthatóak össze, elképzelhető, hogy az alapbeállítás időről időre változik.

Egy alkalmazás segítségével magunk is megvizsgálhatjuk, hogy miként változott az egyes szavak gyakorisága 1920-tól kezdve. (A korpusz korábbi része egyelőre nem érhető el.) Ráadásul egyszerre nem csupán egy szót vizsgálhatunk, hanem akár ötöt is. Nincs az az unalmas bölcsészbuli, amit ne dobhatnánk fel olyan játékokkal, amelyekben meg az egyes szavak egymáshoz viszonyított gyakoriságát, ill. gyakoriságának változását kell megtippelni. (Mi a gyakoribb: a ’paradicsom’ vagy a ’krumpli’, a ’kecsöp’ vagy a ’mustár’, vagy hogy ki a híresebb: Ceauşescu vagy Kádár?)

Sajnos egyelőre bonyolultabb kereséseket nem végezhetünk, például nem vizsgálhatjuk szavak együttes előfordulását (a ’kecsöp’ vagy a ’mustár’ gyakoribb-e a ’hal’ mellett), vagy hogy egyes szavak hol fordulnak elő mások nélkül (pl. a rock ott, ahol nem fordul elő a music és a concert) stb. Vannak azonban tervek a kereső további fejlesztésére, így aztán néhány éven belül fergeteges bölcsészbulikra számíthatunk.

Forrás

Humanities research with the Google Books corpus

Hirdetés

Címkék: Nyelvtudomány, Angol nyelv, Google Books NGram Viewer, Korpusz, Kínai nyelvek, Nyelvemlék, Német nyelv, Orosz nyelv, Spanyol nyelv, Statisztika, Számítógépes nyelvészet

Követem a cikkhozzászólásokat (RSS)

Hozzászóláshoz lépjen be vagy regisztráljon.

1 Olman 2010. december 31. 12:39

A gyakoriságból levont következtetések merőben eltérhetnek a valóságtól, hiszen a gyakoriság alapja csak a 4%. Ez nem jelenti azt, hogy a maradék 96%-ban ugyanez a gyakoriság. Az is lehet, hogy a 4%-ban minden példányban előfordult egy adott szó, a 96%-ban meg egyáltalán nem szerepelt...

Hirdetés