-
Sándorné Szatmári: @nasspolya: (Hátha ennyi idő után még elolvasod..) -29-ben ezt írtad: ".... mi a pontos kü...2024. 11. 23, 12:47 A nyitás tárgya
-
szigetva: @Sándorné Szatmári: Kétségtelen, hogy majd ha tudunk valamit a jelenleg ismertnél korábbi ...2024. 11. 22, 14:33 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: 14 "..az állítólagos "ősnyelvről" azért könnyű bármit (és annak az ellenkezőjét...2024. 11. 22, 14:17 Szótekerészeti agybukfenc
-
szigetva: @Sándorné Szatmári: Kérlek, fejezd be a hülyeséget. Egyszer-kétszer talán vicces, de most ...2024. 11. 13, 12:05 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @Sándorné Szatmári: 12 kiegészítés: -A mai angolban a "kulcs" szó időben csak oda helyezhe...2024. 11. 13, 11:33 Szótekerészeti agybukfenc
Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.
- Elhunyt Kálmán László, a Nyelvész, aki megmondja
- Így műveld a nyelvedet
- Utoljára a bicigliről
- Start nyelvstratégia!
- Változás és „igénytelenség”
Kálmán László korábbi cikkeit itt találja.
Ha legutóbb kimaradt, most itt az új lehetőség!
Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!
Finnugor nyelvrokonság: hazugság
A határozott névelő, ami azt jelenti, hogy ‘te’
Az oroszok már a fejünkön vannak!
Az úr bencés, a hölgy szexi. Az igazgató ügyvezető, az igazgatónő gimnáziumi. Falusi a CSOK, városi a hibrid Toyota – Legalábbis ez derül ki napjaink online híroldalainak adataiból. Milyen képet mutat a mai magyar online média egyes aktuális társadalmi kérdésekről?
Ha feltérképezzük az online sajtó nyelvhasználatát, kideríthetjük, milyen képet kap az olvasó a világról. Ennek érdekében több, mint 100 ezer cikkben vizsgáltuk, hogyan jelennek meg az online sajtóban bizonyos nemi, etnikai és vallási csoportok. Milyen sztereotípiákat tükröz az online sajtó? A nők valóban gyengébbek és családanyák, míg a férfiak erősek és kenyérkeresők? A keresztények Jézus békés követői, míg a muszlimok veszélyes terroristák? A kérdésekre meglepő válaszokat kaptunk a cikkek automatikus nyelvi feldolgozása után.
(Forrás: Dawn Hudson (publicdomainpictures.net))
Az adatokról
Hogy képet kapjunk az online sajtó nyelvéről, először meghatároztuk azon oldalak körét, amelyekről adatokat gyűjtünk. Hosszas tanakodás után arra jutottunk, hogy 45 oldalt fogunk vizsgálni, melyek vagy országos és megyei lapok online kiadásai, vagy teljes egészében online kiadványok. A vizsgált oldalak listája ezen a linken érhető el. A gyűjtés során az oldalakon található belső linkeket követtük, azaz nem foglalkoztunk a más oldalakra mutató linkekkel. Ezzel a módszerrel 102240 cikket kaptunk. A gyűjtés 2019.07.02 és 07.03 között zajlott, a legyűjtött cikkek 2003.03.17. és 2019.07.02. között jelentek meg. A legyűjtött tartalom 65%-a 2018.01.01. után keletkezett. További 15% 2015.01.01. és 2017.12.31. között, a maradék 20% 2003.03.17 és 2014.12.31. között.
Ezt követően a legyűjtött cikkeket előfeldolgoztuk, saját névelem-felismerőnk segítségével azonosítottuk és összevontuk a személy- hely és intézményneveket (pl. a Nagy János névből nagy|jános lett), majd minden szót szótöveztünk (így például a Végre beindult a hazai GDP növekedése. mondatból végre beindul hazai gdp növekedés lett). Az így kapott korpuszból készítettünk szóbeágyazási modellt, amelynek lényege, hogy egy-egy szót egy vektorral, tulajdonképpen egy számsorral) reprezentálunk. A vektorok előnye, hogy mérhetünk közöttük távolságot, össze adhatjuk, de ki is vonhatjuk őket egymásból; azaz a lineáris algebra szokásos eszköztárával dolgozhatunk. De hogyan lesz egy szóból vektor?
Isten hozott a mátrixban
Bár egyre többen neurális hálókat alkalmaznak erre a célra, mi egy hagyományosabb módszert választottunk, ami sokkal átláthatóbb és a szakirodalom szerint legalább olyan jó eredményeket hoz, mint a manapság divatos word2vec és GloVe módszerek. A dolog lényege, hogy először megszámoljuk a szavak egyedi gyakoriságát. Ezután skipgramokat készítünk, amelyek a bigramok általánosabb formái. A „Lenni vagy nem lenni” mondat bigramjai például lenni vagy, vagy nem, nem lenni. A bigramtól eltérően a skipgram nem csak az egymással szomszédos szavakat tartalmazza, hanem adott távolságon belül előforduló szavakat rendez párba, vagy akár hármasba, négyesbe, stb. Az előbbi shakespeare-i idézet skipgramjai hármas távolságon belül az alábbiak:
lenni vagy; lenni nem; lenni lenni; vagy nem; vagy lenni; nem lenni.
Amint megvannak a skipgramjaink, meg tudjuk számolni a gyakoriságukat és tudunk egy mátrixot, azaz egy táblázatot készíteni, amelynek az adott szavakhoz tartozó vektorok az elemei. Táblázatunknak annyi sora és oszlopa van, ahány egyedi szavunk van. Az egyes cellák feltöltéséhez a szó- és skipgram gyakorisági adatainkat fogjuk felhasználni. Minden egyes cella azt reprezentálja majd, hogy két szó mennyi kölcsönös információt hordoz. A kölcsönös információ egy szép információelméleti terminus, amivel két elem közötti asszociáció erősségét szokás jellemezni. Az asszociáción itt azt értjük, hogy a két szó együttes előfordulása viszonylag gyakori a skipgrammok között. Ez két dolgot jelenthet: vagy hasonló környezetben fordulnak elő, vagy egymáshoz közel szoktak előfordulni. Ennyi felvezetés után lássuk, hogyan kapjuk meg a kölcsönös információ értékét.
Kölcsönös információ (Szó1, Szó2) = log (skipgram gyakoriság(Szó1, Szó2) / Szógyakoriság Szó1 / Szógykoriság Szó2)
Amikor feltöltjük mátrixunkat a fenti formulával, azt tapasztaljuk, hogy legtöbb esetben a nulla érték kerül a cellákba, azaz ritka mátrixunk van. A szótárunk viszont nagy, esetünkben ötvenötezer szóról beszélünk, 55.000 x 55.000, azaz 3025000000 elemről. Hogy könnyebben tudjuk kezelni a mátrixot, a szinguláris értékfelbontás nevű eljárással leredukáljuk 55.000 x 300-as mátrixra, ami már nem ritka mátrix, így sokkal könnyebb vele dolgozni. Az így kapott mátrixot tekinthetjük egyfajta szemantikai térben, hiszen az egyes szavak pozícióját az határozza meg benne, hogy milyen gyakran járnak együtt, vagy fordulnak elő hasonló környezetben.
Simicska, a kakukktojás
A cikkekben előforduló szavakból nyelvmodellt készítettünk, hogy megvizsgálhassuk, hogyan viszonyulnak egymáshoz bizonyos kifejezések. Az általunk készített nyelvmodell tehát arra alkalmas, hogy egyes szavakra rákeressünk, és megkapjuk, milyen kapcsolatban állnak egymással.
Először is meg kell tudnunk, jól működik-e a modell, amit alkottunk! Számtalan módszer létezik arra, hogy kiértékeljük, mennyire tükrözi vissza egy algoritmusok által generált nyelvmodell azt, amit mi beszélők józan ésszel tudunk. Ezek a módszerek gyakran hasonlítanak a pszichológiai tesztekből ismert feladatokra: például az analógiás tesztek és a kakukktojás megtalálása, ezekből szemezgetünk most.
Két szót legegyszerűbben úgy vetünk össze, hogy megnézzük a köztük lévő távolságot. Minden szót a háromszáz hosszúságú vektorunk jellemez, a vektoroknak van iránya, állása és nagysága. A közöttük lévő távolságot az eukildeszi térben mérhetjük, ami a kétdimenziós térben a Pitagorasz-tételen alapul, azaz a két befogót tekintjük a két összemérni kívánt vektornak, távolságuk pedig az átfogó. Mivel itt távolságról beszélünk, minél nagyobb értéket kapunk, annál távolabb van egymástól a két vizsgált elem. Az n-dimenziós terekben ennek általánosított változatával dolgozunk. Nézzük meg, milyen távolságra van a FIDESZ a nagyobb ellenzéki pártoktól.
Ha tüzetesebben megvizsgáljuk szemantikai terünket, azt találjuk, hogy az egyes ellenzéki pártok nagyon közel állnak egymáshoz. Pl. a Momentum esetében azt látjuk, hogy a DK-hoz áll a legközelebb (0.073) és az MSZP-től a legtávolabb (0.19). Az egyes ellenzéki pártok átlagos távolsága 0.11, ami azt jelenti, hogy nagyon hasonló környezetben jelennek meg a cikkekben.
A szóalgebra további vizsgálódásokat is lehetővé tesz, ilyen például egy adott listában a kakukktojás megtalálása. A kakukktojás megtalálásához először a lista elemeinek vektorait átlagoljuk, majd megnézzük melyik elem tér el legjobban a kapott eredménytől. Modellünk a Fidesz, Jobbik, MSZP, LMP, DK listából a Fideszt gondolja oda nem illő elemnek. A Mészáros Lőrinc, Tiborcz István, Leisztinger Tamás, Simicska Lajos névsorból Simicska Lajos nevét adja válasznak.
A nyelvmodellek kiértékelésében a legnépszerűbb teszt az analógiás teszt. Az analógiákat úgy találtuk meg, hogy az analógia első két tagját összeadtuk, az összeadás eredményét kivontuk a második tag ismert részéből, majd megkerestük, melyik szó vektora áll ehhez a legközelebb. Mikor hasznos az analógia? Akkor, ha két szópár viszonyára vagyunk kíváncsiak. Arra, hogy mit kapunk vissza például Németországra, ha megadjuk, hogy
Magyarország -> Budapest. Németország -> ?
A helyes válasz természetesen:
Németország -> Berlin.
Ezt úgy értelmezzük, hogy Magyarország úgy viszonyul Budapesthez, mint Németország Berlinhez.
Az általunk trénelt modell például az Orbán Ráhel -> Orbán. Ivanka Trump -> ? kérdésre azt válaszolja, hogy Trump. Az apa -> munka. anya -> ? esetében a test választ kapjuk.
Vagány férfiak, szexi nők
Folytatva barangolásunkat a hatalmas szemantikai térben, megnéztük, hogy egyes szavakhoz melyek hasonlítanak a legjobban, azaz melyek állnak a legközelebb hozzájuk a vektortérben.
Először a női-férfi szópárokhoz legközelebb álló szavakat kerestük meg. Meglepve tapasztaltuk, hogy teljesen eltérő környezetben bukkan fel az úr és a hölgy a vizsgált korpuszban. Az úrhoz leginkább hasonló szavak egyházi vonatkozásúak (pl. bencés, szerzetes, püspök, főapát), míg a hölgy esetén a külső megjelenés hangsúlyos (pl. ruha, szexi, öltözött, sportos). Nem tapasztaltunk azonban jelentős eltérést a különböző nemű rokonok (pl. anya-apa, anyós-após, menyasszony-vőlegény), se a méltóságok között (pl. herceg-hercegnő, király-királynő), bár egy-egy érdekes jelenségre figyelmesek lettünk.
A fiú-lány, apa-anya, apuka-anyuka, férj-feleség szópárok tagjaihoz ugyanazok a szavak állnak legközelebb, egy-egy szó kivételével. Ezek alapján, csak a fiúval és az apával asszociálódik a kaland, a lánnyal és az anyával nem. Kizárólag a lány csinos és az anyuka szexi, a fiúról és az apukáról ez nem mondható el. Kinek van felesége? A miniszterelnöknek és az elnöknek. Fordítva ez nem igaz: a miniszterelnök vagy az elnök férjéről nem beszélünk.
Mi különbözteti meg az apát az édesapától? Az apa szót a családi viszonyok leírásában használjuk (pl. anya, gyerek, szülő, házasság), míg az édesapát a gyászjelentésekben (pl. éves, lakos, elhunyt, élet). Ennél is jelentősebb a különbség az anya és az édesanya, illetve a gyerek és a gyermek között. Az anyához olyan szavak állnak közel, mint a nevel és a szülő, míg az édesanyához a nagycsaládos, otthonteremtési és babaváró. A gyerek esetén nem meglepő az iskola, diák, felnőtt, addig elgondolkodtató, hogy a gyermek az olyan szavakat vonzza, mint a gyed, otthonteremtési, babaváró, kedvezmény, igényelhet.
Végül lássuk, milyen véleményünk tükröződik vissza az online térben a nőkről és a férfiakról, általában. A fiú (megannyi szinonimája tanúsága szerint) a következő tulajdonságokkal rendelkezik: vagány, laza, menő, tökös, vicces, cinikus, szórakoztató, romantikus, sportos, elegáns. Kiemelendő a fickó esetén batman, a pasas és az úriember esetén a punci, illetve a legény esetén a hagyományőrző és a hangszer szavak megjelenése. A lány kevésbé egységes képet mutat, inkább azt bizonyítja, hogy az egyes szinonimákhoz bizonyos jelentés fókusz társul. A bige szót a bűnügyek kapcsán használjuk (pl. nyomozó, nyomozás, elleni, gyanúsított), a leányt magasabb körökben (pl. herceg, hercegnő, királyi, király), a némbert pedig kifejezetten pejoratív értelemben (pl. gonosz, aljas). A csajról azt tudjuk meg, hogy szexi és vagány, illetve, hogy közel állnak hozzá a divat, a punci és a saláta szavak.
A költőnek vers, a költőnőnek wellness hotel
Könnyen beláthatjuk, hogy a magyar nyelv az angolhoz viszonyítva igen demokratikus a foglalkozásokat tekintve. Míg ugyanis az angolban a hivatások megnevezésének egy része magába foglalja a maszkulin man tagot (pl. fireman, policeman, chairman), addig a magyarban az alapalak többnyire nem különbözteti meg a nőket a férfiaktól (pl. tűzoltó, rendőr, elnök). Ebből adódóan a két nyelvben két ellentétes jelenség figyelhető meg. Az angolban olyan alakok létrehozására volt szükség, amelyek nem zárják ki a nőket, azaz gender tekintetben semlegesek. Így lett a firemanból firefighter, a policemanból police officer és a chairmanból chair person. Ellenben a magyarban éppen annak jelölésére születtek meg az alternatív változatok, hogy az adott foglalkozású személy nő nemű (pl. rendőrnő, elnök asszony). A magyar nyelv e demokratikus tulajdonságának tudatában kíváncsian vártuk, milyen különbségeket mutat az online média a nők és a férfiak között a foglalkozások tekintetében.
Egyrészt bizonyos szakmák és beosztások tekintetében eltérő szemantikai terekre bukkantunk. Míg a tanár egyértelműen a felsőoktatáshoz kötődik (pl. egyetem, főiskola, docens, tanszékvezető), addig a tanárnő a közoktatáshoz (pl. középiskolai, szakgimnázium, érettségi). Hasonló a helyzet az igazgató-igazgatónő páros esetén. Az előbbi inkább az üzleti élethez és a különböző szintű vezetőkhöz kötődik (pl. ügyvezető, főigazgató, vezérigazgató), az utóbbi inkább az egyházi iskolákhoz (pl. egyházi, gimnázium, püspök, bíboros, szerzetes, tanár). Sokkal élesebb és meglepőbb különbséget mutat a doktor-doktornő páros. A doktor nem az orvos értelemben vonz hasonló szavakat, hanem titulusként, így erőteljesen a felsőoktatáshoz kötődik (pl. egyetem, professzor, elte, docens). A doktornő sem azokra a nőkre utal, akik az orvosi pályát választották hivatásul, hiszen bűnügyi témájú szavak a leghasonlóbbak hozzá (pl. bűntett, bűnsegéd, bűnszervezet, bűnszövetség).
Másrészt azt találtuk, hogy bizonyos szakmák esetén csak kivételes helyzetekben válik hangsúlyossá, hogy az illető nő. Azaz az alapeset semleges, a feminin jelleg mindig valamilyen különleges körülmény esetén lesz jelölt. Amikor az ápolók munkájáról általában beszélünk (pl. beteg, műtét, kórházi) vagy a bérükről (pl. munkavállaló, havi, bruttó), akkor ápolónak nevezzük őket. Amikor azonban valamilyen extrém eset történik, például egy ápoló bűncselekményt követ el, vagy ellene követnek el bűncselekményt (pl. börtönbüntetés), akkor már hírértékű, hogy az illető nő vagy férfi, ezért az ápolónő szót használjuk. Szintén a jelöltséget példázza a diák-diáklány esete. A diák neme mindaddig nem érdekes, amíg általánosságban beszélünk róla (pl. tanuló, tanév, érettségi, iskola), viszont ha valamilyen bűncselekménnyel (pl. ítél, börtön, szabadságvesztés) vagy különleges eseménnyel (pl. tüntetés, csata) hozható kapcsolatba, jelölni fogjuk a nemét azzal, hogy diáklánynak nevezzük.
Harmadrészt a művészek kapcsán nem figyeltünk meg különösebb eltérést a két alak között. Egyedül azt tartottuk különösnek, hogy kizárólag a nőkhöz kötődnek nem szorosan a művészethez kapcsolódó szavak. A művésznőnél bukkan fel csak a ruha, a jászai és a rendező mellett, a művésznél nem. A költőnőnél találjuk a wellness és hotel szavakat, a vers és a műfordító mellett, a költőnél nem. Az énekesnő környezetében fordul elő a test, a zenész és a jazz mellett, az énekesnél nem.
A meleg időjárástól a homoszexuális házasságig
Végül azt vizsgáltuk meg, hogyan jelennek meg az egyes etnikai, vallási és nemi csoportok, illetve egyes személyek az online médiában.
A korpusz tanúsága szerint egészen más kontextusban jelenik meg a cigány és a roma szó az online médiában. Az előbbihez a 2. világháborús borzalmak kapcsolódnak (pl. koncentrációs, tábor, gázkamra, krematórium), míg az utóbbihoz aktuális társadalmi kérdések (pl. szegény, hátrányos, helyzetű, falu). Hogyan jelenik meg más magyarországi nemzetiség? A svábhoz például az alábbi szavak állnak a legközelebb: település, falu, megye, származású.
A meleg-homoszexuális-buzi szavakról azt feltételeztük, hogy hasonló szemantikai mezőbe tartoznak, azonban tévedtünk. A meleg kizárólag az időjárással kapcsolatban fordul elő (pl. időjárás, hideg, hűvös, kánikula), a homoszexuális szó aktuális társadalmi kérdésekhez kapcsolódik (pl. házasság, nemi, erőszak), a buzi szó pedig a már említett 2. világháborús koncentrációs táborokhoz kötődik (pl. gázkamra, náci).
Milyen szavak társulnak az egyes vallási csoportokhoz? A keresztényhez Jézus, Jeruzsálem, szent, a zsidóhoz a koncentrációs, haláltábor, gázkamra, az iszlámhoz a dzsihadista és a merénylet.
Most akkor előítéletesek vagyunk?
Nem titkoljuk, hogy kutatásunkat korábbi, angol nyelvű adaton végzett vizsgálatok motiválták. Arra voltunk kíváncsiak, ki tudunk-e mutatni, hasonlóan látványos különbségeket a nők és a férfiak közötti beszédmódról, mint amilyeneket például Bolukbasi és munkatársai (2016) a Google News adatain trénelt szóbeágyazási modell kapcsán kimutattak. A kutatók arra jutottak, hogy a modellek nagymértékben szexisták, ugyanis az analógiás vizsgálat eredménye szerint a férfiak programozók, míg a nők háztartásbeliek. Kutatásunk két fontos eredményt hozott.
Egyrészt a magyar online média szóhasználatában nem mutatható ki az angol nyelvű korpuszban jelenlévőhöz hasonló előítéletesség. Fontos leszögeznünk, hogy eredményeinkre úgy tekintünk, mint egy tükörre. Az általunk trénelt modell segítségével megismerhettük, hogyan beszélnek a magyar online médiában egyes csoportokról és személyekről. Eredményeink az elmúlt évtized állapotának lenyomatát tükrözik. Az állapot pillanatnyiságára jó példa a nemrég bevezetett otthonteremtési támogatás megjelenése, amely a szavak szintjén is kimutatható.
Másrészt fel kell ismernünk, hogy bármilyen – akár a magyar online médiából származó nyelvi adatokon alapuló – nyelvmodell magába foglalja a nyelvhasználók világról alkotott elképzelését. Ebbe a világképbe beletartozik, hogy nagyobb valószínűséggel kerül a figyelmük középpontjába a nők külső megjelenése, mint a férfiaké vagy hogy a szinonimaként számon tartott szavakat (pl. gyerek-gyermek) teljesen más kontextusban használják. Ebből következően, bármire is használjuk a nyelvmodelleket (pl. álláshirdetésre jelentkezők automatikus rangsorolása, amiből botrány is lett az Amazonnál), nem szabad elfelejtenünk, hogy bár algoritmusok generálják őket, az emberi gondolkodás lenyomatait őrzik.
A cikk szerzői a Crow Intelligence kutatói.
A nyest ezúton üdvözli szeretettel Varjú Zalánt, akinek közreműködése nélkül ez a cikk nem jöhetett volna létre.