-
szigetva: @Sándorné Szatmári: Kérlek, fejezd be a hülyeséget. Egyszer-kétszer talán vicces, de most ...2024. 11. 13, 12:05 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @Sándorné Szatmári: 12 kiegészítés: -A mai angolban a "kulcs" szó időben csak oda helyezhe...2024. 11. 13, 11:33 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: "..„ké” milyen meggondolásból jelentene 'eszközt', abba bele se merek gondolni....2024. 11. 13, 10:55 Szótekerészeti agybukfenc
-
szigetva: @Sándorné Szatmári: Metaforák helyett akkor mondd azt, hogy nt > nn. (Egyébként ezt se ...2024. 11. 13, 10:42 Szótekerészeti agybukfenc
-
Sándorné Szatmári: @szigetva: 9 Gondolom félre értettél..: "....Csakhogy akkor a „keményebbé vált” volna" írt...2024. 11. 13, 10:06 Szótekerészeti agybukfenc
Kálmán László nyelvész, a nyest szerkesztőségének alapembere, a hazai nyelvtudomány és nyelvi ismeretterjesztés legendás alakjának rovata volt ez.
- Elhunyt Kálmán László, a Nyelvész, aki megmondja
- Így műveld a nyelvedet
- Utoljára a bicigliről
- Start nyelvstratégia!
- Változás és „igénytelenség”
Kálmán László korábbi cikkeit itt találja.
Ha legutóbb kimaradt, most itt az új lehetőség!
Ha ma csak egyetlen nyelvészeti kísérletben vesz részt, mindenképp ez legyen az!
Finnugor nyelvrokonság: hazugság
A határozott névelő, ami azt jelenti, hogy ‘te’
Az oroszok már a fejünkön vannak!
Csákányozás az adatbányában
Az adatbányászat nem is olyan régen még pejoratív kifejezés volt, mára azonban alaposan megváltozott a helyzet. De mire kell ügyelnie annak, aki hatalmas adatbázisokban szeretne turkálni? Leginkább a valódinak látszó, de hamis összefüggésekre... A statisztikusok már felkészültek!
A kutatók akár még tíz évvel ezelőtt is lenézték azokat, akik hatalmas adathalmazokban kutakodtak összefüggések után, mára viszont igen népszerű lett a téma. De mi az első számú buktató, amire figyelnie kell annak, aki hasonlóra adja a fejét? Minek higgyen a kívülálló érdeklődő?
(Forrás: Wikimedia Commons / Leandro Neumann Ciuffo / CC BY 2.0)
Véletlen?
A tudományos ismeretterjesztő sajtóban gyakran emlegetik, hogy a kutatók „szignifikáns különbséget” találtak valamiben. Azt már korábban részletesen elmagyaráztuk, hogy a szignifikancia csak annyit jelent, hogy a talált különbség betudható-e a véletlennek, és semmit sem mond arról, mennyire nagy a különbség. Lehet egy különbség szignifikáns, de igen kicsi is; ezekkel az eredményekkel a gyakorlatban nem sokra megyünk.
A szignifikanciával kapcsolatban létezik azonban még egy igen nagy probléma, ami az elmúlt hónapokban, években egyre aktuálisabbá vált. Ha rengeteg mindent mérünk, szükségszerűen fogunk találni szignifikáns hatásokat is! Lássuk, hogyan és miért...
Az oldal az ajánló után folytatódik...
Facebook-korszak
Régebben a tudományos kutatás általában úgy festett, hogy egy viszonylag kisméretű mintán elvégzett vizsgálatból – például kísérletből – megpróbáltak következtetni a teljes népességre. Manapság viszont egyre gyakrabban áll elő az a helyzet, hogy nincsen szükség mintavételre, mert az összes vizsgálandó személy kívánt adatai már eleve rendelkezésre állnak. Egyre nagyobbak és egyre könnyebben hozzáférhetőek a különböző közösségi oldalak adatbázisai, és mint azt láthattuk, az állam is egyre több információt tart nyilván rólunk. Az adatbányászat kifejezésnek még tíz-tizenöt évvel ezelőtt is pejoratív mellékzöngéje volt, napjainkra viszont ez a nagy adathalmazok elemzésével foglalkozó terület rohamosan önálló tudományággá fejlődött.
Amikor a kutatók olyan hatalmas adattömegekből próbálnak levonni következtetéseket, mint például az összes Facebook-felhasználó profilja vagy éppen a társadalombiztosítási adatbázis, beleütköznek a többváltozós mérésekkel kapcsolatos nehézségekbe. Ahhoz, hogy ezeket megérthessük, kicsit közelebbről meg kell vizsgálnunk a szignifikancia fogalmát. Senki se aggódjon, ehhez nem lesz szükségünk bonyolult képletekre!
Minél kisebb, annál érdekesebb
A szignifikanciának mindig van egy adott szintje. A szignifikanciaszint konyhanyelven azt mondja meg nekünk, mennyire valószínű, hogy az adott hatás pusztán a véletlen műve. (Most a magyarázat kedvéért kicsit egyszerűsítettünk; hogy egészen pontosan mit mond ez az érték, azt ebben a magyarra fordított szakcikkben elolvashatjuk.) A szignifikanciaszint mindig 0 és 1 közé eső szám; minél kisebb, annál jobb. Például egy 0,03-as szignifikanciaszint jobb, mint egy 0,06-os.
Az elvárt szint tudományágtól függően változhat. A társadalomtudományokban – ideértve a nyelvészetet is – általában a 0,05-ös, azaz 5 százalékos szignifikanciaszint a bevett. Ez azt jelenti, 5 százalék az esély arra, hogy az eredmény betudható véletlen hatásoknak. Ha a szignifikanciaszint ennyi vagy kisebb, a hatást valódinak fogadják el, és az eredményeket ennek megfelelően értelmezik; ha pedig nagyobb, akkor a véletlennek tulajdonítják az adatokat. (A fizikusok ennél jóval kisebb szignifikanciaszinteket követelnek meg.)
Talán kezdhetjük sejteni, hol van itt a probléma... Minden mérésnek van saját szignifikanciaszintje, és ha rengeteg változó együttjárását mérjük, az eredmények félrevezethetnek minket. Ha például a 0,05-ös szignifikanciaszintet tartjuk mérvadónak, akkor a méréseink 5 százaléka teljesen véletlenszerű adatokon is szignifikáns lesz. Sok mérés esetén ez nem elhanyagolható mennyiség...
Hatalmas felfedezések?
Hogy szemléletesebben is láthassuk mindezt, vegyünk egy nagy kupac különböző változót! Tegyük fel, hogy a vidéki városokban élő emberek közösségioldal-használata érdekel minket. Rögzíthetjük mindenkiről a Facebook-profilja alapján, hogy mekkora városban él, barátai is javarészt ott élnek-e, a lakóhelyén van-e a munkahelye és így tovább. Emellett pedig felvehetünk rengeteg online aktivitással kapcsolatos változót is – megállapíthatjuk például, mennyire gyakran posztol valaki, szokott-e rendszeresen feltölteni fényképeket, előszeretettel használ-e rövidítéseket. Akár több tucat hasonló változónk is lehet.
Tegyük fel azt is, hogy fogalmunk sincs arról, hogyan használják a Facebookot a vidéki városokban élő emberek! Tehát az összes változó összes többi változóval való együttjárása érdekelni fog minket. (A gyakorlatban egyre több kutatás épül pont erre a sémára.)
A mérésünk végén minden egyes változópárra fogunk kapni egy számot, ami megmondja, mennyire járnak együtt, és minden ilyen számhoz fog kapcsolódni egy szignifikanciaérték is. Kideríthetjük például, hogy akik többet írnak a Facebookra, azok kisebb településeken élnek és a barátaik messzebb laknak tőlük, ráadásul mindkét eredmény 0,05 szinten szignifikáns.
Juhé! – mondhatjuk. Megvan a tudományos felfedezésünk! Vagy mégsem? A nehézség abból adódik, hogy kellően nagy mennyiségű változót vizsgálva teljesen véletlenül is lesz néhány szignifikáns érték. Azt is pontosan tudjuk, hogy mennyi! Ha a mércét 0,05-re tettük, és a változóink között nincsen kapcsolat, akkor is minden huszadik együttjárás szignifikáns lesz (ez épp 5 százalék).
Korrigáljunk lelkesen
Lehet-e bármit is tenni? Kétségbeesni nem érdemes, ugyanis a statisztikusok számos módszert dolgoztak ki arra, hogy segítsenek a többi kutatónak megoldani ezt a problémát. A tudósok több dolgot is tehetnek. Az első és nehezebb, hogy csak azokat az együttjárásokat vizsgálják, amelyekről tényleg gondolnak is valamit. Például azt szeretnék megtudni, tényleg igaz-e, hogy azok, akik messze laknak a barátaiktól, intenzívebben használják a Facebookot. A többi összefüggést bármennyire csábító és egyszerű lenne kiszámolni, nem számolják ki.
A gyakorlatban a tudósok sokszor nem tudnak ellenállni annak a lehetőségnek, hogy valamilyen teljesen előre nem látott kapcsolatot fedezhetnek fel a már meglévő adathalmazban. Ilyenkor is van megoldás: léteznek olyan korrekciók, amelyek annak a függvényében szigorítják az elfogadási feltételeket, minél több összefüggést vizsgál valaki egyszerre. A legegyszerűbb ilyen módszer a Bonferroni-korrekció: elosztjuk a szignifikanciaszintet az összehasonlítások számával és az új szintet tekintjük mérvadónak. Ez a módszer azonban gyakran túl szigorú is lehet, így idővel számos más alternatív eljárás is született.
A viselkedés vastörvényei?
Gondolhatnánk, ha ezeknek az eljárásoknak neve is van, akkor a kutatók nyilván használják és ismerik őket. A mi tapasztalatunk azonban az, hogy különösen a társadalom- és élettudományokban gyakran hajlamosak elfeledkezni ezekről a korrekciókról. Ráadásul a különböző korrekciók alkalmazása után gyakran vért izzadhat az ember, hogy szignifikáns eredményt csiholjon ki az adataiból.
(Forrás: Wikimedia Commons / Deutsches Bundesarchiv, 183-17031-0004 / CC BY-SA 3.0)
Az emberi viselkedéssel kapcsolatos mérések nem olyan szépek és elegánsak, mint például amit a fizikában várhatnánk; az összefüggések ködösek és gyengék. Így csábító elfeledkezni arról, pontosan hogyan definiáltuk a szignifikanciát és ennek milyen félrevezető következményei vannak.
Ha valaki mindenesetre meglepő és bizarr eredményekre jut mondjuk a Twitter vagy hasonló közösségi oldalak adatainak elemzéséből, mi inkább éljünk fenntartásokkal! A tudományban nagyon fontos az eredmények különböző módszerekkel történő megerősítése. Tehát ha valaki valamit talált az adatbányában való csákányozás során, annak alapján tervezhet kísérletet vagy másféle mérést, és ha az is hasonló eredményre vezet, akkor már mindjárt határozottabban állíthatja, hogy felfedezett valamit. A kísérlettel ráadásul nem csak együttjárásokat, hanem oksági viszonyokat is fel lehet térképezni. Ez persze sokkal tovább tart, de mi inkább legyünk türelmesek...
További olvasnivaló, felhasznált irodalom
Az érdekes p-érték (más számszerű példa csoportközi összehasonlítással)
Barátkozzunk a statisztikával: A bizonyítékok rostája, avagy mi a baj a szignifikanciapróbákkal?
Képregényes szemléltetés az xkcd-n (angolul)