nyest.hu
Kövessen, kérem!
Legutolsó hozzászólások
A nyelvész majd megmondja
A legnépszerűbb anyagok
Írjon! Nekünk!
nyest.hu
nyest.hu
 
Az Új magyar etimológiai szótárról

Utoljára csaknem fél évszázada jelent meg nagy terjedelmű magyar etimológiai szótár, A magyar nyelv történeti-etimológiai szótára. Ma már csak antikváriumokban, borsos áron szerezhető be – de ki szeret ma ilyen vaskos köteteket lapozni? Az akadémia nyelvészei azonban készülnek valamivel...

nyest.hu | 2012. december 4.
|  

2012. december 4-én délelőtt tizenegy órakor a Magyar Tudományos Akadémia Nyelvtudományi Intézetében Gerstner Károly beszámolót tartott az Új magyar etimológiai szótár munkálatairól. Az előadó a bevezetőben arról beszélt, hogy a szókincs a nyelvről és a nyelven kívüli világról is sokat elárul; művelődéstörténeti, néprajzi szempontból is fontos információkat tartalmazhat, éppen ezért egy új etimológiai szótár ügye nem csak a nyelvészeket érinti. 

Ezek után beszélt a most készülő szótár előzményeiről. A mostani szótár két fő előzményre megy vissza.

A szótár történeti része azokat az adatokat tartalmazza, melyek megmutatják, mikor, hol, milyen alakban és jelentésben bukkant fel a szó. A szó etimológiája, azaz eredetének megfejtése jelentős részben ezekre az adatokra támaszkodik. Vannak külön szótörténeti tárak (ezek nem foglalkoznak a szavak eredetével) és tisztán etimológiai szótárak is (ezek csak a szó eredetét adják meg, nem gyűjtik össze a nyelvtörténeti adatokat).
Mint azt már a nyesten többször megírtuk, magyar nyelven a nyelvészek és laikusok számára egyaránt a 1967 és 1976 között megjelent, Benkő Loránd által szerkesztett háromkötetes A magyar nyelv történeti-etimológiai szótára (általánosan bevett rövidítése TESz.) áll rendelkezésre, ha a szavak eredetére, történetére kíváncsiak (1984-ben egy mutatója is megjelent). Mint Gerstner Károly hangsúlyozta, a TESz. fellendülést hozott az etimológiai kutatásokban: Ligeti Lajos a török jövevényszavakról, Hadrovics László a szerbhorvát magyar jövevényszavairól írt terjedelmes monográfiát. Sokan azonban sajnálták, hogy a szótár magyar nyelvű, ezért a nemzetközi kutatások számára nehezen hozzáférhető.

A legendás TESz.
A legendás TESz.
(Forrás: muzeumantikvarium.hu)

E kutatások segítésére jelent meg jelent meg – szintén Benkő Loránd főszerkesztésében – a német nyelvű Etymologisches Wörterbuch des Ungarischen (EWUng., 1993–1995, hat füzetben, majd két kötetben, 1997-ben a mutató). A német választásának elsősorban az volt az oka, hogy a munkatársaknak erősebb nyelvük volt a német, mint az angol; a nyolcvanas években pedig még nem volt akkora egyértelmű fölényben az angol a tudományos életben. Az EWUng. a TESz.-re épül, szócikkstruktúrája is főbb vonásaiban ugyanaz, mint a TESz.-é, de vannak eltérések is. Bizonyos régi nyelvi szavakat, illetve egyértelműen idegen, modern szavakat, melyek megvannak a TESz.-ben, kihagytak (pl. aligátor, dekadencia). Egyes címszavakat más szócikkekbe integráltak: például az arszlán az oroszlán, a deltoid a delta szócikkébe került. Ugyanakkor új címszavakat is felvettek: diszkó, fater, fólia, kégli stb. Tárgyaltak olyan összetett szavakat is, melyekkel a TESz. nem foglalkozott: gyászeset, gyászfátyol, gyászhír stb. Az EWUng. rengeteg rövidítést használ, ezért a szócikkek jóval tömörebbek lettek. Szótörténeti adatoknak azokat az adatokat nevezzük, amelyek megadják, hogy az adott szó, hol, mikor, milyen alakban és jelentésekben bukkant fel először. Szűkítették, megrostálták a szótörténeti adatokat: csak a magyarázathoz szükségesek maradtak. Az EWUng. kevésbé „olvasmányos”, mint a TESz.: a fejtegetések igen tömörek, kifejtett magyarázatok szinte nincsenek.

Az EWUng. néhány füzete
Az EWUng. néhány füzete

A legtöbb kritka éppen emiatt a túlzott tömörség miatt érte. Gerstner maga EWUng.-Deutschnak nevezte azt a nyelvezetet, amelyben a szótár íródott. Az EWUng. nem nagyon terjedt el, nem csupán néprajzosok, történészek nem ismerik, de sokszor nyelvészek sem. Mivel a közönség által is használható, magyar nyelvű szótár már csaknem fél évszázados, ideje lenne egy mindenki által használható, a legmodernebb kutatási eredményeket tartalmazó szótár publikálásának.

Az új szótár előkészületei egy OTKA-pályázat keretében történnek. A szótár elsősorban a TESz.-re és az EWUng.-ra épül majd, de felfrissíti az anyagot. Bekerülnek A magyar nyelv nagyszótára munkálatainak eredményei. Új címszók kerülnek be, mint blogger, fájl, fitnesz, link, klón, lobbizik, sztori, szponzor. A korábbi szócikkeket új származékokkal egészítik ki: csatolmány, gazdi, nyomtató stb. Egyes szavak szócikkeit új jelentéssel kell bővíteni: egér, gáz, háló, tűzfal, vírus. Gerstner Károly elmondta, szeretnék, ha a szótár a magyarból a más nyelvekbe átkerült szavakat a korábbiaknál jobban kiemelné.

Horváth László egyik fantomszócikke, ahogy a majdani nyomtatott változatban megjelenne...
Horváth László egyik fantomszócikke, ahogy a majdani nyomtatott változatban megjelenne...
(Forrás: Mártonfi Attila)

A szótár elektronikusan készül. A munkálatok ezen részéről Mártonfi Attila számolt be. Egységesen strukturálták az eredetet. A fő típusokat fantomszócikkekkel (kitalált szavak kitalált szócikkeivel) alakították ki (ezek Horváth László munkái). Ezeket alakították át adatbázis-formátumúvá. Az adatbázis szerkezetét Mártonfi Attila dolgozta ki.

... és ahogy ez az adatbázis felhasználói felületén kinézne
... és ahogy ez az adatbázis felhasználói felületén kinézne
(Forrás: Mártonfi Attila)

A szótörténeti rész kiépítésének tapasztalatairól Tamás Dóra Zsófia számolt be. Mint elmondta, hogy míg a TESz. „bőbeszédű”, szövegkörnyezettel idézi az adatokat, nem formalizált, ezzel szemben az EWUng. tömör, a szótörténeti adatoknál szövegkörnyezetet nem ad meg, viszont formalizált. Az EWung. az idézett szavak pontos forrását sem adja meg, ezekért a TESz.-ig kell visszamenni. Az új szótár az EWUng.-ot követi formalizáltságában, illetve a szócikkbeli elemek sorrendjében, de visszakerülnek az adatok pontos forrásai. Nehézségeket okoz az is, hogy az EWUng.-ból nem mindig derül ki, mely TESz.-szócikkből veszi az adatokat. Van, amikor a TESz. cédulás gyűjtésekre hivatkozik: ezeket vissza kell majd keresni. Az új szerkezetben nem mindig helyezhető el minden a régebbi, szabadabb szerkezetű szócikkekből (pl. „lásd”, „vesd össze”), ezekre az esetekre is megoldást kell találni.

A nyelvi adatok betűhív átírásának problémájáról Kacskovics-Reményi Andrea számolt be. A nagyszótár által használt karakterekből indulnak ki. Eddig csak a szótörténeti adatokat dolgozták fel, de már most rengeteg olyan karakterre lenne szükségük, amely a rendszerben nincs meg. Pl: c alatta ponttal (), alsó sorra írt „kilences” (az -us rövidítése), a huszita bibliák r-je („kis dőlt kettes”), az ß-hez hasonló, de különírt karakter. Az EWUng. megjelenése óta megjelent nyelvemlékkiadások újabb speciális karaktereket is tartalmaznak. A probléma a már meglevő karakterkészletek elemeinek átvételével, illetve új karakterek tervezésével megoldható. A probléma lényege egyelőre elsősorban nem a betűk rajzolatának visszaadása, hanem a speciális betűk kódjainak kiosztása. Mivel az XML-adatbázisok alapértelmezett kódolása a Unicode, ezt kell használni, az adatbázis struktúrája – szándékosan – nem alkalmas többféle karakterkészlet használatára. Amennyiben az illető speciális betűnek nincs Unicode-kódja, a felhasználói területen lehet speciális kódokat kiosztani. (Ez az a terület, melyet a Unicode-szabvány szándékosan nem szabályoz, hanem a különleges, az egyes projektekben használatos karaktereknek tart fenn.)

A helyzetet nehezíti, hogy a korábbi nyelvemlékkiadások gyakran egyszerűsítésekkel éltek, mivel nyomdatechnikai okokból nem tudták visszaadni a nyelvemlékben szereplő pontos formát. Ezeket most vissza kell keresni.

Ezután Kis Balázs, a Kilgray fordítástechnológiai cég képviselője beszélt arról, hogy miként lehet az EWUng.-ban szereplő német szöveget minél könnyebben lefordítani. Nem gépi fordítást, hanem fordítási memóriát, illetve az ennek használatát segítő fordítási környezetet alkalmaznak: a már lefordított részletekkel megegyező újabb részleteket már nem kell lefordítani. Az EWUng. magyarázatainál külön nehézséget jelentett, hogy el kellett választani a fordítandó részeket a nem fordítandóktól (pl. nyelvi adatoktól). A szigorú szócikkstruktúrának köszönhetően sok az ismétlődés, így a módszer segítségével a 4,18 millió karakternyi szöveget sikerült 2,25 millió karakterre csökkenteni.

Ezután Horváth-Papp Zita mutatta be a fordítási környezet használatát. A lefordított szavakat, terminusokat a központi szerver kezeli. A program jelzi, ha azonos vagy hasonló szakasz már le lett fordítva, így a fordítónak elég jóváhagynia. A hasonló alakoknál a gép maga javasol fordítást, amit a fordító módosíthat. Ha az azonos fordítás már sokszor ismétlődik, jóvá sem kell hagyni a fordítást. Nehézséget jelent viszont, hogy esetenként a szkennelt szöveget feldolgozó szövegfelismerő is hibázott, ezt is javítani kell.

Az előadás végén Gerstner Károly kitért arra, hogy a szótárba bedolgozzák az újabb etimológiai kutatások anyagait is.  Külön kiemelte  Róna-Tas András West Old TurkicThe Turkic Loanwords in Hungarian című művének feldolgozását. E műnek köszönhető, hogy az Új etimológiai szótár másképp fogja magyarázni a többek között a börtön, bükk, bűn, csak, igen és a tót szavak eredetét, mint előzményei.

Az előadás végén Gerstner Károly a nyest kérdésére válaszolva elmondta, hogy az Új etimológiai szótár várhatóan 2015 elejére készül el. Pontos tervek még nincsenek, de valószínűleg az interneten keresztül lesz elérhető, ám elképzelhető, hogy használatát regisztrációhoz kötik. Az elektronikus verzió mellett azonban szeretnének nyomtatott változatot is.

Követem a cikkhozzászólásokat (RSS)
Hozzászóláshoz lépjen be vagy regisztráljon.
10 Krizsa 2014. március 6. 06:31

Az új szótárról:-):

A héber paz = színarany (magyar: színű bekecs), pizer =szétszórta, pazrán = bőkezű – magyar fuz: csótány (van bőven).

Héber pozer=feloszlat (főz), puszpász=megperzselt, pirzel= megvasalta, patkolta.

Magyar: píz (pénz), pazar, pazarol, fuzsitos (dühösködő), fozoserdeu: őszi erdő.

Fez: marokkói város, fez: felfordított cserép alakú, vörös posztó, bojtos fejfedő, Fez-ben gyártották.

Héber pasus = pici madár: fess, pizez = ugrándozott, forgott: pózol, poszáta. Román?: föz = kismókus.

A héber puzár=felosztott, fűz(fa), füzér – főz.

Héber poszéa=lépeget, piszek=széttár, poszéa =lépeget, elterjed – pásztor, pásztáz.

Héber paut=apró, pete, pit’om = hirtelen: pitymallat.

sumér (3x: Ur III) wr. pi-zi-ri2-um "a gold object?" Akk. pizzerium

sumér (1x: ED IIIa) wr. peš2mušen "a bird”.

Magyar forz – az R nem szervetlen járulékhang: forszíroz < francia forcer (erőltet) < latin fortis (erős).

9 arafuraferi 2012. december 30. 12:29

@okeyo: Nincs ingyen etimológia. Aki így akar hozzájutni, az tolvaj-gazember. Tessék megvenni antikváriumban és végigjátszani azt, amit az L. házaspár. Vagy amíg ez az új szótár meg nem jelenik, addig be kell érned a Krizsa-féle szótárral, amit már leközölt itt a fórumban. Csak össze kell másolni a hozzászólásokat. :-)

8 LAttilaD 2012. december 7. 17:14

Úgy tűnik, hogy ilyen együttműködésre nincs mód, a kiadót ez nem érdekli.

7 okeyo 2012. december 6. 14:28

OK, de a netes publikásra én sem a kiadó megkerülésével gondoltam, hanem vele együttmûködve. A TESz. egy olyan alapvető mû, amelyet közkincssé kellene tenni, főleg ha már - óriási munkával - elkészült elektronikus változata is.

Mint az a cikkből kiderül, az Új magyar etimológiai szótár már eleve elektronikusan készül, és feltehető, hogy az interneten keresztül lesz elérhető, aminek csak örülni lehet.

6 LAttilaD 2012. december 6. 13:20

Okeyo, üdv nálunk. Sajnos netes publikálást nem vállalhatok, pedig igazán szívesen írnék rá célprogramot és szolgáltatnám. De gyakorlatilag ezzel is megsérteném a kiadó jogait, ezt pedig nem szeretem tenni.

5 El Vaquero 2012. december 6. 11:13

Valóban jó lenne a netes, kereshető verzió. Így az a veszély sem fenyegetné a kiadót, hogy mindenki letölti az egészet és azzal kalózkodik.

4 okeyo 2012. december 6. 10:30

Ha már elkészült a TESz. digitális változata, szerintem jó lenne az interneten is elérhetôvé tenni.

Tegnap egy kellemes délután töltöttem LAttilaD oldalán...

3 LAttilaD 2012. december 6. 01:51

A digitális változat… sehol. Egyelőre csak magam élvezhetem, a szerzői jogok miatt.

2 Fejes László (nyest.hu) 2012. december 5. 09:21

@LAttilaD: Szép dolog ilyenről cikkeket írni, de hol érhető el maga a szótár?

1 LAttilaD 2012. december 5. 01:38

Bocsánat az öntömjénezésért, de nem állhattam meg, hogy el ne dicsekedjem itt a TESz. digitális változatával, amit feleségemmel készítettünk. Az ezzel kapcsolatos cikkek listája lattilad.org/f/?x=cat:14 cím alatt található.

Információ
X