
Lexikoa, Atzo eta Gaur (LAG)
Hemen aurkezten den Lexiko honen xedea hitz zerrendan bildutako sarrera bakoitzaren erabilera aztertzea da. Erabilera historian zehar, eta erabilera gaur egun. Hortaz, konparazio bat egiten da lexiko honetan, ikusteko, azken batean, zein den hitz edo sarrera bakoitzaren joera: delako hitz hau lehen baino gehiago erabiltzen da gaur egun? Lehen baino gutxiago? Lehen bezala?
Konparazioak egiteko bi iturri nagusi erabili dira: batetik, historiari dagokionez, Orotariko Euskal Hiztegiak (www.euskaltzaindia.net/oeh, OEH hemendik aurrera) ematen duen informazioa hartu da kontuan. Erabilera sinkroniko edo egungorako, berriz, Ereduzko Prosa Gaur dago (www.ehu.es/euskara-orria/euskara/ereduzkoa, EPG hemendik aurrera), 2000-2006 urte bitarteko 25 milioi testu-hitzetatik gorako corpusa biltzen duena. Corpus horren gainean osatua dago HBEP (Hiztegi Batua Euskal Prosan, www.ehu.es/ehg), EGPren lexiko zerrenda bezala defini daitekeena. Azken batean, eta guri interesatzen zaigun alderditik, egungo lexiko erabileraren maiztasun eta estatistika datutegi aski osatua eskaintzen diguna. Lehenbizikoak, OEH-k, tradizioa biltzen du, hasieratik batasuna abian jarri zen uneraino, 1970. urteraino, gutxi gorabehera. Bigarrenak gaurko prosa hartzen du kontuan, bai liburuetan ageri dena, eta bai prentsan erabiltzen dena.
Helburua, beraz, batak eta besteak ematen dizkiguten datuak konparatzea da, lexikoaren eboluzioa erabileraren bitartez neurtuz. Jakina denez, hizkuntzak ez dira zer estatiko batzuk, denborarekin eboluzionatu egiten dute, aldatu egiten dira, eta lexikoa da transformazio hori neurtzeko modu esanguratsuetako bat.
Eboluzioa kontuan izateko, tradizioari dagokionez, bi modutara aurkezten da informazio hau:
Hitzen erabilerari buruzko informazioa 0-10erainoko eskala baten bitartez aurkezten da, eta koloreak ere erabiltzen dira, geziekin batera.
Informazioa honela dago antolatua. Jo dezagun, kasurako, "mamu" sarrera. Jakin nahi dugu hitz horren erabiltzeko joera zein den. Hitzean klikatuz, hau ageri da:
Horrek esan nahi du hitz hau gaur egun tradizioan baino pixka bat gehiago erabiltzen dela. Geziak gorantz egiten du, bi kasuetan: bai XIX. mendea bukatu arte ("2", 0-10eko eskalan), eta bai XX. mendea ere kontuan hartuz ("1", 0-10ko eskalan). Zenbaki hori handiagoa balitz, 6koa, demagun, horrek esan nahiko luke askoz ere gehiago erabiltzen dela gaur egun, lehen baino. Hori gertatzen da, esaterako, "ebaketa" hitzarekin:
Ikusten denez, hitz hori tradizioan askoz ere gutxiago ageri da: egungo erabilerak 5 hartzen du eskala horretan XIX. mende bukaeraraino iristen den tradizioarekin konparatuz, eta 2, berriz, XX. mendekoa ere barnean sartuz. Horrek esan nahi du XX. mendean gehiago erabiltzen zela aurreko mendeetan baino, eta orain are gehiago erabiltzen dela XX. mendean baino.
"Baldintzatu" hitza erabiltzeko joera aski berria da, ondoan ikusten denez:
Eskuin aldeko zutabetan ageri da zenbat idazlek edo iturburuk ("autoritateak") erabiltzen duten hitza.
Bilaketaren formularioan posible da autoritateez gain adibide edo agerpen kopurua ("adibideak") ere aintzat hartzea, informazioa handituz horrela. Gerta daiteke sarrera bat askotan agertzea, adibide anitz agertzea ("agerpenak"), baina erabiltzaile gutxi izatea ("autoritate" gutxi, alegia). Edo, alderantziz, hitz batek nahiko erabiltzaile izatea, baina ez agertzea horrenbestetan. Hona hemen adibide bat:
Informazio bera da hau, baina hemen idazle kopuruak eta adibideak hartzen dira kontuan informazio bera emateko orduan. Ikusten denez, bai idazleak, bai adibideak kontuan harturik, "poz eman" sarreraren erabilera joera beherantz doa.
Orain arte egindako aurkezpen laburtu honekin uler daiteke informazioaren funtsa. Hemendik aurrera, informazio hau eskuratzeko erabili den prozedura azalduko da.
Corpusetan ageri den informazioa nola bateratu den,
datuak erkatzeko modukoak izan daitezen
OEH eta EPG oso iturburu desberdinak dira. Biek corpusa oinarri badute ere, EPG corpusa da, testu bilduma, baina OEH hiztegia da, sarreretan adibide ugari ageri baldin bada ere. Baina izaera diferenteko iturburuak dira. Lehenak datu estatistikoak eskaintzen ditu (HBEPren bitartez), baina OEHk ez.
Adibideen edo autoritate-aipamenen kopuru absolutuak erabat desberdinak dira, iturri batean eta bestean. Hori berdintzeko, eta nolabait ere datuak erkagarri bihurtzeko, balore guztien eskala erlatiboa sortzea erabaki da, 0tik 10erakoa. Iturburu bakoitzaren kopuru absolutuak balore erlatibo horietara bildu dira.
Lehen lana, beraz, OEHtik datu estatistikoak erauztea eta sintetizatzea izan da. Horretarako:
EPGren datutegiari dagokionez, gaur-gaurkoz HBEPn ez dira lema konplexuak (hitz anitzekoak) ageri. OEHko azpisarreren hustuketaren ondorioz, hitz anitzeko lemen zerrenda osatu dugu, eta EPGn duten maiztasuna neurtu. Horrela, 11.472 lema berri gehitu zaizkio HBEPri, hitz anitzekoak: «bihotz-begi», «gozoaren gozoz» edo «puntu-puntuan» bezalakoak, adibidez.
Emaitza
Datu orokorrak hauek dira:
Zer esan nahi du horrek? OEHko lemak 72.325 baldin badira, baina bi corpusetan ageri direnak 33.593 bakarrik, horrek esan nahi du badirela OEHko 38.736 (72.325-33.589) lema EPGn ez daudenak, eta 22.138 (55.727-33.589) alderantziz, EPGn bai baina OEHn ez. Horretarako arrazoiak hiru izan daitezke:
Esan bezala, 0-10 mailako eskala erlatiboa antolatu da bi corpusak alderatu ahal izateko. Irizpide nagusia corpus desberdinetako kopuruak elkarren artean parekatzea izan da:
| 10. maila | 8-10. mailak | 4-10. mailak | |
| OEH19 | 1.484 | 4.805 | 16.337 |
| OEH | 1.476 | 4.874 | 21.302 |
| EPG | 1.495 | 5.036 | 20.226 |
Mailakatzearen datu xehatuak fitxategi honetan daude: mailakatzea.pdf.
2008ko azaroa