En „Lingvo — Stilo — Formo” (1931, p. 51-52)

K. KALOCSAY skribas:

“Devas ekzisti limita vortprovizo, la trunko de la lingvo. Ĉiu, kiu volas uzi la lingvon nur por ĉiutagaj bezonoj, devas koni ĉi tiun lingvo-trunkon, sed ne bezonas nepre koni pli multe. Ĉiu, kiu volas esti certa pri tio, ke oni lin komprenos, devas uzi nur ĉi tiun trunkan vortprovizon, alie li riskas miskomprenon. Sekve, ĉiuj lernolibroj devas enhavi ĉi tiun vortprovizon, sed nenion pli.«

La unua oftec-vortaro de Esperanto ŝajne estas de S. Rublov el la jaro 1927, aperinta okaze de la 40-jara jubileo de la Internacia Lingvo. Temas pri "Raporto pri nombrado de la vortaraj elementoj en 6 tekstoj cele al eltrovo de la plej oftaj por raciigi la lernadon". Kompreneble temas pri nombrado de vortoj, ne de morfemoj.

Estis poste pluras similaj studoj de vortofteco kaj sufiĉe fidinda listo de ili troviĝas en la blogo de Bernardo www.ipernity.com/blog/bernardo/204877.

Akademio de Esperanto starigis projekton Baza Radikaro Oficiala en sesdekaj jaroj kaj grupo da akademianoj ellaboris baze de studo de pluraj frekvencvortaroj BRO kun naŭ grupoj kun entute 2300 vortoj.

Tio estis farita en tempo (1966) kiam ne eblis uzi komputilojn kaj oni nombris vortojn de skribitaj tekstoj, ne nombrojn de morfemoj kaj la parolatan lingvon neniu esploris.

La nura studo kiu prilaboris parolatan Esperanton, uzis korpuson surbendigitan dum UK Lucerno 1979 de 60.000 vortoj el kiuj bedaŭrinde nur 24.280 estis prilaboritaj komputile, nombrante kaj vortojn kaj morfemojn. Temas pri dimplomlaboro de Zlatko Tišljar ĉe la Studo de informadiko ĉe Filozofia fakultato en Zagrebo en 1982.

En 2014 aperis Oftecvortaro de Esperanto de Sabine Fiedler kiu aperigas vortaron de 10.000 plej oftaj vortoj el korpuso de pli ol 10 milionoj da vortoj. Komparo de 15 plej oftaj vortoj de ŝi kaj Tiŝljar estas identa (30%), sed ĉe 1000 plej oftaj vortoj estas grandega diferenco. (60% ĉe Fiedler kaj 85% ĉe Tiŝljar.). Tio okazas pro tio ke la korpusoj ege diferencas. Tiu de Tišljar estas teskto de parolata ĉiutaga lingvo en kiu entute estis iom pli ol 3500 diversaj vortoj dum tiu de Fiedler estas tekstaro de skribita faka kaj alia literaturo konsistanta el milionoj da vortoj kiu enhavis pludekmilojn da diversaj vortoj.

Ambaŭ konsentas ke por pedagogiaj celoj la esploro de vortofteco ne estas konvena (oni ne povas deĉifri la veran oftecpozicion de iu morfemo, ĉar ĉiu morfemo aperas en multaj diversaj formoj en tre diversaj lokoj kaj aŭtomate ne eblas sumi tion – ekz. morfemo »pov« aperas en vortoj kiel povas, povis, povos, povus, povi, povo, povon, povoj, povojn, povante, povinte... kaj el tio ne eblas kompreni ke »pov« estas inter la plej oftaj morfemoj entute. Sed la morfemofteco estas tre konvena por pedagogiaj celoj. Kaj esploro de morfemofteco estas ebla nur por Esperanto.

Sekve, ĝis 2015 ekzistis ununura studo de morfemofteco. Sed en 2015 Raymod Gerard el Belgio evoluigis popran softvaron por aŭtomate diserigi vortojn al morfemoj kaj nombri morfemojn en kiu ajn skribita teksta korpuso. Pri la softvaro kaj ĝia evoluigo mi esperas ke li mem verkos ellaboraĵon, ĉar ĝi ebligis aferojn kiuj ĝis nun estis taksataj apenaŭ eblaj kiel la senambiguigo). Tio estis revolucia por povi analizi novajn korpusojn pri morfemofteco kaj kompari ilin kun la studo de Tišljar. R. Gerard kontaktis Z. Tišljar-on kaj tuj komenciĝis fruktodona kunlaboro.

R. Gerard elektis plurajn korpusojn kaj analizis ilin. Z. Tišljar elektis 3 el ili kiuj laŭ grandeco (proksimuma kvanto da vortoj en ili) similis kaj kiuj ŝajnis pli poksimaj al averaĝe uzata temaro (ne tro faka kaj scienca teksto), do bonaj por komparo: la infanan libreton La Eta Princo, unu numeron de revuo Kontakto kaj 3 numerojn de revuo Monato.

La Eta Princo konsistis el 12.230 vortoj (22.135 morfemoj) kaj la morfemanalizo montris ke entute ĝi konsistis el 1090 diversaj morfemoj inter kiuj 479 plej oftaj morfemoj kovris 95,56% de la korpuso.

Kontakto n-ro 1/2013 konsistis en 10.148 vortoj (20.166 morfemoj) kun 1466 diversaj morfemoj el kiuj 639 plej oftaj kovras 94,73% de la korpuso.

3 numeroj de Monato (1,2 kaj 3 de 2015) konsistis el 21911 vortoj kiuj konsistis el entute 2224 diversaj morfemoj kies unuaj 794 plej oftaj morfemoj kovris 93,87 % de la korpuso.

Nii decidis kompari la 4 listojn (tiujn tri kun tiu de Tišljar) kaj trovi kiuj morfemoj estas la samaj en ĉiuj listoj je la nivelo proksimume de 95% de la korpuso. Ni konstatis ke la plej bona kompromisa solvo estus uzi po 600 plej oftajn en ĉiuj kvar listoj. La 600 unuaj en la listo de Tišljar kovras 96,50%, la listo de La Eta Princo 97,13%, la listo de Kontakto 94,15% kaj la listo de Monato 91,30%. Ricevinte tiujn kvar 600-morfemajn listojn ni vidis ke certa kvanto da morfemoj aperas nur en unu el la kvar listoj kaj tiujn ni decidis elĵeti el la listo. Ni do lasis en la komuna korpuso ĉiujn morfemojn kiuj aperis almenaŭ en tri el la kvar listoj inter la 600 plej oftaj. Mi aldonis 50-on da morfemoj el la 500 plej oftaj de la mia, kiuj troviĝis en unu plia listo. Pro mia takso ke ili necesas en ĉiutagaj konversacioj (kvankam ili montriĝis ne tiel oftaj en artikolaj tekstoj de Kontakto aŭ Monato aŭ literatura teksto.. Tiel kreiĝis la Baza Listo el 455 morfemoj.

LA BAZA LISTO 455

a ad afer ag ajn akcept aktiv akv al ali almenaŭ alt am amas amik an ankaŭ ankoraŭ anstataŭ ant antaŭ apart aper ar aranĝ art as aspekt at atend atent ating aĉ aĉet aĵ aŭ aŭd aŭskult baldaŭ bedaŭr bel bezon bon cel cent centr cert ĉambr ĉar ĉe ĉef ĉi ĉiam ĉirkaŭ ĉiu ĉu da dank daŭr de decid dek dekstr demand dev dezir dimanĉ dir dis divers do dom don dorm du dum e ebl ec edz eg ej ek ekskurs ekster ekzempl ekzist el elekt em en er esper est estr et eĉ eŭrop facil fakt fal famili far fart feliĉ ferm fin flank foj for forges form fort frat fru funkci gajn ge german grand grav grup gvid ĝeneral ĝi ĝis ĝoj ĝust halt hav hejm help hieraŭ histori hodiaŭ hom hor i ia iam ide ie ig il ili imag in ind infan inform instru int inter interes io iom ir is ist it ital iu iĝ j ja jam jar je jen jes jun juĝ ĵaŭd kaj kant kap kapabl kapt kar kaŝ ke kelk kia kial kiam kie kiel kies kio kiom kiu klar komenc kompren komput kon koncern konsent konsist kontraŭ korp kost kovr kred kresk krom kuir kultur kun kur kutim kvankam kvar kvazaŭ kvin la labor land las last laŭ leg lern leter li liber libr lig lingv lok long loĝ lud lum lund mal man manier mank manĝ mar mard maten mem memor merkred met mez mi mil milion minut mir mon monat mond montr morgaŭ mort mov mult n naci nask naŭ ne neces nek ni nokt nom nov nu numer nun nur o oft ok okaz okcident okul okup ol on oni ont opini ordinar organiz os pag pardon parol part pas patr paŝ pens per perd person pet pied plan plaĉ plej plen pli plor plu plur por port post postul pov poŝ pren preskaŭ pret prezent prezid pri pro problem produkt profesi proksim propon propr prov publik pur radi rajt rakont rapid raport re reg regul renkont respond rest ret ret ricev rid rigard rilat rimark riĉ romp sabat salut sam san sat saĝ sci scienc se sed sekv semajn sen send sent sep serĉ ses si sid signif silent simil simpl sinjor sistem skrib sol spert star strat sub sufiĉ sukces super supr sur ŝajn ŝanĝ ŝat ŝi ŝir tabl tag tamen tekst tem temp ten tia tial tiam tie tiel tim tio tiom tiu tra trans tre tri trink tro trov tuj tut u uj ul um universitat unu urb us uson util uz valor varm vast ven vend vendred ver verk vesper veter vetur vi vid vir viv vizit voj vojaĝ vol vort voĉ zorg


Por definitive konfirmi la ĝustecon de la Baza Listo la du aŭtoroj decidis kompari ĝin kun 600 plej oftaj morfemoj el analizo de la tekstaro el la revuo La Juna Amiko, supozeble la plej proksima skribita teksto al tiu de parolata korpuso.

La plena nombro de vortoj en du numeroj de Juna Amiko estis 21.257 vortoj ( 41.467 morfemoj) kaj la kompleta nombro de diversaj morfemoj estis 2013. La unuaj 768 kovras 94,55%. Inter tiuj 768 plej oftaj morfemoj troviĝas 413 el la Baza Listo. Mankas je tiu nivelo la lastaj 42 morfemoj kaj ili estas la jenaj:

„ĝoj ie koncern naŭ postul sat semajn frat konsist pied aĉ dekstr pur romp strat ekskurs kur vetur fru morgaŭ plor saĝ plaĉ profesi hieraŭ komput kap halt leter tabl poŝ veter fart kar ĵaŭd merkred dimanĉ ŝir vendred lund mard sabat“.

Kaj la plimulto el tiuj troviĝas ankaŭ en la listo de Juna Amiko inter pli maloftaj morfemoj. La nuraj kiuj komplete forestas estas la lastaj ok morfemoj, kiuj praktike ĉiuj estas nomoj de tagoj. Evidente la nomojn de tagoj homoj bezonas en ĉiutagaj konversacioj kaj en skribitaj tekstoj oni ne uzas ilin. Mi supozas ke ĉiuj konsentos ke tamen tiuj morfemoj apartenas al lernenda BAZA LISTO kaj ke ni ĉiuj povas konsenti ke la 455-morfema Baza Listo efektive estas objektiva listo de morfemoj lernendaj en komencaj lernolibroj.

La kvalito de aŭtoro de lernolibro speguliĝas en tio ĉu li kapablas krei lernolibron en kiu eneestas ĉiuj 455 mofemoj de la Baza Listo kaj laŭeble minimume da aliaj. Ĉiu plia morfemo esence plipezigas la lernmaterialon kaj malrapidigas esence la lernadon.

Malkvalitaj lerniloj estas tiuj en kiuj mankas multaj morfemoj el la Baza Listo kaj enestas multaj ekster ĝi. Ili esence malplirapidigas la lernadon tiel ke foje la lernado progresas samrapide kvazaŭ oni lernus iun ajn nacian lingvon.

Komparo de lernrapidecoj de Esperanto kaj naciaj lingvoj montras ke Esperanto havas kurbiĝon en la komenco multe pli krutan ol la aliaj lingvoj kaj poste ili proksimiĝas. La sekva grafikono estas kunmetita baze de la kibernetikpedagodiaj esploroj kiuj montris ke ĉiu lernado okazas laŭ eksponenciala leĝo sed ke diferenciĝas lingvoj de lingvoj. Ĝi estas rezulto de mezuroj pri lernrapideco de Esperanto kaj la germana kaj angla en bazaj lernejoj en Paderborn dum eksperimentoj kiujn efektivigis dro Helmar Frank.

Dum UK en Luzerno estis surbendigitaj simplaj interparoloj de kongresanoj en aŭlo, dum la manĝoj, dum amikaj interparoloj. Ne estis intervjuoj nek surbendigoj de preparitaj prelegoj.

La surkasedan tonan materialon mi transskribis en kajeron.


El la kajero mi transskribis ĉion sur la komputilan memorilon (kartetojn) per enmetado de streketoj inter morfemoj. Samtempe kune kun Jim Cushing mi ellaboris programaron por legi tiujn kartetojn kaj nombri

vortojn (laŭ ilia apero, do kaj „parolo“, „parolas“, „paroli“, „interparolas“, „parolilo“, „paroligos“…..)

morfemojn - do tion kio troviĝis inter la streketoj kaj paŭzoj (parol, ig, inter, o, j, n, as…)

kelkajn vortkombinojn elektitajn.

La programoj plenumis la taskon kaj mi ricevis tiujn tri listojn en du versioj: aparte laŭ la vortofteco (en vico laŭ ofteco), kaj aparte laŭ la alfabeto kun indiko kiun oftecpozicion ili havas.

Mi ellaboris diplomlaboraĵon por mia studo kiun mi defendis en 1982 kaj diplomiĝis pri humanisma informadiko ĉe la Filozofia fakultato en Zagrebo.

Rezultoj de la diplomlaboraĵo aperis samjare en la libreto kun la listoj (ofteca kaj alfabeta) de la morfemaro kaj analizo de la rezultoj, kiu diras ke 467 plej oftaj morfemoj konsistigas 95% de la tuta korpuso kaj iom pli ol 1000 ceteraj morfemoj kovras nur la lastajn 5% de la teksto.

Baze de tio teamo en Internacia Kultura Servo en Zagrebo (Zlatko Tišljar, Spomenka Štimec, Roger Imbert kaj Ivica Špoljarec) ellaboris en 1982 la unuan version de la Zagrebmetoda lernolibro el 12 lecionoj en kiuj troviĝis la 500 plej oftaj morfemoj.

La eksperimenta lernolibro estis sendita al 150 instruistoj en 40 landoj kaj post du jaroj ni ricevis reagojn de trideko da instruistoj kiuj aplikis ĝin. Intertempe en Zagrebo niaj instruistoj uzis ĝin en kursoj kaj baze de iliaj rimarkoj la aŭtoroj plibonigis la duan, trian kaj kvaran eldonon. La kvina kroata eldono estis definitiva laŭ kiu poste estis adaptitaj ĉiuj aliaj alilingvaj eldonoj.

Ekzistas paperaj eldonoj en 36 lingvoj inter kiuj krom preskaŭ ĉiuj eŭropaj troviĝas ankaŭ la japana, korea, kirunda (Burundia) vjetnama. Dum jaroj ĝi estis uzata ankaŭ en lernu.net kie oni adaptis ĝin al deko da pliaj lingvoj, nun bedaŭrinde ne plu publike uzeblaj.

La esenco estas en tio ke nur la Zagreba metodo eluzas la avantaĝon de Esperanto esti lernebla multoble pli rapide ol naciaj lingvoj en sia komenca fazo pro elekto de nur tiuj 500 plej oftaj morfemoj. Aliaj lernolibroj en diversaj gradoj malproksimiĝas de tiu celo kaj ofte ŝajnas al la lernantoj ke E-estas ne esence pli facila ol aliaj lingvoj : la rezulto estas tre malrapida lernado kaj parolkapablo proksimume la sama kiel en lernado de naciaj fremdlingvoj.

Nuntempe oni adaptas la lernolibrojn por atingi la lernonivelojn laŭ la Eŭropa Lingva Kadro, do por atingi atestilojn laŭ la postuloj de ELK, sed tiu celo estas tute alia ol lerni bazon de iu lingvo por kapabli paroli pri la plej elementaj aferoj laŭeble rapide. Tial lernolibroj kiuj celas Eŭropkadrajn ekzamenojn A1.A2 (lernu.net interalie) malfaciligas la lernadon de Esperanto kaj malmotivigas grandan plimulton de tiuj kiuj komencas ĝin lerni.