Tekstaro de Esperanto

Pri la tekstomarkado

La Tekstaro konsistas el aro da dosieroj markitaj per la markolingvo TEI 5. Tia markado povas esti farata en diversaj manieroj, atentante diversajn flankojn de la teksta enhavo, je diversaj gradoj de detaleco. La nuna markado ne estas en definitive finita formo, sed povas esti plu prilaborata kaj riĉigata.

Unu grava flanko estas aparta markado de ne-Esperantaj partoj de la tekstoj (ekz. propraj nomoj ne-Esperantigitaj). Tia markado estas grandparte jam plenumita, sed ne ĉiuj partotekstoj enhavas tiajn markojn de fremdaj vortoj, kaj tiuj tekstoj, kiuj ilin ja havas, povas bezoni plian kompletigan prilaboradon de tiu markado. Sed jam nun eblas en la serĉoservo laŭbezone indiki, ke la serĉo ekskluzivu vortojn markitajn kiel fremdajn. Fremdaĵoj estas nun plejparte indikitaj nur kiel ne-Esperantaj, per atributo xml:lang="", sed multaj havas precizajn lingvoindikojn kiel xml:lang="en" (la Angla lingvo), xml:lang="la" (Latino) k.s. Ĉe propraj nomoj estas tamen ofte malfacile aŭ eĉ neeble decidi, al kiu preciza lingvo ili apartenas. Tial verŝajne ankaŭ estonte restos multaj tiaj neprecizaj lingvoindikoj.

La uzataj lingvokodoj sekvas la rekomendojn de TEI kaj W3C. Baze temas pri la ofte uzataj du-literaj lingvokodoj de la normo ISO 639. Jen ĉiuj lingvo-kodoj, kiuj nun aperas al la Tekstaro:

eo: Esperanto
(malplena indiko): nespecifita lingvo alia ol Esperanto
zxx: neniu lingvo (nelingva enhavo)
eo-x-praEsperanto: Pra-Esperanto
eo-x-reformitaEsperanto: Reformita Esperanto (projekto)
af: la Afrikansa lingvo
ar: la Araba lingvo
ca: la Kataluna lingvo
cs: la Ĉeĥa lingvo
da: la Dana lingvo
de: la Germana lingvo
el: la Greka lingvo
en: la Angla lingvo
es: la Hispana lingvo
eu: la Eŭska lingvo
fa: la Persa lingvo
fi: la Finna lingvo
fr: la Franca lingvo
ga: la Irlanda lingvo
grc: la Antikva Greka lingvo
gu: la Guĝarata lingvo
gug: la Gvarania lingvo
ha: la Haŭsa lingvo
he: la Hebrea lingvo
hi: la Hinda lingvo
hr: la Kroata lingvo
hu: la Hungara lingvo
io: Ido
is: la Islanda lingvo
it: la Itala lingvo
ja: la Japana lingvo
la: Latino
lt: la Litova Lingvo
lv: la Latva Lingvo
my: la Birma lingvo
nl: la Nederlanda lingvo
no: la Norvega lingvo
pl: la Pola lingvo
pt: la Portugala lingvo
ro: la Rumana lingvo
ru: la Rusa lingvo
sa: Sanskrito
sl: la Slovena lingvo
so: la Somala lingvo
sr: la Serba lingvo
sv: la Sveda lingvo
sw: la Svahila lingvo
tpw: la Tupia lingvo
tr: la Turka lingvo
vo: Volapuko
wrm: Varamunga
zh: la Ĉina lingvo

Normaligado

La tekstaro atentas precipe la lingvan enhavon de la tekstoj, kaj tial multaj eksterlingvaj (tipografiaj) detaloj de la diversfonta materialo estas unuecigitaj kaj normaligitaj. Uzo de citiloj kaj alispecaj tipografiaĵoj estas unuformigitaj pli-malpli laŭ tipografia stilo Angla. Tipografiaj indikoj de emfazado (kursiva teksto, grasa teksto, granda stilo k.s.) estas konservitaj en la formo de hi-markoj, kiuj plej ofte respondas al kursiva stilo, sed kiuj povas reprezenti ankaŭ alispecan elstarigadon en la originaj tekstoj. Informoj pri origina grasa teksto k.s. estas tamen plurloke konservitaj kiel atributoj ĉe la hi-markoj: rend="grase", rend="grande" k.t.p.

Korektado

Multaj evidentaj kaj nedubeblaj tajperaroj kaj preseraroj estas korektitaj (sen indiko pri tio). Eventualaj gramatikaj kaj alispecaj lingvaj eraroj tamen ne estas tuŝitaj.

Signorepertuaro

La originaj tekstoj prezentas tre riĉan repertuaron de signoj. Tie aperas ne nur la Esperantaj specialsignoj, sed ankaŭ Grekaj literoj, Hebreaj literoj kaj multaj aliaj specialaj signoj. La materialo estas kodita laŭ Unikodo por povi konservi ĉiujn tiujn signojn. Por legado de la tekstoj tial necesas sufiĉe modernaj programoj kun riĉe ekipitaj tiparoj.

Unikaj identigiloj

Ĉiu alineo de teksto, kaj ĉiu alia alinesimila tekstosekcio (ekz. linio de poemo), havas en la XML-kodo unikan identigilon (xml:id-atributon), kiu ebligas precizan indikadon de unuopaj tekstopecoj en referencoj al la tekstaro. Tiuj identigiloj estas jam uzataj en la serĉorezultoj de la ĉi-tiea serĉoservo.