Tekstaro de Esperanto

Pri la tekstomarkado

La Tekstaro konsistas el aro da dosieroj markitaj per la markolingvo TEI 5. Tia markado povas esti farata en diversaj manieroj, atentante diversajn flankojn de la teksta enhavo, je diversaj gradoj de detaleco. La nuna markado ne estas en definitive finita formo, sed povas esti plu prilaborata kaj riĉigata.

Unu grava flanko estas aparta markado de ne-Esperantaj partoj de la tekstoj (ekz. propraj nomoj ne-Esperantigitaj). Tia markado estas grandparte jam plenumita, sed ne ĉiuj partotekstoj enhavas tiajn markojn de fremdaj vortoj, kaj tiuj tekstoj, kiuj ilin ja havas, povas bezoni plian kompletigan prilaboradon de tiu markado. Sed jam nun eblas en la serĉoservo laŭbezone indiki, ke la serĉo ekskluzivu vortojn markitajn kiel fremdajn. Fremdaĵoj estas nun plejparte indikitaj nur kiel ne-Esperantaj, per atributo xml:lang="", sed multaj havas precizajn lingvoindikojn kiel xml:lang="en" (la Angla lingvo), xml:lang="la" (Latino) k.s. Ĉe propraj nomoj estas tamen ofte malfacile aŭ eĉ neeble decidi, al kiu preciza lingvo ili apartenas. Tial verŝajne ankaŭ estonte restos multaj tiaj neprecizaj lingvoindikoj.

La uzataj lingvokodoj sekvas la rekomendojn de TEI kaj W3C. Baze temas pri la ofte uzataj du-literaj lingvokodoj de la normo ISO 639. Jen ĉiuj lingvo-kodoj, kiuj nun aperas al la Tekstaro:

eo
Esperanto
(malplena indiko)
nespecifita lingvo alia ol Esperanto
zxx
neniu lingvo (nelingva enhavo)
eo-x-praEsperanto
Pra-Esperanto
eo-x-reformitaEsperanto
Reformita Esperanto (projekto)
af
la Afrikansa lingvo
ar
la Araba lingvo
ca
la Kataluna lingvo
cs
la Ĉeĥa lingvo
da
la Dana lingvo
de
la Germana lingvo
el
la Greka lingvo
en
la Angla lingvo
es
la Hispana lingvo
eu
la Eŭska lingvo
fa
la Persa lingvo
fi
la Finna lingvo
fr
la Franca lingvo
ga
la Irlanda lingvo
grc
la Antikva Greka lingvo
gu
la Guĝarata lingvo
gug
la Gvarania lingvo
ha
la Haŭsa lingvo
he
la Hebrea lingvo
hi
la Hinda lingvo
hr
la Kroata lingvo
hu
la Hungara lingvo
io
Ido
is
la Islanda lingvo
it
la Itala lingvo
ja
la Japana lingvo
la
Latino
lt
la Litova Lingvo
lv
la Latva Lingvo
my
la Birma lingvo
nl
la Nederlanda lingvo
no
la Norvega lingvo
pl
la Pola lingvo
pt
la Portugala lingvo
ro
la Rumana lingvo
ru
la Rusa lingvo
sa
Sanskrito
sl
la Slovena lingvo
so
la Somala lingvo
sr
la Serba lingvo
sv
la Sveda lingvo
sw
la Svahila lingvo
tpw
la Tupia lingvo
tr
la Turka lingvo
vo
Volapuko
wrm
Varamunga
zh
la Ĉina lingvo

Normaligado

La tekstaro atentas precipe la lingvan enhavon de la tekstoj, kaj tial multaj eksterlingvaj (tipografiaj) detaloj de la diversfonta materialo estas unuecigitaj kaj normaligitaj. Uzo de citiloj kaj alispecaj tipografiaĵoj estas unuformigitaj pli-malpli laŭ tipografia stilo Angla. Tipografiaj indikoj de emfazado (kursiva teksto, grasa teksto, granda stilo k.s.) estas konservitaj en la formo de hi-markoj, kiuj plej ofte respondas al kursiva stilo, sed kiuj povas reprezenti ankaŭ alispecan elstarigadon en la originaj tekstoj. Informoj pri origina grasa teksto k.s. estas tamen plurloke konservitaj kiel atributoj ĉe la hi-markoj: rend="grase", rend="grande" k.t.p.

Korektado

Multaj evidentaj kaj nedubeblaj tajperaroj kaj preseraroj estas korektitaj (sen indiko pri tio). Eventualaj gramatikaj kaj alispecaj lingvaj eraroj tamen ne estas tuŝitaj.

Signorepertuaro

La originaj tekstoj prezentas tre riĉan repertuaron de signoj. Tie aperas ne nur la Esperantaj specialsignoj, sed ankaŭ Grekaj literoj, Hebreaj literoj kaj multaj aliaj specialaj signoj. La materialo estas kodita laŭ Unikodo por povi konservi ĉiujn tiujn signojn. Por legado de la tekstoj tial necesas sufiĉe modernaj programoj kun riĉe ekipitaj tiparoj.

Unikaj identigiloj

Ĉiu alineo de teksto, kaj ĉiu alia alinesimila tekstosekcio (ekz. linio de poemo), havas en la XML-kodo unikan identigilon (xml:id-atributon), kiu ebligas precizan indikadon de unuopaj tekstopecoj en referencoj al la tekstaro. Tiuj identigiloj estas jam uzataj en la serĉorezultoj de la ĉi-tiea serĉoservo.

La Tekstaro de Esperanto ekzistas dank’ al subteno de ESF.
Donacu al ESF kaj subtenu indajn projektojn, kiel la Tekstaro!
ESF - Por lingva justeco en multkultura mondo - ekde 1968