La Tekstaro konsistas el aro da dosieroj markitaj per la markolingvo TEI 5. Tia markado povas esti farata en diversaj manieroj, atentante diversajn flankojn de la teksta enhavo, je diversaj gradoj de detaleco. La nuna markado ne estas en definitive finita formo, sed povas esti plu prilaborata kaj riĉigata.
Unu grava flanko estas aparta markado de ne-Esperantaj partoj de la tekstoj (ekz. propraj nomoj ne-Esperantigitaj). Tia markado estas grandparte jam plenumita, sed ne ĉiuj partotekstoj enhavas tiajn markojn de fremdaj vortoj, kaj tiuj tekstoj, kiuj ilin ja havas, povas bezoni plian kompletigan prilaboradon de tiu markado. Sed jam nun eblas en la serĉoservo laŭbezone indiki, ke la serĉo ekskluzivu vortojn markitajn kiel fremdajn. Fremdaĵoj estas nun plejparte indikitaj nur kiel ne-Esperantaj, per atributo xml:lang=""
, sed multaj havas precizajn lingvoindikojn kiel xml:lang="en"
(la Angla lingvo), xml:lang="la"
(Latino) k.s. Ĉe propraj nomoj estas tamen ofte malfacile aŭ eĉ neeble decidi, al kiu preciza lingvo ili apartenas. Tial verŝajne ankaŭ estonte restos multaj tiaj neprecizaj lingvoindikoj.
La uzataj lingvokodoj sekvas la rekomendojn de TEI kaj W3C. Baze temas pri la ofte uzataj du-literaj lingvokodoj de la normo ISO 639. Jen ĉiuj lingvo-kodoj, kiuj nun aperas al la Tekstaro:
La tekstaro atentas precipe la lingvan enhavon de la tekstoj, kaj tial multaj eksterlingvaj (tipografiaj) detaloj de la diversfonta materialo estas unuecigitaj kaj normaligitaj. Uzo de citiloj kaj alispecaj tipografiaĵoj estas unuformigitaj pli-malpli laŭ tipografia stilo Angla. Tipografiaj indikoj de emfazado (kursiva teksto, grasa teksto, granda stilo k.s.) estas konservitaj en la formo de hi
-markoj, kiuj plej ofte respondas al kursiva stilo, sed kiuj povas reprezenti ankaŭ alispecan elstarigadon en la originaj tekstoj. Informoj pri origina grasa teksto k.s. estas tamen plurloke konservitaj kiel atributoj ĉe la hi
-markoj: rend="grase"
, rend="grande"
k.t.p.
Multaj evidentaj kaj nedubeblaj tajperaroj kaj preseraroj estas korektitaj (sen indiko pri tio). Eventualaj gramatikaj kaj alispecaj lingvaj eraroj tamen ne estas tuŝitaj.
La originaj tekstoj prezentas tre riĉan repertuaron de signoj. Tie aperas ne nur la Esperantaj specialsignoj, sed ankaŭ Grekaj literoj, Hebreaj literoj kaj multaj aliaj specialaj signoj. La materialo estas kodita laŭ Unikodo por povi konservi ĉiujn tiujn signojn. Por legado de la tekstoj tial necesas sufiĉe modernaj programoj kun riĉe ekipitaj tiparoj.
Ĉiu alineo de teksto, kaj ĉiu alia alinesimila tekstosekcio (ekz. linio de poemo), havas en la XML-kodo unikan identigilon (xml:id
-atributon), kiu ebligas precizan indikadon de unuopaj tekstopecoj en referencoj al la tekstaro. Tiuj identigiloj estas jam uzataj en la serĉorezultoj de la ĉi-tiea serĉoservo.