Tekstaro de Esperanto

Bonvenon al la “Tekstaro de Esperanto”, projekto iniciatita kaj financata de “Esperantic Studies Foundation”

La serĉilo funkcias nur kun moderna TTT-legilo, kaj kun ŝaltita Javaskripto.

Priskribo de la projekto

En 2002 “Esperantic Studies Foundation”, ESF, iniciatis projekton por starigi elektronikan lingvosciencan tekstaron (korpuson) de Esperanto. ESF kontraktis kun Bertilo Wennergren por plani kaj efektivigi la unuan projektofazon, kiu pretiĝis fine de Aprilo 2003. Helpis al Bertilo Wennergren “Korpusa Konsila Komitato” konsistanta el Ilona Koutny, Jouko Lindstedt, Carlo Minnaja kaj Chris Gledhill.

La unua fazo koncentriĝis je kolektado kaj unuecigado de tiaj tekstoj, kiuj jam ekzistas en ia elektronika formo, precipe gravaj tekstoj Zamenhofaj kaj aliaj klasikaĵoj. Bertilo Wennergren elektis, prilaboris, normaligis kaj markis la tekstojn per la XML-a marklingvo TEI (Text Encoding Initiative). En Oktobro 2003 komenciĝis la dua fazo de la Tekstarprojekto. ESF kontraktis denove kun Bertilo Wennergren por plivastigi la Tekstaron, espereble ĝis 10 milionoj da vortoj. Al la Konsila Komitato aliĝis Mauro La Torre.

La tekstomaso nun (en Februaro 2009) ampleksas 4.675.412 vortojn.

Esploristoj, kiuj volas alimaniere utiligi la tekstaron, povas elŝuti la tekstaron (krom la protektitaj tekstoj) kaj prilabori ĝin laŭ siaj celoj kaj bezonoj. Rimarku, ke la elŝutaĵo enhavas nur XML-ajn dosierojn kaj DTD-dosieron, ne la ĉi-tiean serĉilon.

Novaĵoj en Aprilo 2008

Mi korektis tre multajn tajpajn kaj skanajn erarojn en pluraj el la tekstoj. Samtempe mi forigis multajn signojn "{" kaj "}", kiuj akcidente aperis en la tekstoj. Temas pri restaĵoj de provizoraj kodoj, kiuj mi antaŭe uzis en prilaborado de la tekstoj. La versinumero estas ŝanĝita al 2.3.

Novaĵoj en Februaro 2008

La serĉilo estas nun komplete reverkita. Ankaŭ la serĉointerfaco estas tralaborita kaj esence plene renovigita. Ĝi nun funkcias nur se Javaskripto estas aktivigita, kaj nur se la TTT-legilo estas sufiĉe moderna kaj laŭnorma. Se vi jam antaŭe uzis la serĉilon, tiam indas relegi la klarigojn. La specialaj serĉokodoj restas ĝenerale neŝanĝitaj, sed legu tamen pri la iomete ŝanĝita kodo \LI kaj pri la novaj kodoj \LD kaj \NE.

Mi forigis la neceson aliĝi kaj ensaluti por uzi la serĉilon. Por elŝuti la Tekstaron oni tamen devas rekte alskribi min: “bertilow” ĉe “gmail.com”.

En la teksto mi faris multegajn pliajn korektojn. Tial mi ŝanĝis la versinumeron al 2.2 (la dua eldono kun ankoraŭ pli da korektoj).

La tuta Tekstaro estas nun rekodita laŭ la nova versio 5 de la marklingvo TEI.

Pri la tekstomarkado

La Tekstaro konsistas el aro da dosieroj markitaj per la markolingvo TEI 5. Tia markado povas esti farata en diversaj manieroj, atentante diversajn flankojn de la teksta enhavo, je diversaj gradoj de detaleco. La nuna markado ne estas en definitive finita formo, sed povas esti plu prilaborata kaj riĉigata.

Unu grava flanko estas aparta markado de ne-Esperantaj partoj de la tekstoj (ekz. propraj nomoj ne-Esperantigitaj). Tia markado estas grandparte jam plenumita, sed ne ĉiuj partotekstoj enhavas tiajn markojn de fremdaj vortoj, kaj tiuj tekstoj, kiuj ilin ja havas, povas bezoni plian kompletigan prilaboradon de tiu markado. Sed jam nun eblas en la serĉoservo laŭbezone indiki, ke la serĉo ekskluzivu vortojn markitajn kiel fremdajn. Fremdaĵoj estas nun plejparte indikitaj nur kiel ne-Esperantaj, per atributo xml:lang="", sed multaj havas precizajn lingvoindikojn kiel xml:lang="en" (la Angla lingvo), xml:lang="la" (Latino) k.s. Ĉe propraj nomoj estas tamen ofte malfacile aŭ eĉ neeble decidi, al kiu preciza lingvo ili apartenas. Tial verŝajne ankaŭ estonte restos multaj tiaj neprecizaj lingvoindikoj.

La uzataj lingvokodoj sekvas la rekomendojn de TEI kaj W3C. Baze temas pri la ofte uzataj du-literaj lingvokodoj de la normo ISO 639. Jen ĉiuj lingvo-kodoj, kiuj nun aperas al la Tekstaro:

eo
Esperanto
(malplena indiko)
nespecifita lingvo alia ol Esperanto
zxx
= neniu lingvo (nelingva enhavo)
eo-x-praEsperanto
Pra-Esperanto
ar
la Araba lingvo
ca
la Kataluna lingvo
da
la Dana lingvo
de
la Germana lingvo
el
la Greka lingvo
en
la Angla lingvo
es
la Hispana lingvo
eu
la Eŭska lingvo
fa
la Persa lingvo
fi
la Finna lingvo
fr
la Franca lingvo
ga
la Irlanda lingvo
he
la Hebrea lingvo
hr
la Kroata lingvo
hu
la Hungara lingvo
io
Ido
it
la Itala lingvo
ja
la Japana lingvo
la
Latino
lt
la Litova Lingvo
lv
la Latva Lingvo
nl
la Nederlanda lingvo
no
la Norvega lingvo
pl
la Pola lingvo
pt
la Portugala lingvo
ru
la Rusa lingvo
sl
la Slovena lingvo
sr
la Serba lingvo
sv
la Sveda lingvo
vo
Volapuko
zh
la Ĉina lingvo

Normaligado

La tekstaro atentas precipe la lingvan enhavon de la tekstoj, kaj tial multaj eksterlingvaj (tipografiaj) detaloj de la diversfonta materialo estas unuecigitaj kaj normaligitaj. Uzo de citiloj kaj alispecaj tipografiaĵoj estas unuformigitaj pli-malpli laŭ tipografia stilo Angla. Tipografiaj indikoj de emfazado (kursiva teksto, grasa teksto, granda stilo k.s.) estas konservitaj en la formo de hi-markoj, kiuj plej ofte respondas al kursiva stilo, sed kiuj povas reprezenti ankaŭ alispecan elstarigadon en la originaj tekstoj. Informoj pri origina grasa teksto k.s. estas tamen plurloke konservitaj kiel atributoj ĉe la hi-markoj: rend="grase", rend="grande" k.t.p.

Korektado

Multaj evidentaj kaj nedubeblaj tajperaroj kaj preseraroj estas korektitaj (sen indiko pri tio). Eventualaj gramatikaj kaj alispecaj lingvaj eraroj tamen ne estas tuŝitaj.

Signorepertuaro

La originaj tekstoj prezentas tre riĉan repertuaron de signoj. Tie aperas ne nur la Esperantaj specialsignoj, sed ankaŭ Grekaj literoj, Hebreaj literoj kaj multaj aliaj specialaj signoj. La materialo estas kodita laŭ Unikodo por povi konservi ĉiujn tiujn signojn. Por legado de la tekstoj tial necesas sufiĉe modernaj programoj kun riĉe ekipitaj tiparoj.

Unikaj identigiloj

Ĉiu alineo de teksto, kaj ĉiu alia alinesimila tekstosekcio (ekz. linio de poemo), havas en la XML-kodo unikan identigilon (xml:id-atributon), kiu ebligas precizan indikadon de unuopaj tekstopecoj en referencoj al la tekstaro. Tiuj identigiloj estas jam uzataj en la serĉorezultoj de la ĉi-tiea serĉoservo.

Plua evoluigo

La tekstaro ankoraŭ estas relative modesta laŭ amplekso, kaj indas ĝin kreskigi per aldonado de plia materialo. Indas ankaŭ evoluigi la markadon de la tekstoj. Tio prezentas du precipajn evoluajn vojojn por la estonteco, kaj ankaŭ elekton, kiun el tiuj vojoj prioritati:

Aldonado de tekstoj

La nuna materialo forte emfazas la klasikajn tekstojn. Povas esti, ke ankoraŭ iuj Zamenhofaĵoj estas aldonindaj, kaj verŝajne indas ankaŭ aldoni plian materialon de aliaj gravaj klasikuloj. Tamen verŝajne al esploristoj pli utilos vasta aldonado de modernaj tekstoj. Jam estas en la kolektita materialo pluraj tekstoj modernaj, sed ili estas plejparte de relative polurita speco: literaturaj tekstoj kaj tekstoj korektitaj kaj unuformigitaj fare de redaktistoj. Se oni volas, ke la tekstaro prezentu vere aŭtentikan bildon de la tuta gamo de lingvouzo Esperanta, oni bezonas aldoni multon da tekstoj, kiuj prezentas pli spontanan lingvouzon de ordinaraj uzantoj. Da tia materialo jam ekzistas abundo en la Interreto, kaj ne estus tro malfacile aldoni tian materialon sen grandaj kostoj. En posta fazo certe estus tre utile aldoni ankaŭ transskribojn de parola uzo.

Lingvoscienca markado

En la Korpusa Konsila Komitato leviĝis voĉoj por aldoni detalan lingvosciencan markadon (distingadon de morfemoj, kaj eble ankaŭ klasadon de la morfemoj laŭ diversaj kategorioj). Tio ankoraŭ ne estas farita, precipe ĉar tio postulus tre grandan kaj temporaban laboron. Indas tamen pripensi, ĉu tia markado tamen povos esti aldonita, almenaŭ al parto de la materialo. Verŝajne indas unue perfektigi la markadon de fremdaj elementoj. Poste oni kredeble povus fari nemalgrandan parton de la lingvoscienca markado aŭtomate (per programoj). Necesus ankaŭ detala planado de la bezonataj lingvosciencaj markoj.

Evoluigado de la serĉoservo

Se la jam starigita serĉoservo montriĝos interesa por esploristoj, oni povos konsideri evoluigi ankaŭ tiun servon, ekz. per aldonado de diversaj specoj de serĉado, pliriĉigado de la haveblaj specialaj serĉosimboloj, k.s. Tio povus konsistigi trian vojon de evoluigado de la projekto.

Retumiloj

La serĉilo funkcias plej bone en la TTT-legilo Fajrovulpo kaj parencaj programoj (Geko-bazitaj). Mi rekomendas uzi Fajrovulpon. Mi provis zorgi, ke la serĉilo funkciu ankaŭ en versio 7 de la TTT-legilo Internet Explorer. Plejparte ĝi ŝajnas funkcii ankaŭ en versio 6 de Internet Explorer, sed pri tio estas nenia garantio. Kredeble oni ankaŭ povas uzi modernajn versiojn de Chrome, Opera kaj Safari.

La serĉilo funkcias nur se Javaskripto estas aktivigita en la TTT-legilo.

Kiel uzi la serĉilon?

La serĉilo troviĝas en la serĉilopaĝo.

En la tiea tekstokampo “Serĉesprimo” vi povas enskribi tekstopecon serĉotan. Kiam vi aktivigas la butonon “Serĉi” (aŭ simple premas la enigo-klavon), la serĉoprogramo trairas ĉiujn elektitajn tekstojn, kaj montras al vi la rezultajn trovojn kun iom da kunteksto.

Esperantajn literojn vi povas tajpi rekte (Unikode) aŭ per X-surogatoj: cx, gx... ux. Vi ankaŭ povas miksi rektan kaj X-surogatan skribojn.

Se vi volas uzi samtempe pli ol unu serĉesprimon, vi povas aldoni pliajn tekstokampojn per la pluso-butono maldekstre de la vorto “Serĉesprimo”. Kiam estas pli ol unu serĉesprimo, aperas ankaŭ minuso-butono, per kiu vi povas forigi la lastan el la serĉesprimoj. Ankaŭ eblas fermi serĉesprimon per aparta ferma “×”-simbolo en ties supra dekstra angulo. La unua serĉesprima tekstokampo tamen ne estas forigebla. (Antaŭe oni povis enskribi pli ol unu serĉesprimon en la sama tekstokampo, disigante la esprimojn per “_”-signo. Tiu eblo estas forigita.)

Per la suba falmenua elektilo vi povas elekti, ke la serĉo inkluzivu ankaŭ ne-Esperantan (“fremdan”) tekston (“Inkluzivi ankaŭ fremdaĵojn”), aŭ ke serĉo ignoru ĉiujn trafojn, kiuj aperas ene de fremdaĵoj, aŭ kiuj enhavas fremdaĵojn ene de si (“Ignori trafojn en/kun fremdaĵoj”). Ignorado de fremdaĵoj tamen funkcias nur por fremdaĵoj, kiuj estas eksplicite markitaj kiel tiaj en la Tekstaro. Multaj fremdaj vortoj bedaŭrinde ankoraŭ ne estas tiel markitaj. Normale vi kredeble volas, ke fremdaĵoj estu ignorataj.

Poste vi povas elekti kiom da signoj estu montrataj por ĉiu trafo (baza elekto: 100 signoj). Prezentiĝas kune kun ĉiu trafo la kunteksto antaŭa kaj posta, kaj tiu tuto ampleksos (proksimume) tiom da signoj, kiom vi elektos. La maksimumo estas 200 signoj (kaj la minimumo estas 10 signoj). La montrota kunteksto tamen ĉiam limiĝas al la koncerna alineo (aŭ alinesimila tekstoparto).

Per la sekva elektilo vi povas elekti la maksimuman nombron da trafoj, kiujn la serĉilo montru. La maksimumo estas 1000 trafoj.

Per la elektilo “Daŭrigi” vi povas elekti, ĉu daŭrigi la serĉon ankaŭ post atingo de la maksimumo da montrotaj trafoj. Se vi elektas, ke la serĉo pludaŭru, tiam post atingo de la maksimumo, la serĉilo raportas nur la nombron da trafoj, sed ne la efektivajn trafojn.

Per la elektilo “Atenti usklecon”, vi povas indiki, ĉu la serĉo atentu la diferencon inter majuskloj kaj minuskloj. Normale vi elektu, ke ĝi ja atentu pri uskleco, ĉar serĉado, kiu ne atentas pri uskleco okazas iom malrapide. Vidu ĉi-poste ĉe la specialaj simboloj | kaj [] alternativajn metodojn por serĉi kaj minusklojn kaj majusklojn.

Poste sekvas ses butonoj:

Post la butonoj aperas la nomoj de ĉiuj tekstoj de la Tekstaro kun po unu elektilo, kiun vi povas ŝalti aŭ malŝalti per musa alklako. Ankaŭ eblas simple alklaki la nomon de la teksto por ĝin elekti aŭ malelekti. La tekstoj estas ordigitaj laŭ la jaro, kiam la esperanta teksto estis kreita (verke aŭ traduke).

Se vi elektas unu tekston, kaj poste alklakas duan tekston tenante samtempe majuskligan klavon de la klavaro, tiam elektiĝas tiuj du tekstoj kaj ankaŭ ĉiuj tekstoj inter ili. Same eblas malelekti tutan vicon de tekstoj per teno de majuskliga klavo.

Maldekstre de ĉiu tekstoelektilo estas blua litero M. Se vi ĝin alklakas, aperas ligilo al HTML-a prezento de la tuta koncerna teksto, kaj alia ligilo al prezento de la baza XML-kodo de la tuta koncerna teksto.

Se vi musumas sur la nomo de teksto, la TTT-legilo montras detalajn informojn pri la koncerna teksto.

Ĉiuj elektoj, kiujn vi faras en la serĉila interfaco, estas memorataj pere de kuketoj (se via TTT-legilo akceptas uzon de kuketoj). Tial, kiam vi revenas al la serĉilo, reaperas aŭtomate ĉiuj elektoj, kiuj estis validaj, kiam vi laste vizitis la serĉilon.

Montrado de serĉorezultoj

La rezultoj de ĉiu serĉo aperas en aparta folio. Supre de la fenestro aperas langetoj, per kiuj vi povas elekti, kiun folion rigardi. Estas unu folio por la serĉilo mem, kaj poste po unu folio por ĉiu serĉorezulto. Aldone povas aperi ankaŭ folioj, kiuj montras tutajn tekstojn aŭ partojn de tekstoj. Ĉiun folion (krom tiu de la serĉilo) vi povas fermi per tiucela fermilo (kun la signo “×” en la koncerna langeto). Se vi volas fermi samtempe ĉiujn foliojn (krom tiu de la serĉilo), estas aparta tiucela fermilo plej dekstre de la langetoj.

Kiam nova serĉofolio malfermiĝas, aperas tie la serĉorezultoj. Se vi elektis pli ol unu tekston, la rezultoj aperas iom post iom. Vi povas en ajna momento interrompi la serĉadon per alklakado de la “Fini”-butono. Dum la serĉo daŭras, vi eĉ povas ŝanĝi al alia folio. La daŭranta serĉo ne interrompiĝas pro tio. Vi eĉ povas iri al la serĉilo, kaj tie komenci novan serĉon, kiu malfermiĝos en aparta folio. Pluraj serĉofolioj povas labori samtempe.

En serĉofolio ĉiu trafo estos montrata en aparta linio kun iom da teksto antaŭ la trafo, kaj iom da teksto post ĝi. La trafo mem estas markita ruĝe. Se vi alklakas la ruĝan trafotekston, aperas la tuta koncerna alineo (aŭ alia alinesimila tekstoparto). Tie ĉiu trafo estas markita flave. La alineo tiam aparte elŝutiĝas el la servilo, kio povas eble daŭri iomete. Post la alineo aperas butono por vidi ankoraŭ pli da kunteksto. Se vi alklakas tian butonon, malfermiĝas la koncerna teksto en aparta folio. Se la teksto estas tre longa, montriĝas tamen nur parto de ĝi. Iafoje temas pri tre grandaj partoj, alifoje temas pri mallonga eltiraĵo, depende de la strukturo kaj karaktero de la koncerna teksto. Se montriĝas nur parto de la teksto, estas tamen en tiu tekstofolio aparta butono por malfermi la tutan tekston en aparta fenestro. Se la teksto estas ekstreme granda, vi tiam tamen ricevas anstataŭe liston de ligiloj al ĉiuj partoj de la teksto.

Kiam vi rigardas teksto-folion, la responda serĉo-folio estas markita flave (se ĝi ankoraŭ estas malfermita).

Se vi provas rigardi trafon kun pli da kunteksto, kaj se jam estas malfermita teksto-folio kun la koncerna teksto, tiam reuziĝas tiu teksto-folio. Simile, se vi havas plurajn serĉojn, kaj provas el pli ol unu el ili malfermi la saman tekston, ankaŭ tiam reuziĝas la sama teksto-folio.

En serĉo-folio kun jam plenumita serĉo aperas butono nomata “Ŝanĝi” supre post la prezento de la uzitaj serĉoparametroj. Se vi alklakas tiun butonon, aperas la serĉilo kun la serĉoparametroj kaj teksto-elektoj de tiu serĉo, por ke vi povu reprilabori tiujn elektojn, kaj eble fari novan similan serĉon (kiu aperos en nova serĉo-folio).

Specialaj serĉosimboloj

En serĉesprimoj vi povas uzi diversajn specialajn simbolojn. Ĉi-sube estas klarigoj pri la plej gravaj el tiuj signoj, sed principe vi povas uzi la tutan repertuaron de regulesprimaj signoj de la programada lingvo Perlo. Atentu tamen, ke ĝusta uzado de komplikaj kunmetoj de tiaj signoj povas esti iom malfacila. Eble indas legi libron pri la regulesprimoj de Perlo. Vi povas krome uzi la specialajn simbolojn en la dua listo ĉi-sube (ili ne ekzistas en Perlo).

.
= iu ajn signo (aŭ spaceto). Ekz.: serĉo per la serĉesprimo s.no trovas “sano”, “seno”, “sino”, “sono” kaj “suno” (kaj ankaŭ ekz. “s no”). Por serĉi efektivan punkton, vi skribu \. (kun aldona malsuprenstreko).
+
= unu aŭ pli de la antaŭa signo (aŭ interkrampaĵo). Ekz. vat+o respondas al “vato” kaj “vatto”, kaj ankaŭ (principe) al “vattto”, “vatttto” k.t.p. Por serĉi efektivan pluso-signon, vi skribu \+.
*
= nul aŭ pli de la antaŭa signo (aŭ interkrampaĵo). Ekz. e*norma respondas al “norma” kaj “enorma”, kaj ankaŭ (principe) al “eenorma”, “eeenorma” k.t.p. Por serĉi efektivan steleton, vi skribu \*.
{}
= kiomo de la antaŭa signo (aŭ interkrampaĵo). Ekz. i{2,4} signifas 2 ĝis 4 sinsekvajn “i”-ojn (minimume 2, maksimume 4). [aeiou]{3} signifas 3 sinsekvajn vokalojn. \.{,3} signifas 0 ĝis 3 sinsekvajn punktojn. (la){2,} signifas 2 aŭ pli da sinsekvaj okazoj de la literduopo “la”. Por serĉi efektivajn kunigajn krampojn, vi skribu \{ kaj \}.
?
= nul aŭ unu de la antaŭa signo (aŭ interkrampaĵo). Ekz. t?iaj respondas al “tiaj” kaj “iaj” (la “t” estas libervola). lingvo-?lernado trafas kaj “lingvo-lernado” kaj “lingvolernado” (la dividostreko estas libervola). Por serĉi efektivan demandosignon, vi skribu \?.
+?, *?
Post +* aldona ? havas alian signifon. Tie ĝi kaŭzas, ke +* kondutas minimumeme (normale ili kondutas maksimumeme). Ekz. se en teksto aperas la vorto “demokratioj”, kaj vi serĉas per la esprimo d.+o, vi trovas “demokratio” (de “d” ĝis “o”, inter kiuj estas unu aŭ pli da signoj, el kiuj unu hazarde estas “o”). Sed se vi anstataŭe serĉas d.+?o, vi trovas nur “demo”. En la unua okazo + estas maksimumena, kaj prenas tiom da signoj, kiom ĝi entute povas trovi. En la dua okazo +? estas minimumema, kaj kontentiĝas tuj antaŭ la unua “o”.
()
= kunigo. Ekz. (mal)?granda respondas al “malgranda” kaj “granda”. La posta ? koncernas la tutan interkrampaĵon, kaj indikas, ke tiu estas libervola. (mal)+graŭ respondas al “malgraŭ” kaj “malmalgraŭ” (kaj ankaŭ al “malmalmalgraŭ” k.t.p.). Atentu, ke vi ĉiam devas uzi tiajn krampojn en paroj. Se vi skribas ekz. (la - mankas la finkrampo -, vi trovos nenion ajn. Por serĉi efektivajn kramposignojn, vi skribu \( kaj \).
[]
= signoklaso. Ekz. tr[eio] respondas al “tre”, “tri” kaj “tro”. [ĉĝĥĵŝ]ar trovas “ĉar”, “ĝar”, “ĥar”, “ĵar” kaj “ŝar”. \b[Ĉĉ]u\b trovas “Ĉu” kaj “ĉu”. \b\w+[aeiou]\b trovas ĉiujn vortojn, kiuj finiĝas per vokalo. [aeiou][aeiou]+ trovas du aŭ pli da sinsekvaj vokaloj (“aa“, “eui”, “iii” k.s.). Se vi skribas ^ komence de tia signoklaso, vi inversigas la signifon: [^aeiou] simbolas ĉiun ajn signon krom ĝuste “a”, “e”, “i”, “o” kaj “u”. [^ĥ] estas ĉiu ajn signo krom ĝuste “ĥ”. Atentu, ke ^ komence de serĉesprimo havas alian signifon. Atentu, ke vi ĉiam devas uzi tiajn krampojn en paroj. Se vi skribas ekz. [l (mankas la finkrampo), vi trovos nenion ajn. Por serĉi efektivajn rektajn kramposignojn, vi skribu \[ kaj \].
|
= . Ekz. (en|el)iri respondas al “eniri” kaj “eliri”. (A|a)ntaŭ trovas kaj “Antaŭ” kaj “antaŭ”. Por serĉi efektivan vertikal-signon, vi skribu \|.
\w
= unu vortsigno. Tio estas ĉiuj literoj (ne nur la Esperantaj), ĉiuj ciferoj (ne nur la Hind-Arabaj) kaj “_” (substrekosigno). Se vi volas serĉi nur Esperantajn literojn uzu \LI\LD.
\W
= unu ne-vorta signo. Tio estas la malo de \w.
\S
= ajna signo krom spaceto. Rimarku, ke la solaj spacosignoj, kiuj aperas en la tekstoj - kiam tiuj estas priserĉataj - estas ordinaraj intervortaj spacetoj, kaj ke nenie aperas duoblaj aŭ plioblaj spacetoj. \S do egalas al . minus spaceto. Rimarku ankaŭ, ke estu majuskla “S” en \S. (Minuskla \s signifas “ajna spacosigno”, sed tio ĉi tie praktike egalas al simpla spaceto, kaj tial \s ne estas bezonata ĉi tie.)
\b
= vortlimo. Ekz. \bsen donas trafojn nur kiam “sen” aperas ĉe la komenco de vorto. \bsen\b trafas nur la vorton “sen” (ne vortojn kiel “esence”, “senila” k.s.).
\B
= ne ĉe vortlimo (la malo de \b). Ekz. \Bsen trafas ĉiujn okazojn de “sen“, krom kiam “sen” aperas ĉe la komenco de vorto. \Bsen\B trafas ekz. la vorton “esenca”, sed ne la vorton “sen”.
\d
= cifero. Ekz. \d\d\d trafas ĉiujn okazojn de tri sinsekvaj ciferoj (“123”, “999”, “847” k.s.).
\D
= necifero (ĉia ajn signo krom cifero). Ekz. \D1 trafas “a1”, “ĉ1”, “-1” k.s.
^
= komenco de alineo (aŭ simila tekstosekcio). Ekz. ^Ĉu\b trafas la vorton “Ĉu”, kiam ĝi aperas tuj ĉe la komenco de alineo (aŭ simila tekstosekcio). Atentu, ke ^ ene de rektaj krampoj havas alian signifon.
$
= fino de alineo (aŭ simila tekstosekcio). Ekz. \.\.\.$ trafas tripunkton ĉe la fino de tekstosekcio.

Se vi iam volas serĉi la signon “\”, vi skribu \\.

Se vi iam volas serĉi efektivan literon “x”, kiu ne estu interpretata kiel surogato por supersigno, vi skribu \x\X. (En ordinara uzado de Perlo \x havas tute alian signifon.)

En la serĉataj tekstoj ekzistas nur unu speco de blanksigno, ordinara spaceto. Ne aperas taboj (tabeligaj signoj), nek linifinoj.

\FI
= iu ajn el la eblaj kombinoj de gramatikaj finaĵoj en Esperanto, t.e. “o”, “oj”, “on”, “ojn”, “a”, “aj”, “an”, “ajn”, “e”, “en”, “i”, “as”, “is”, “os”, “us”, “u”. Ekz. \binteres\FI trafas “intereso”, “intereson”, “interesojn”, “interesa”, “interesaj”, “interese”, “interesi”, “interesas” k.t.p. Tio signifas, ke ĝi trafas ĉiujn eblajn formojn de la radiko INTERES/. (Kunmetaĵojn kiel “seninteresa”, “interesiĝi” k.s., ĝi tamen ne trafas.)
\VF
= iuj ajn el la verbaj finaĵoj en Esperanto. Ekz. \binteres\VF trafas “interesi”, “interesas”, “interesis”, “interesos”, “interesus” kaj “interesu”.
\OF
= iuj ajn el la variantoj de O-finaĵo en Esperanto. Ekz. \binteres\OF trafas “intereso”, “intereson”, “interesoj” kaj “interesojn”.
\AF
= iuj ajn el la variantoj de A-finaĵo en Esperanto. Ekz. \binteres\AF trafas “interesa”, “interesan”, “interesaj” kaj “interesajn”.
\EF
= iuj ajn el la variantoj de E-finaĵo en Esperanto. Ekz. \bdekstr\EF trafas “dekstre” kaj “dekstren”.
\PA
= participa sufikso. Ekz. \bnask\PAa\b trafas “naskanta”, “naskinta”, “naskonta”, “naskata”, “naskita” kaj “naskota”. Se vi skribas anstataŭe \bnask\PA\FI la serĉo trovas ankaŭ “naskantaj”, “naskintan”, “naskontajn”, “naskitas”, “naskate” k.t.p.
\AP
= aktiva participa sufikso. Ekz. \bnask\APa\b trafas “naskanta”, “naskinta” kaj “naskonta”.
\PP
= pasiva participa sufikso. Ekz. \bnask\PPa\b trafas “naskata”, “naskita” kaj “naskota”.
\LI
= unu Esperanta litero, t.e. unu el “a-z”, “A-Z” kaj “ĉ Ĉ ĝ Ĝ ĥ Ĥ ĵ Ĵ ŝ Ŝ ŭ Ŭ”. Ekz. \b\LIia\b trafas “cia”, “dia”, “fia”, “ĝia”, “lia”, “mia”, “nia”, “pia”, “sia”, “ŝia”, “tia” kaj “via” (kaj eble ankoraŭ aliajn vortojn). \b\LI+m\b trovas ĉiujn vortojn, kiuj finiĝas per “m”, kaj kiuj cetere enhavas nur Esperantajn literojn.
\LD
= unu Esperanta litero aŭ dividostreko (“-”), t.e. la samo kiel \LI plus dividostreko. Ekz. \b\LDia\b trafas “cia”, “dia”, “fia”, “ĝia”, “lia”, “mia”, “nia”, “pia”, “sia”, “ŝia”, “tia”, “via” kaj ankaŭ “-ia” (kaj eble ankoraŭ aliajn vortojn). \b\LD+m\b trovas ĉiujn vortojn, kiuj finiĝas per “m”, kaj kiuj cetere enhavas nur Esperantajn literojn aŭ dividostrekojn.
\NE
= ne-Esperanta litero, t.e. la malo de \LI. Ekz. \b\NE\w+\b trafas vortojn, kiuj komenciĝas per ne-Esperanta litero.

Ĉiuj specialaj simboloj devas esti skribataj ekzakte tiel, kiel ili aperas ĉi-antaŭe. Atentu pri la uskleco: Estu \FI, \OF k.t.p, (ne \fi, \of aŭ simile).

Post ĉiu el la finaĵaj specialsimboloj, \FI, \VF, \OF, \AF, \EF, vortlimo estas subkomprenata. Ne necesas aldoni la vortliman simbolon \b.

La specialaj gramatikaj simboloj ne kapablas distingi inter veraj finaĵoj/sufiksoj kaj ŝajnaj. Tial ekz. \btr\FI trafas vortojn kiel “tro”, “tre” kaj “tri”, kvankam en ili “o”, “e” kaj “i” ne estas gramatikaj finaĵoj. Kaj \bkont\AP\AF\b trafas ankaŭ la vorton “kontanta”, kvankam tiu vorto ne estas participo.

Protektitaj tekstoj

Iuj tekstoj en la Tekstaro ne rajtas esti plene montrataj pro kopirajtaj kialoj. Vi povas tiujn tekstojn plene priserĉi, sed vi ne povas ilin plene legi ĉi tie. Se vi elektas tian tekston por montrado vi ricevas nur la bibliografiajn informojn pri la teksto.

Tia protekto de teksto estas montrata per krisigno ! (anstataŭ “M”) en la serĉopaĝo.

La Tekstaro de Esperanto ekzistas dank’ al subteno de ESF.
Donacu al ESF kaj subtenu indajn projektojn, kiel la Tekstaro!