Previous PageTable Of ContentsNext Page

LIU Haitao

Informadika Aspekto de Interlingvistiko

Zusammenfassung

Interlinguistik aus der Perspektive der Informationswissenschaft

Die Interlinguistik ist eine Wissenschaft, welche die internationale sprachliche Kommunikation aus vielen Blickwinkeln untersucht, darunter auch aus informationswissenschaftlichem. Dies schließt zwei Bereiche ein: die Anwendung sowohl der Informationstheorie als auch der Informatik auf interlinguale Kommunikation und Plansprachen. Ausgehend vom Kommunikationsmodell nach Shannon, werden verschiedene Modelle der interlingualen Kommunikation analysiert. Es wird gezeigt, dass das Modell, in dem eine Plansprache als allgemeine Zweitsprache einbezogen wird, aus informationswissenschaftlicher Sicht die rationalste und optimalste Lösung darstellt. Da Esperanto - soziolinguistisch betrachtet - in zunehmendem Maße Züge einer natürlichen Sprache entwickelt, können bei der Erforschung ihrer Funktion die Methoden der Informatik angewandt werden: Studien zur Buchstaben- und Wortfrequenz sowie automatischen Sprachverarbeitung werden im Artikel behandelt. Von den Buchstaben mit diakritischen Zeichen abgesehen, ist Esperanto für die Informationsverarbeitung besser geeignet als Ethnosprachen, wie auch in den Untersuchungen im Rahmen des Projektes DLT bezogen auf Syntax und Semantik bestätigt wurde. Trotzdem werden die Potenzen des Esperanto für die maschinelle Sprachverarbeitung nur in beschränktem Maße genutzt, zahlreiche Studien und Anwendungen sind durch fehlende finanzielle Mittel nicht tiefgründig genug oder in ihrem Umfang begrenzt. Theoretisch könnten Esperanto und Interlinguistik einen wesentlichen Beitrag zur Informationswissenschaft leisten. Damit dies möglich wird, sind jedoch intensivere und mehr praxisorientierte Untersuchungen erforderlich.

Abstract

Interlinguistics from an Informatics Perspective

Interlinguistics is a discipline which investigates international linguistic communication from many perspectives, including that of information science ("informatics"). This branch of the field applies information theory and computational linguistics to interlingual communication and planned languages. Beginning from the Shannon model, some models of interlingual communication are briefly analyzed. It is shown that the model in which a planned language is adopted as a common second language is the most rational and optimal solution in informatic terms. Since Esperanto has increasingly developed the sociolinguistic traits of a natural language, the techniques of computational linguistics can be used to investigate its function; studies of letter and word frequency and automated language processing are reviewed. With the exception of its accented letters, Esperanto is better adapted to information technology than natural languages, as confirmed in the DLT studies on its use in syntactic and semantic computation. Nonetheless, Esperanto's potential in natural language processing (NLP) has not yet been fully realised, and many of the existing studies and computing applications are superficial or limited in scope owing to the lack of financial support. Theoretically, Esperanto and interlinguistics could contribute substantially to computational linguistics, but more intensive and practically oriented studies are needed to achieve this goal.

0 Enkonduke

Se oni foliumas kelkajn verkojn pri interlingvistiko, ne estas malfacile trovi, ke la termino "interlingvistiko" ankoraŭ ne havas unuecan komprenon. Tio ne surprizas, sed estas karakterizaĵo de ĉiuj sciencoj ne sufiĉe maturiĝintaj.

En tiu ĉi artikolo ni volas sekvi la difinon de Detlev Blanke, kiu sendube estas unu el la plej aktivaj interlingvistoj en la nuntempa mondo: "La plej fekunda aliro al taŭga difino de interlingvistiko al mi ŝajnas la interdisciplina, multfaceta esploro de la problemo de la internacia lingva komunikado, kun ĉiuj siaj rimedoj, kondiĉoj, efikoj kaj kun ĉiuj aspektoj: politika, ekonomia, lingvistika, jura, sociologia, informadika, psikologia, kulturologia k.a." (Blanke 1998: 15). Kiel implikita en la titolo, nia fokuso estas la informadika aspekto de la tereno. Bedaŭrinde, la termino 'informadiko' estas dusenca en Esperanto, laŭ la difino de komputika vortaro: "Informadiko: 1. = komputiko. 2. = Scienco pri la racia traktado, precipe per aŭtomataj maŝinoj, de la informado rigardata kiel liverilo de la scioj kaj komunikaĵoj en teknika, ekonomika aŭ socia kampo." (Pokrovskij 1995: 143-144). Ĉu Blanke uzas la terminon laŭ la unua senco aŭ dua senco aŭ ambaŭ? Se ni retrospuras al pli frua difino de Blanke, ni eble vidos la veron: "Die Interlinguistik ist eine interdisziplinäre sprachwissenschaftliche Disziplin, welche die internationale sprachliche Kommunikation mit allen ihren politischen, ökomischen, linguistischen, informationstheoretischen und anderen Aspekten erforscht" (Blanke 1985: 293). Tiel ni sentas la evoluadon el 'informa teorio' al 'informadiko' en la difino. Laŭ privata komuniko de Detlev Blanke, 'informadiko' en lia difino havas du sencojn kiel en la menciita vortaro. 1 Post klarigo pri la dusenca termino 'informadiko', ni resumos kaj diskutos la temon el la du flankoj de informadiko. 2

1 Informika modelo de internacia lingva komunikado

Laŭ klasika modelo de komunikado (Shannon 1948), celante plifacilan diskuton, ni starigas la sekvan simpligitan bildon pri komunikado:

Laŭ la interŝanĝado de informo en informiko, 'komunikado' estas la proceduro, ke la sendanto (parolanto) kaj ricevanto (aŭskultanto) kune uzas la informon. Lingva komunikado nur estas speciala ekzemplo de informa komunikado. Tie ĉi 'sendanto' fariĝas 'parolanto', 'ricevanto' 'aŭskultanto'. Kompreneble, la roloj eble (inter)ŝanĝiĝas kun la evoluado de komunikado. Jen simpligita proceduro: je komenco la parolanto kodas la komunikotan informon (aŭ penson, enhavo 1) per iu lingvo, la kodita informo estas sendata al ricevanto (aŭskultanto) tra informa kanalo, la aŭskultanto ricevas la koditan informon, kiun poste ŝi/li dekodas. Teorie, la dekodita informo (enhavo 2) devas esti la sama kiel 'enhavo 1' ĉe la parolanto. Tamen tia idealo estas tre malfacile plenumita en la reala mondo. Ĉar la bruo ( noise) kaj aliaj faktoroj ege influas la efikon de komunikado, 'enhavo 1' nur similas al 'enhavo 2'. Se en iu situacio la dekodita informo estas sensignifa al la aŭkultanto, tiam tiu kutime retrokuplas la neklaraĵon al la parolanto por peti ŝin/lin denove ordigi-enkodi-sendi la informon. Ripetiĝas la proceduro, finfine oni plenumos la taskon de komunikado.

El la bildo ni povas vidi, ke se parolanto kaj aŭskultanto ne havas komunan kodon, evidente la aŭskultanto ne kapablas dekodi la koditan informon de la parolanto, tiel la aŭskultanto ne povas kompreni la ricevitan informon, tiam al ili ne eblas interkomuniki. En lingva komunikado, la menciita kodo ĝuste estas homa lingvo. Se ambaŭ partoprenantoj de komunikado ne havas komunan lingvon, la komunikado ne sukcesos. Kutime ni nomas tian situacion - ke ambaŭ partoprenantoj de komunikado ne havas komunan lingvon - internacia lingva komunikado (aŭ interlingva komunikado).

Ni klasifikas tian situacion al 4 tipoj, bilde ni analizas la avantaĝojn kaj malavantaĝojn de la kvar tipoj. En la bildoj, ni uzas la majusklojn A, B, C por indiki la partnerojn de komunikado, La, Lb, Lc por indiki la lingvojn de komunikado.

1.1 Ambaŭ partneroj de komunikado ne havas komunan lingvon

En tiu ĉi situacio A nur regas lingvon La, B nur Lb. A, B ne havas senperan komunikilon. Por interkomunikado oni devas enkonduki C, kiu regas samtempe La kaj Lb. C funkcias kiel ponto de komunikado inter A kaj B. Informike pro la eniro de C plilongiĝas la ĉeno de komunikado, tio ne estas bona por transdonado kaj komprenado de informo. Cetere, la lingva nivelo de C kaj kultura diferenco inter A kaj B ankaŭ malfaciligas la komunikadon. Tiu ĉi modelo facile kondukas al informperdo. Bedaŭrinde, la senefika modelo verŝajne estas la plej ofte vidita en interlingva komunikado. Kutime C estas homo, tamen teorie (kaj iom praktike) maŝino (komputilo) ankaŭ povas roli kiel C.

1.2 A(B) konas la lingvon de B(A)

Per klopodo de iu partnero nun ekzistas unu kanalo inter A kaj B. Tio estas antaŭkondiĉo de komunikado. Ĝenerale Lb estas la dua lingvo de A. Laŭ teorio pri lernado de la dua lingvo, la lingvo, kiun A regas, estas interlingvo (interlanguage) troviĝanta inter La kaj Lb. Tiel, konsiderante kaj lingvan kaj psikan kaj kulturan faktorojn, la komunikado ne estas plena kaj efika. Tamen kompare kun la modelo en 1.1, la okaza ofteco de miskompreno almenaŭ malgrandiĝas je 50%. Per pliboniĝo de lingva nivelo kaj retrokuplado, eblas plialtigi la efikon. Por plenumi tion, por flue paroli la lingvon de aliulo oni devas oferi siajn tempon kaj monon. Tipa reprezento de tiu ĉi modelo estas la uzado de la angla kiel komunikilo kun denaskaj anglaparolantoj. Ĝi estas norma modelo en nuntempa scienca kaj akademia interkomunikado. Estas interese kaj dube, ke tiu ĉi neegala modelo ekzistos eterne.

1.3 A konas Lb kaj B konas La

Teorie, kompare kun la antaŭaj du tipoj, la modelo havas la plej malgrandan malfacilaĵon en interlingva komunikado. Ĉar ambaŭ konas lingve kaj kulture unu la alian, la miskompreno de interkomunikado ege plimalmultiĝas. Bedaŭrinde, en la reala mondo la ideala situacio nur eble okazas ĉe tre malmultaj homoj. Plurlingva mondo signifas, ke oni devas bone regi multajn lingvojn, nur sub tia kondiĉo la modelo realiĝas. Al multaj homoj, krom kelkaj lingvistoj kaj laborantoj pri lingvoj, tio sendube estas revo. Kvankam post elspezo de multaj tempo kaj mono iuj homoj kapablas regi kelkajn lingvoj, ni ne forgesu, ke homaj tempo kaj forto estas limigitaj. Krome, por vivteni sin kaj progresigi la socion, ne sufiĉas nur lingvaj konoj. Se ni pli funde analizas la modelon, kiu eble nur havas signifon el vidpunktoj de kulturo kaj lingva homrajto, kutime A kaj B ne interkomunikas uzante samtempe du lingvojn, ili normale elektas unu ĉefan lingvon kiel komunikilon. Kompreneble, ni ne ekskludas tian eblon, ke A nur uzas La por sendi la informon, B nur Lb; se ili decidas fari tiel, ambaŭ nepre devas regi ĝisfunde la lingvon kaj kulturon de la alia flanko. Resume, la modelo estas efika, tamen ideala kaj malfacile plenumebla en realo.

Por pliefikigi la interlingvan komunikadon, laŭ la analizo de la supre menciitaj modeloj, ni proponas la kvaran tipon, kiu, teorie, estas pli racia kaj taŭga en internacia lingva komunikado.

1.4 Komunikado per komuna dua lingvo

Konsiderante la koston kaj malfacilon de fremdlingva lernado kaj emocian rilaton de la homo al sia denaska lingvo, ni enkondukas novan lingvon en la modelon. La esenco de tiu tria lingvo estas, ke dum interkomunikado ambaŭ partoprenantoj uzas komunan lingvon kiel komunikilon, kiu al ambaŭ estas la dua lingvo. Per la enkonduko de neŭtrala lingvo, lingva homrajto de ambaŭ flankoj estas gardita. Tiu ĉi estas egalrajta modelo. Teorie, iu ajn lingvo, kiu ne estas denaska lingvo de la partneroj en komunikado, povas roli kiel la komuna lingvo. Tamen, se ni volas disvastigi nian modelon al pli vasta mondo, ĉiuj nun funkciantaj etnolingvoj verŝajne ne taŭgas. La tria lingvo almenaŭ devas sufiĉi al jenaj kondiĉoj: 1. Ĝi estu kapabla esprimi ĉiujn pensojn kaj enhavojn, kiujn aliaj etnolingvoj povas esprimi. 2. Ĝi kontentigu la postulojn de aŭtomata lingva prilaborado. 3. Ĝi havu sufiĉajn rimedojn por esprimi estetikan lingvaĵon. 4. Post sia alpreno, ĝi ne influu la evoluadon normalan de etnolingvoj. 5. Ĝi estu egala al ĉiuj etnoj kaj nacioj, t.e. la lingvo devas esti neŭtrala. 6. Ĝi estu facile lernebla kaj uzebla. Certe, tiuj ĉi kondiĉoj ne estas kompletaj kaj ni povas daŭre longigi la liston. Ekz-e, Vĕra Barandovská-Frank faris 36 kriteriojn por taksi planlingvon (Barandovská-Frank 1995).

Ne estas malfacile konkludi, ke kiel tia lingvo povas funkcii nur planlingvo 3. Piron (1994), kiu komparas kaj analizas kelkajn tipojn de interlingva komunikado kaj konkludas same, konkrete uzas Esperanton kiel reprezentanton de planlingvoj.

Nun ni jam starigis la rilaton inter interlingva komunikado, interlingvistiko, planlingvo kaj Esperanto. Tial, en sekva pensoserio ni traktos la rilaton ilian al 'informiko' kaj 'komputiko'.

2 Informika analizo de planlingvo

Ĉar Esperanto estas la sola planlingvo, kiu evoluas plej multe laŭ ŝtupoj de ensociiĝo (Blanke 1985 kaj 2000), multaj fenomenoj ekzistas kaj estas observeblaj nur en Esperanto. Pri aliaj planlingvoj laŭ mia superrigardo ne ekzistas iuj statistikaĵoj. Tial nia analizo nur povas trakti Esperanton.

Ne estas facile komenci la diskuton pri informika analizo de planlingvo, ĉar ni ankoraŭ ne scias klare, kiaj taskoj estas en la tereno. Ĉina lingvisto, Chen Yuan provis konstrui la sciencon 'Yuyan Xinxixue' (Linguistic Informatics, Lingva Informiko). Li iam donis la provizoran difinon, ke 'Yuyan Xinxixue' 'esploras informan aspekton de natura kaj planita lingvoj, t.e. diversajn trajtojn de lingvo funkcianta kiel informa sistemo kun semantiko, uzante kvantan analizon kaj matematikan modelon de lingvo por priskribi kiel homo povas pli efike transdoni kaj kompreni la informon en parola kaj skriba lingvoj, kun la celo realigi ke maŝino anstataŭigas inteligentan laboron faritan de lingva agado.' (Chen Yuan 1998: 592) Konkrete ni povas vidi en lia libro, ke la plej grava kaj baza faktoro en lingva informiko estas ofteca statistiko de lingvaj elementoj, ekz. literoj, vortoj ... Tial ni konsideru komence tion.

2.1 Litera informiko en planlingvo (Esperanto)

Kutime oni unue kalkulas la entropion (informacion, informkvanton) en ĉiuj literoj de iu lingvo. Se ĉiuj literoj aperas laŭ egala probablo, tiel la informacio de litero povas esti kalkulata laŭ la sekva formulo: El = log2 N = 3.322  x  log10 N, tie ĉi N = litera nombro en iu lingvo. Ekzemple, la angla lingvo enhavas 26 literojn, tiel la informacio de ĉiu litero estas 4,7 bitoj. Same ni povas akiri la informacion de Esperanta litero, kiu estas 4,81 bitoj. Certe, tia kalkulado estas tre kruda, ĉar fakte ĉiuj literoj aperas ne laŭ egala ofteco. Se ni komparas la valorojn inter diversaj lingvoj, ni facile trovas ke la diferenco estas malgranda en lingvoj uzantaj alfabetojn latinan kaj cirilan. Estas malfacile, se oni intencas apartigi tiun aŭ alian lingvon laŭ tiu ĉi kriterio.

Literofteco estas alia utila kaj baza kriterio en lingva informiko. En Esperanto oni komencis fari tion jam en 1926 kaj 1933. Kompreneble pro limigo de teknika metodo, la fruaj statistikoj kaj analizoj estas malgrandaj kaj krudaj. Post apero de komputilo, same kiel en etnolingvoj, la statistika analizo de Esperantaj tekstoj ankaŭ evoluas ege antaŭen. Eĉ profesiaj lingvistoj eniras la vicon de homoj studantaj statistike Esperanton (Gledhill 1998). Pri literofteco de Esperanto, Ottó Haszpra, en sia kontribuo en tiu ĉi volumo detale resumas la pasintajn studojn de aliuloj pri literofteco. Li mem ankaŭ kalkulas la oftecojn de ĉiuj literoj per memstara tekstaro kun 496 196 literoj. Jen estas la rezulto:

a 12,59

i 9,36

e 8,99

o 8,80

n 7,79

l 6,24

r 5,97

s 5,91

t 5,50

k 4,22

u 3,36

m 3,06

d 3,04

p 2,82

j 2,71

v 1,87

g 1,28

b 1,15

f 1,09

c 0,85

z 0,52

h 0,50

ĝ 0,69

ĉ 0,67

ŭ 0,51

ŝ 0,35

ĵ 0,15

ĥ 0,01

Se ni komparas la rezulton kun tiuj de aliaj esperantologoj, la distribuo de ofteco estas simila. Rimarkindas, ke la sumo de la relativaj oftecoj de la ses supersignitaj literoj estas nur 2,38%, t.e. en tekstaro inter 42 literoj averaĝe troviĝas nur unu el la ĉapelitaj literoj! 4 Tiel, almenaŭ informike, la ĉapelitaj literoj en Esperanto estas senefikaj, same kiel iliaj gefratoj en etnolingvoj kun supersignitaj literoj. Tamen oni ne rajtas forigi la ĉapelitajn literojn, ĉar Esperanto jam funkcias iugrade kiel etnolingvo. Sed oni ĉiam pensas, se planlingvo estas racie kreita, kial oni ne povas ŝanĝi ĝin samracie? Ni ne povas klare respondi tion, ni nur esperas, ke Esperanto evoluas/os laŭ sia vojo.

Pri la literofteco, tie ĉi ni ankaŭ donas la statistikon de Gledhill (1998: 96), kiu estas profesia lingvisto pri korpusa lingvistiko (corpus linguistics):

a

d

ĝ

j

m

r

u

20 108

24 417

2 843

4 957

17 852

8 287

4 169

b

e

h

ĵ

n

s

ŭ

4 732

23 889

4 517

307

14 344

23 164

120

c

f

ĥ

k

o

ŝ

v

8 265

7 976

28

35 101

5 075

2 523

1 452

ĉ

g

i

l

p

t

z

5 945

6 951

9 507

36 815

26 311

15 295

373

Evidente la datumoj ege diferencas de tiuj de Haszpra, krome la supersignitaj literoj havas same malaltan lokon. Ni ne klare scias kial okazas tiaj diferencoj, certe Gledhill kaj Haszpra ne uzas saman tekstaron, tamen ni dubas ke tekstara tipo tiel grande influas la rezulton. 5

2.2 Vorta informiko en Esperanto

Multaj esperantologoj konsideras, ke morfologie Esperanto estas aglutina lingvo kiel la hungara kaj turka lingvoj (Wells 1989). Piron (1981) ankaŭ argumentas, ke Esperanto havas trajtojn de izolaj lingvoj. El mia vidpunkto (kiel denaska ĉino), almenaŭ lingvoinformike Esperanto iom ne similas al la ĉina (kiu estas tipa izola lingvo). Laŭaspekte ĝi estas lingvo kiel aliaj hindoeŭropaj lingvoj kun latina alfabeto. Estas konate, ke la ĉina uzas Hanzi-aron (ĉinajn signojn); ili surface funkcias verŝajne kiel literoj, tamen kun pli multa informacio en ĉiu Hanzio. Laŭ studo de Feng, ĉiu Hanzi-o (en skriba lingvo) havas mezume informacion de 9,65 bitoj (Feng 1991), tio estas preskaŭ la duoblo de informkvanto de Esperanta litero. Informike la literoj de hindoeŭropaj lingvoj certe ne egalas al la sistemo Hanzi en litera nivelo. Se vi interesiĝas pri ofteco de Hanzi-oj, vi nepre legu ampleksan verkon pri miloj da Hanzi-oj. Laŭ informacia analizo, Hanzi-o eble similas al morfemo, eĉ vorto, en Esperanto. Tamen, en nuntempa ĉinlingvo la plej ofte vidataj elementoj estas Ci (vortoj) kutime konsistantaj el du Hanzi-oj. Sendube tio estas interesa demando, sed tie ĉi ni ne povas diskuti ĝin pli multe. 6

Nun ni okupiĝu pri informika analizo de alia lingva ero - de la vorto. Kompare kun litera statistiko, vorta statistiko estas pli kompleksa kaj komputil-rilata. Ekde 1980, aperas kelkaj statistikoj pri vortofteco de Esperanto, ekz. Tišljar (1982; 24280 vortoj) kaj Dietze (1989; 31699 vortoj). Laŭ kriterio de korpusa lingvistiko kaj kompare al etnolingvaj tekstaroj, la tekstaro de Esperanto estas tro malgranda. La disvastiĝo de Interreto kaj komputiko faciligas la kolekton de tekstaro, tio ankaŭ al profesiaj lingvistoj pri korpusa lingvistiko donas la eblecon sin engaĝi pri la temo. Gledhill (1998/2000) estas tia frukto. La libro science, moderne kaj precize analizas kaj priskribas la strukturon de Esperanto. Pere de statistikaj datumoj, ni nun havas pli klaran kaj kvantan komprenon pri kelkaj longe debatitaj punktoj. Kvankam la celo de Gledhill ĉefe estas konstrui gramatikon de Esperanto surbaze de statistikaj datumoj, li krome ankaŭ donas al ni oftecon de almenaŭ la plej ofte uzitaj vortoj. La grandeco de lia tekstaro estas 1 563 500 vortoj (unua eldono 312 130). Laŭ la tekstaro en Esperanto 'averaĝa vortlongo' estas 4,9 literoj 7 kaj 'averaĝa frazlongo' estas 11,42 vortoj. El 'averaĝa vortlongo' kaj 'ofteco de 5 vokaloj', ni elkalkulas, ke averaĝa nombro da silaboj po vorto en Esperanto estas ĉ. 2,1 8. Jen estas eltiraĵo de la unuaj 30 vortoj en la listo de Gledhill (1998: 94):

Ordo/vorto

1 la

2 de

3 kaj

4 en

5 al

6 mi

7 estas

8 ne

9 por

10 li

11 ke

12 pri

13 vi

14 ni

15 sed

Ofteco

25528

12949

10046

5685

4472

4235

3804

3713

2925

2701

2633

2436

1918

1910

1908

%

(8.2%)

(4.1%)

(3.2%)

(1.8%)

(1.4%)

(1.4%)

(1.2%)

(1.2%)

(0.9%)

(0.9%)

(0.8%)

(0.8%)

(0.6%)

(0.6%)

(0.6%)

 

Ordo/vorto

16 estis

17 ili

18 kun

19 kiu

20 tiu

21 tio

22 el

23 pli

24 kiel

25 oni

26 ankaŭ

27 ĝi

28 per

29 sur

30 se

Ofteco

1675

1500

1394

1390

1330

1229

1207

1201

1193

1178

1026

986

936

856

843

%

(0.5%)

(0.5%)

(0.4%)

(0.4%)

(0.4%)

(0.4%)

(0.4%)

(0.4%)

(0.4%)

(0.4%)

(0.3%)

(0.3%)

(0.3%)

(0.3%)

(0.3%)

Se ni komparas la rezulton kun Dietze (1989) kaj Tišljar (1982), montriĝas ke la statistikoj estas baze similaj. Estas interese, ke preskaŭ ĉiuj vortoj en la listo estas funkciaj aŭ gramatikaj, tio esence kongruas kun situacio en etnolingvoj. Alidirite, ĉi-rilate Esperanto ne estas ĥimera lingvo. Alia funkcio de vorta statistiko estas doni la kvantan bazon por redakti lernolibron de lingvo. Helpe de la statistiko oni povas ekscii, kiuj estas la plej ofte uzitaj vortoj, kiujn la lernanto devas lerni unue. La statistiko montras, ke por kovri 80% de tekstoj en Esperanto oni bezonas ĉ. 563 vortojn (parola tekstaro, Tišljar 1982) kaj 749 vortojn (skriba tekstaro, Dietze 1989). Tamen en hindoeŭropaj lingvoj, por atingi saman procentaĵon oni bezonas 2000 vortojn. Per aliaj vortoj, en Esperanto oni bezonas lerni 4-oble aŭ 3-oble malpli da elementoj ol en aliaj lingvoj (etnolingvoj).

La statistiko de sintaksaj elementoj ankaŭ estas interesa temo en lingva informiko. En Esperanto oni ankoraŭ ne havas profundan studon pri tio. Gledhill (1998/2000) liveras al ni jenan datumon pri distribuo de vortaj klasoj: substantivoj 23,3%, adjektivoj 13,3%, pronomoj 7,5%, adverboj 5,2%, verboj 18,3%, funkciaj adverboj 4,2%, determinaj vortoj 9,8%, prepozicioj 12,6%, konjunkcioj 5,8%.

Mi ne povas trovi la datumojn ĉi-rilatajn pri Interlingue, Interlingua, Ido kaj aliaj semiplanlingvoj 9, preskaŭ ne ekzistas seriozaj modernaj analizoj. Sola escepto estas Lojban 10, pri kiu ekzistas kruda kaj aktuala statistiko de vorta ofteco. Kvankam la statistiko ne estas rigore scienca, la rezulto estas interesa. La plej oftaj vortoj en Lojban estas le, i, cu, mi, lo, se, la, do, be, li'u, lu, ko'a, loi, gi'e, noi, na, preskaŭ ĉiuj estas funkciaj vortoj aŭ pronomoj. Tio estas simila al Esperanto kaj etnolingvoj. Dank' al la struktura logikeco de Lojban, ties uzantoj faras nemalmultajn laborojn pri sintaksa kaj semantika parsado, fraza generado, gramatikaj reguloj por maŝino (komputilo). Ĝenerale la nivelo scienca de tiuj ĉi laboroj en Lojban ne estas alta.

Tamen mi ankaŭ devas atentigi, ke kompare kun etnolingvoj la statistika studo en Esperanto estas subevoluinta. Por klarigi iujn trajtojn de Esperanto, ni bezonas pli ampleksan tekstaron kaj multflankan analizon.

2.3 Aliaj flankoj de informiko en Esperanto

Se ni foliumas iun ajn verkaĵon dulingvan (en Esperanto kaj alia eŭropa lingvo), ni tuj sentas, ke la Esperanta estas pli mallonga. Alidire, Esperanto estas pli konciza ol siaj gefratoj kun simila vesto de latina litero. Dank' al grandkvante dulingvaj eldonaĵoj de AIS (Akademio Internacia de la Sciencoj, San Marino), ni povas facile trovi la esploreblajn tekstarojn. Informike kaj kvante Frank esploras la problemon, li konkludas :"ILo kodigas la semantikan informacion pli dense ol ekzemple la franca, la germana aŭ eĉ la angla lingvoj. Se oni tradukas el ILo en ĉi tiujn lingvojn, oni bezonas por la traduko (portugalen aŭ) germanen 22%n, por la traduko anglen 21%n, por la traduko francen 26%n." 11(Frank 1994: 114)

La koncizeco aŭ kompakteco de Esperanto, ankaŭ elstarigas ĝian utilon en komputika aplikado kaj informa transigo en komunika reto. Tiel Witkam (1985: 210) mencias sian motivon kial elekti Esperanton kiel interlingvon en la traduka sistemo DLT (Distributed Language Translation; Distribuita Lingvo-Tradukado) kiel sekvas: "ĝi estis bone difinita , normigita kaj por la transigo kompakta". Li klarigas pri kompakteco jene:

La averaĝa bitnombro por kodi IL-frazon devas esti malgranda. Ĉiu morfemo havas sian internan kodon, bitaron; la oftaj vortoj (funkciaj vortoj) mallongan, la leksikaj elementoj pli longan, ĝis 16 bitoj (samloke p. 217).

El la datumo en la supra parto, jam videblas ke oftaj funkciaj vortoj en Esperanto estas mallongaj. Interese estas, kiam mi komparas dulingvan (Esperantan kaj ĉinan) tekston, ke la ĉina estas pli mallonga ol la Esperanta. Tio certe rilatas al pli granda informacio en Hanzi. Tamen tro granda informacio (entropio) de Hanzi iugrade malhelpas la prilaboradon informikan de ĉina teksto (Feng 1991). Tiel Esperanto ĝuste troviĝas en taŭga mezo.

Oni ankaŭ ofte argumentas kial Esperanto estas taŭga kandidato kiel interlingvo kaj referenclingvo en perkomputila (aŭ perhoma) tradukado. Laŭ nia kompreno, krom la ĵus menciita kompakteco, ĝi ankaŭ havas avantaĝojn super etnolingvoj rilate la sekvaj du flankoj:

Tradukfidindeco: Frank (1986), kiu kvante studas tion, skribas: "La retraduko de la germana teksto el ILo kaj la Itala montras, ke Ilo taŭgas multe pli ol la Itala kiel referenclingvo, ĉar la kutima tradukmalfidindeco kaze de traduko inter la Germana kaj la Itala ŝajnas esti 30%-100% pli granda ol kaze de traduko inter la Germana kaj Ilo." Paech (1990) skize raportas la saman rezulton de siaj senkvantaj eksperimentoj pri referenclingvo, t.e. Esperanto havas minimuman informperdon en (re)tradukado. Referenclingvo povas funkcii kiel normiga lingvo, se la diverslingvaj variantoj de teksto ne koincidas. Se iu lingvo povas ludi la rolon bone, tiel same, ĝi ankaŭ taŭgas kiel interlingvo de multlingva maŝina traduko pli ol aliaj lingvoj. Ĉar ĝi povas ege malgrandigi la tradukmalfidindecon de la tradukado.

Sintaksa unusenceco: Laŭ strikta kriterio de parsado en komputila lingvistiko, eĉ Esperanta sintakso ankaŭ ne estas senambigua. Tamen, sendube el ĉiuj homaj lingvoj, Esperanta strukturo estas pli klara kaj senambigua, kiel nemalmultaj studoj kaj praktikoj jam pruvis, precipe la laboro de DLT. Ni rigardas nun unu tipan frazon kun ambigueco, kiu ofte estas donita kiel ekzemplo en dokumentoj de komputila lingvistiko:

En: They saw the girl with the binoculars (4 sencoj!)

De: Sie sahen das Mädchen mit dem Fernglas; Sie sägen das Mädchen mit dem Fernglas. (2 sencoj po frazo)

Eo: Ili vidis la knabinon per la binoklo; Ili vidis la knabinon kun la binoklo; Ili segas la knabinon per la binoklo; Ili segas la knabinon kun la binoklo.

Resume en informiko Esperanto estas normala lingvo kiel ekz. la angla, franca, germana kaj ĉina. Kelkflanke Esperanto estas pli unusenca sintakse ol etnolingvoj. Por ŝanĝi la avantaĝojn teoriajn en praktikajn, oni devas fari multe. Informike Esperanto rajtas vivi en informa epoko kune kun ĝiaj fratoj etnolingvaj.

3 Komputika aspekto de interlingvistiko

Komputila lingvistiko estas karakterizaĵo en nia epoko, ĉar komputilo ludas pli kaj pli gravan rolon en niaj socio kaj vivo. Tiel unue ni esploras la rilaton inter interlingvistiko kaj komputila lingvistiko. Se planlingva projekto povas ensociiĝi kaj fariĝi vere signifa homa lingvo, ĉiuflanke ĝi devas havi sian lokon en komputiko, kiel tion havas aliaj etnolingvoj. Ni vidos ĉu la sola planlingvo - Esperanto - konfirmos sian valoron ankaŭ en ĉi tereno.

3.1 Interlingvistiko kaj Komputila Lingvistiko

Interlingvistiko kaj planlingvoj frue havis kontakton kun kalkulado (kiun oni povus rigardi praavo de komputiko), eĉ kelkcent jarojn pli frue ol komputilo naskiĝis. Pri tio Liu (1999b) donas al ni laŭeble kompletan panoramon. En la artikolo Liu konklude opinias: (a) La pensoj de Descartes kaj Leibniz ne nur ege kontribuas al formiĝo de logiko, ili ankaŭ estas utilaj al semantika kalkulado de lingvo; (b) Peano faras pioniran esploron por matematika lingvistiko; li ne nur uzas la planlingvon LSF 12 por publikigi siajn atingojn, sed LSF ankaŭ fariĝis lia lingvomodelo; (c) Kiel Chomsky multfoje emfazis, Descartes influis la teorian formiĝon de la fama lingvisto; tio almenaŭ koncernas la penson de Descartes pri universala lingvo; (ĉ) Tesnière kreas la teorion de dependa gramatiko, kiu, principe, estas sola konkuranto de la teorio de Chomsky. En la teorio de Tesnière ni ne malfacile vidas la influon de interlingvistiko, precipe de Esperanta strukturo. Resume ni povas diri, ke interlingvistiko devas havi sian lokon en la esploro pri la kalkulado de homa lingvo.

La socio antaŭen evoluas, hodiaŭ homoj kutimas uzi la terminon 'komputiko' anstataŭ la antikva 'kalkulado'. En multaj terenoj komputilo vastigas homan laboron. Same ankaŭ en lingva komputiko. Tia evoluado ankaŭ naskas la novan sciencon - komputilan lingvistikon. Esence, ni komprenas ke komputila lingvistiko celas al imitado de homa lingvokapablo per la komputilo.

La fama germana lingvisto Humboldt asertis: "Sie (=lingvo) muß daher von endlichen Mitteln unendlichen Gebrauch machen" (1836/1997: 114). Tiun aserton evoluigas Chomsky, formante la influegan teorion de Genera Gramatiko (GG). El la multaj verkoj de Chomsky diverslandaj lingvistoj konas la diron de Humboldt en nova vesto "lingvo estas senlima uzado de lima rimedo". Kvankam la teorio de GG iagrade pruvas, ke la limaj regularoj povas generi la tutan lingvon, ankaŭ lingvistoj pridubas la pravecon de GG. Realisme, la plej bona ekzemplo por pruvi la aserton de Humboldt estas planlingvo, precipe la proceduro de ĝia evoluado kaj ensociiĝo. Ĉar planlingvo ĝuste naskiĝas kaj evoluadas el limaj reguloj kaj lingvaj materialoj.

Uzante la limajn regulojn kaj materialojn oni povas generi la senlimajn materialojn de homa lingvo. Se tio estas prava (kaj planlingva funkciado pruvas tion), el tio ni povas dedukti, ke la lingvo estas komputebla! Kompreneble, nur se lingvo estas komputebla, ni povas programi la lingvon en la komputilo. Tio ĉi estas senpera kontribuo de interlingvistiko al la fundamento de komputila lingvistiko.

Ni diris, ke interlingvistiko kaj komputila lingvistiko estas intime interligitaj. Indas kaj endas diskuti tiun rilaton. Ni notu la sekvajn kvar aspektojn:

A. Interlingvistiko kaj komputila lingvistiko same estas branĉoj de lingvistiko. Ambaŭ sciencoj devas pritrakti la problemon de lingva kreado.

B. La interlingvan barieron ni povas grupigi al du tipoj: Estas, unue, la natura kaj antikva bariero de interhoma komunikado; estas, due, artefarita kaj moderna problemo interlingva inter homo kaj maŝino (komputilo). Esence, komputila lingvistiko kaj interlingvistiko, ambaŭ naskiĝis por solvi la problemon (aŭ, pli precize, la barieron) de komunikado. Komputila lingvistiko rilatas al komunikado inter homo kaj maŝino, interlingvistiko al komunikado inter diverslingvaj homoj.

C. Laŭfunkcie, ambaŭ estas iloj de reprezentado kaj transigo de scio kaj informo, precipe en cirkonstanco de plurlingveco.

Ĉ. La planlingva demando estas kerno de interlingvistiko. Multaj interlingvistoj emfazas, ke la planlingvo estas konscie kreata de homoj kun la celo, faciligi aŭ optimumigi internacian lingvan komunikadon. Ĝi ĝenerale celas al tuta mondo. Tiel, planlingvo devas esti pli facile lernebla kaj uzebla ol naturaj lingvoj. Tio postulas, ke planlingvo estas regula kaj preciza, fakte tiuj du punktoj estas la bazaj trajtoj de planlingvo. La praktiko de komputila lingvistiko pruvas, ke regula kaj preciza lingvo povas esti pli bone komputata de maŝino.

D. Laŭ nuna tekniko, en ajna apliko de komputila lingvistiko la partopreno de homo necesas. Tiel la esploristo de komputila lingvistiko ne povas ne konsideri la postulon el ambaŭ flankoj (homo kaj maŝino). Tio denove fortigas la rilaton inter la du terenoj.

E. Iugrade la maniero de lingva prilaborado en komputila lingvistiko similas al la proceduro, kiam la homo uzas planlingvon. Por igi komputilon trakti lingvon, unue ni devas eltiri el lingvaj materialoj de naturaj lingvoj la regulojn gramatikajn kaj vortaron, laŭ kiuj komputilo kapable analizas kaj komprenas lingvon. En planlingvo, unue la kreanto de lingvo konstruas la kadron de gramatiko kaj vortaro laŭ iuj kriteroj kaj principoj, la uzanto devas sekvi tiujn regulojn kaj vortaron por kompreni kaj uzi la lingvaĵon aŭ skribi bezonitajn materialojn.

El la supre (kvankam supraĵe) prezentitaj punktoj, miaopinie, evidentiĝas, ke interlingvistiko celas al homo, komputila lingvistiko al komputilo, sed esence ambaŭ funkcias laŭ sama aŭ simila principaro. La rilato inter la du kampoj ne estas inkluda, temas pri rilato de du intimaj najbaraj sciencoj kun sama aŭ simila celo. Frank kaj Lánsky (1992: 9) emfazas la rilaton jene:

Die Interlinguistik kann also im Prinzip vollständig durch die Rechnerlinguistik erfaßt werden. Und umgekehrt: die Rechnerlinguistik kann nicht viel mehr als eine informatisch präzisierte Interlinguistik enthalten, nämlich nur noch die rechnergestützte Dokumentation und Sprachstatistik der Literaturen ethnischer Sprachen und der schon verwirklichten Literaturen von Plansprachen.

Alidire, komputila lingvistiko nur estas precizigo de interlingvistiko. Liu (1999a) skize diskutas la demandaron laŭ la sekvaj subtemoj: pazigrafio kaj ĝia apliko en komputiko, komputila semantiko, simpligita lingvo kaj ĝia komputado, logiko kaj lingva komputado, planlingvo kiel interlingvo de plurlingva komputsistemo k.t.p.

Planlingvoj estas utilaj al komputila lingvistiko, tion ne nur interlingvistoj asertas. Ni trovas la saman vidpunkton ankaŭ ĉe komputilaj lingvistoj ekster interlingvistiko, ekz. Hellwig (1980: 282) diris:

The artificial language (AL) should be more explicit and simpler than the natural language (NL), but both languages should resemble each other structurally as much as possible. AL should be more explicit than NL. It is a prerequisite for computer processing that the syntactic structure of the expressions be known. This means that the syntagmatic relationships between the constituents of a complex expression are represented formally and do not, as is often the case in NL, become clear only from the implicit features of the elements. A result of the expliciteness of the syntagmatic relationships is that there can be no structural ambiguities in AL.

El la citaĵo ni povas rimarki la trajtojn bezonatajn de komputila lingvistiko. Ili ege similas al jenaj de planlingvoj por homoj. Precipe la eksplicitaj markiloj (gramatikaj finaĵoj) de Esperanto utilas al komputila lingvistiko. Struktura senambigueco estas necesa por lingva perkomputila prilaborado. Kunligita kun la simileco inter AL kaj NL, estas ankaŭ la demando, ĉu la planlingvo devas esti naturalisma aŭ skemisma. Se tro granda natureco endanĝerigas la simplecon kaj eksplicitecon de la lingvo, eble skema tipo kun naturalisma trajto estas pli taŭga. Esperanto ĝuste estas tia lingvo. Se ĝustas, ke pure filozofia lingvo estas netaŭga, ĉu tio ankaŭ validas al logikaj interlingvoj kaj scia reprezentilo en komputila lingvistiko?

3.2 Planlingvo (Esperanto) kiel objekto kaj ilo de komputiko

Se vere ekzistas jam sociiĝinta planlingva projekto, ĉiuflanke ĝi devas funkcii en komputiko, kiel aliaj etnolingvoj. Normale lingvo povas fariĝi objekto kaj ilo de komputiko. En tiu ĉi parto ni vidos ĉu la sola planlingvo - Esperanto - konfirmos sian valoron ankaŭ en ĉi tereno.

3.2.1 Esperanto kiel objekto de komputiko

En la supra parto, ni iam menciis la aplikon de planlingva penso en kalkulado de lingvo antaŭ ol komputilo aperas. Kun la evoluado de komputiko ne malmultaj homoj, profesie aŭ amatore, ekaplikas komputikan teknikon ankaŭ al la Esperanta tereno. Ĉar en la okuloj de Esperanto-parolantoj la lingvo ne malsamas al aliaj lingvoj por homoj. Tiel ili provas fari la similajn studojn kiel en etnolingvoj. En multaj okazoj, la esploristoj celas pruvi la taŭgecon aŭ avantaĝon de Esperanto en komputiko kompare al etnolingvo. Tio estas interesa, ĉar en etnolingvo la esploroj pri lingva komputiko ofte ĉefe kontentige servas al la realaj bezonoj, kaj ne teoriajn valorojn. Fakte, oni certe ankaŭ esperas produkti iun aĵon por Esperantaj parolantoj. Tamen, ekonomie merkato celanta Esperantistojn vere tro malgrandas por signife profiti. Pro tio, ne estas malfacile kompreni, ke la studoj pri Esperanto ne estas tiel profundaj kiel jenaj pri etnolingvoj; la praktikaj sistemoj kutime nur estas eksperimentaj kaj skaletaj. Pri lingva statistiko per komputilo ni jam diskutis supre. Tie ĉi ni direktas nian atenton al aliaj aspektoj.

En parola rekono kaj sintezo, Sherwood ekspermentis kadre de PLATO-sistemo por perkomputila instruado. Li pruvas, ke "Esperanto aparte facile sintezeblas pro fonetika skribo, regula emfazo kaj plejofta manko de unu-silabaj vortoj" (Sherwood 1985: 52), kaj la studo pri Esperanta sintezo ankaŭ havas signifon por sintezo de aliaj lingvoj, kiel li skribas: "Estas tre utile komenci per Esperanto, pro la simpleco de la sonsistemo kaj ortografio." (Sherwood 1985: 54). Esploristoj el Hungario eĉ sukcese surmerkatigas la produkton ESPAROL (Koutny/Olaszy 1994). Ŝajnas al mi, ke la parola sintezo estas unu el la plej facilaj terenoj en lingva komputiko. Pro tio ne mirigas, ke ĉi-flanke ankaŭ Esperanto sukcesas. La atingitaj rezultoj almenaŭ ne estas pli malgrandaj ol jenaj pri etnolingvoj. Kompare kun sintezo, la rekono de parolo estas pli problema. En etnolingvoj same kiel en Esperanto, ni ne trovis iun ajn signifan atingon pri Esperanto en ĉi tereno.

Perkomputila tradukado (MT) estas la plej frua apliko de komputilo en lingva tereno. Fakte, la esploro pri la tereno preskaŭ inkludas ĉiujn subterenojn de lingva komputiko, se ni konsideras parolan tradukadon per internacia telefona reto. Eble, en MT ankaŭ amasiĝas la plej multaj esploristoj pri lingva komputiko. Tiun fakton konfirmas la situacio, ke ni trovas la plej riĉan materialon pri MT ankaŭ en Esperanto. Laŭ mia nekompleta statistiko, oni faris almenaŭ program(et)on por traduki inter Esperanto kaj la germana, la ĉina, la hungara, la nederlanda, la japana, la angla. Ni devas agnoski, ke tiuj ĉi sistemoj estas malgrandaj kaj eksperimentaj. Se ni konsideras, ke jam ekzistas iuj praktikaj MT-sistemoj inter etnolingvoj, Esperanto ĉiflanke estas subevoluinta. El la unua ĉapitro de ĉi artikolo, ni jam scias, ke MT iugrade kapable anstataŭas homojn por forigi la barieron de interlingva komunikado. Per la komparado de kelkaj modeloj ni jam vidis, ke la modelo uzanta Esperanton kiel komunan duan lingvon estas la plej racia kaj efika. Esperanto-parolantoj mem jam havas la plej bonan ilon por interlingva komunikado. Tial ili ne plu urĝe bezonas MT kiel helpilon, ili esploras tion denove ĉefe por pruvi ion. Alidirite ni ne devas simple taksi la kvaliton de MT Esperanta laŭ la sistemo mem, kaj atente vidas ĝian utilon por ĝenerala MT-esplorado.

Sendube plenaŭtomata MT ĉiam estas revo de homaro por solvi la problemon de plurlingva komunikado. Tamen la tasko estas vere malfacila laŭ opinioj de fakuloj la plenaŭtomata MT eble ne realiĝos, almenaŭ ne en antaŭvidebla futuro. Tiel por la uzantoj de la lingvo eble la ampleksa elektronika vortaro pli utilas. Bedaŭrinde tiurilate Esperanto ege postrestas etnolingvojn.

La supersignitaj literoj iam malhelpas la tekstprilaboradon de Esperanta teksto. Tial iuj faris/as tekstprilaborajn programojn por Esperanto, el kiuj germana 'Ĉapelilo' elstaras. Bedaŭrinde, same pro financa kaŭzo tiuj programaroj ne kapablas pluevolui kiel jenaj en etnolingvoj. Kompreneble, la hodiaŭa tekniko jam permesas ĝuste ĉapeligi literojn per normalaj tekstprilaboraj programoj kaj diversaj tiparoj, ekz. Latina-3 kaj Unikodo; ankaŭ ekzistas specialaj programetoj por enigi la supersignitajn literojn de Esperanto. Pere de subteno de tiuj ĉi tiparoj kaj programetoj ne plu estas malfacile produkti la literojn kun supersignoj en moderna ilo. Ekz. mi nun artikolas per Angla MS Word 97 kaj Unikoda tiparo kaj Ek Programeto (tion oni povas akiri en la retadreso http://www.esperanto.mv.ru) 13. Certe ni ankaŭ povas anstataŭigi Word 97 per aliaj programaroj kiel WordPerfect aŭ WordPro. 14 Tamen estas utile, se oni povas havi vortaregon elektronikan por literum-korekti la tekston, la vortaro devas kapabli bone kunlabori kun tekstprilaboraj programaroj.

3.2.2 Esperanto kiel ilo de komputiko

Kiel ĵus dirite, studoj aŭ sistemoj pri Esperanto estas modestaj kompare kun jenaj pri etnaj lingvoj pro la fakto, ke la Esperanta socio estas diaspora kaj malgranda, pro senprofiteco de la studoj; kaj pro la manko de financaj rimedoj studo aŭ sistemo pri Esperanto estas modestaj kompare kun jenaj pri etnolingvo. Krome multaj esploristoj pri Esperanto sekvas nur la celon pruvi, kaj ne praktiki. Tial, strikte dirite, en tiaj situacioj Esperanto ne plu estas objekto de esploro, sed fariĝas ilo aŭ rimedo. Se tio estas ĝusta, kiel kelkaj jam konfirmis, Esperanto ne plu funkcias kiel objekto de lingva komputiko, sed estas signifa kaj utila al ĝenerala evoluo de lingva komputiko.

Programadaj lingvoj estas artefaritaj lingvoj, kiuj celas al komunikado inter komputilo kaj homoj. Pro konataj kaŭzoj ili estas kreataj plejparte surbaze de la angla lingvo. Estas interese, ke oni ankaŭ pruvis la utilecon de Esperanto en ĉi tereno per la lingvo 'PROGRESO' (Münnich 1975).

Lingva modelo formalisma estas grava fundamento en prilingva komputiko. Ouyang (1985) prezentas al ni utilan modelon surbaze de Esperanto por ĉinalingva komputiko. Lia modelo celas "studi konceptajn strukturojn sur la bazo de komuneco", tiel li decidas uzi "esperantan radikaron kiel 'vort-kernojn' por konstrui semantike rilatan modelon, en kiu la vort-kernoj ludas la rolon de la simboloj de la signifoj de diversaj ĉinaj vortoj". Ouyang bone profitas el la universaleco de Esperanto. Tio memorigas nin pri Wüster (1936) kaj Tesnière (1959), kiuj ankaŭ iam uzis tian universalecon (kvankam sintaksan) en siaj laboroj (terminologio kaj dependa gramatiko).

Komputiko eble estas la plej rapide evoluanta scienco kaj tekniko en la historio de la homaro, tiel oni bezonas la terminaron por precize esprimi nociojn kaj interŝanĝi informojn pri tio. Vidante la rapide kaj daŭre aperantajn novajn terminarojn en etnolingvoj, ĉefe en la angla, mi ofte sentas la mankon en Esperanto. Dank' al klopodoj de multaj fakuloj, ni ankaŭ povas disponi iujn terminarojn aŭ vortarojn pri komputiko en Esperanto, el kiuj jena de Pokrovskij (1995) estas la plej bona miaopinie. Same ni ankaŭ devas klarvide rimarki ke kompare kun etnolingvoj niaj vortaroj estas ankoraŭ malpli ampleksaj kaj iom malaktualaj. Ŝajnas al mi, ke disvastiĝo de Interreto eble utilos al ni pli rapide aktualigi niajn vortarojn per pli enspeza maniero.

Sendube, la plej granda kaj ampleksa projekto pri Esperanta komputiko estas DLT (1984-1990) ĉe la nederlanda softvara firmao BSO. Ĝi celis fariĝi duonaŭtomata maŝina tradukada sistemo funkcianta en komputila reto, tio estas tre avangarda penso eĉ laŭ hodiaŭa starpunkto. La projekto ampleksis ĉ. 50 homjarojn da laboro. En DLT oni uzis Esperanton kiel interlingvon. Ĉar Esperanto kombinas en sia korpo du ecojn: Ĝi estas pli klara ol etnolingvoj sintakse kaj vortfarade kaj ĝi estas samtempe aŭtonoma. 15 Ne necesas multe kaj detale pridiskuti DLT tie ĉi, ĉar DLT mem estas unu el la plej bone dokumentitaj projektoj pri lingva komputiko, oni publikigis serion da libroj (6 volumoj) en faka eldonejo. Eble utilas atentigi interlingvistojn pri la fakto, ke oni iomete modifis Esperanton por gardi la sintaksan unusencecon de la lingvo. Reale, estis nur du modifoj esencaj: La interlingvo de DLT uzis signojn de morfemlimoj, tiel malebligante misanalizojn de vortoj kiel la famkonataj "kol'eg'o" -"koleg'o", "sen'dat'a" - "send'at'a" ktp. (Fakte per tio oni nur reiras al la esprima maniero en la Unua Libro [1887] de Zamenhof). Ĉi tiun regulon akompanis iom da fajnpolurado de la esperanta morfemsistemo, ekz. necesis difini la tabelvortojn "kiu", "tiu" ktp. kiel unumorfemajn, ĉar ilia fina "-u" ja ne estas la imperativa "-u". Oni povas uzi ĉi tiun liberecon de difinado ankaŭ por ripari kelkajn perturbojn de la vortfarado, ekz. difinante la kunmetaĵon "terpom'" kiel unumorfeman, ĉar evidente ne temas pri ia tera speco de pomo, sed pri pruntita metaforo maltipa por la esperanta vortfarado (Schubert 1996). La sintaksa unusenceco estas grava en DLT, per tio oni povas eviti amason da misanalizoj de frazstrukturoj, kiujn homo kutime apenaŭ rimarkas, sed kiuj ja ege malhelpas la aŭtomatan analizon de frazoj.

DLT ne nur estis signifa atingaĵo en lingva komputiko ĝenerale kaj MT speciale. Ĝi ankaŭ multe kontribuis al interlingvistiko kaj esperantologio. Miaopinie la kontribuo iugrade kompareblas kun jena de IALA al interlingvistiko. Rezulte de DLT ni ne nur havas la libron redaktitan de Schubert (1989), kiu jam fariĝas ofte citita interlingvistika dokumento en la angla. Konkrete ni ankaŭ havas kompletan gramatikon de Esperanto, kiu celas prilaboradon per komputilo (Schubert 1989). DLT ankaŭ praktike pruvis la taŭgecon de Esperanto kiel interlingvo (ilo) kaj objekto de MT kaj lingva komputiko.

4 Konklude

Komencante per la modelo de Shannon, ni skize analizis kelkajn modelojn de interlingva komunikado. Informike la modelo, alpreni planlingvon kiel komunan duan lingvon, estas racia kaj optimumiga. Sociolingvistike Esperanto multe evoluas proksimiĝante al vera lingvo. Multaj studoj pruvas informike kaj komputike ke Esperanto estas normala lingvo kiel aliaj homaj lingvoj. Atentindas, ke aliflanke Esperanto eĉ superas etnolingvojn, se ni forgesas la senefikajn ĉapelojn. La laboroj kaj studoj por DLT konfirmas la valoron de Esperanto en sintaksa kaj semantika komputikoj. Tamen, tio ne signifas ke Esperanto estas ĉiopova. Pro manko de financa(j) rimedo(j), multaj studoj paperaj kaj sistemoj elektronikaj estas nefundaj kaj malgrandaj. Teorie Esperanto kaj interlingvistiko utilas al informadiko de lingvo, ni bezonas plimultajn praktikojn por realigi la latentan valoron de la lingvo.

Resume ni konsideru ke la informadika aspekto de interlingvistiko inkludas du flankojn: informikan (informteorian) aspekton de interlingva komunikado kaj planlingvo kaj la komputikan aspekton de planlingvo kaj interlingva komunikado. Estas evidente, ke maŝina tradukado inter pluraj lingvoj per uzo de planlingvo kiel interlingvo estas tre rimarkinda, ĉar ĝi kombinas en si kelkajn el la menciitaj temoj. Esence, kiel estis traktite, maŝina tradukado havas celon similan al planlingvo. Praktiko pruvas, ke sub la nunaj kondiĉoj teknikaj, teoriaj kaj sociaj, nek MT nek planlingvo unuope kapablas solvi la kompleksan problemon, kvankam planlingvo sola povas fari tion pli facile ol MT. Nun ni volonte pruntas la vortojn, per kiuj Petr Sgall (1988: 248) iam finis sian resumon pri MT dum konferenco organizita de la DLT grupo, por fini per ili ankaŭ mian artikolon: "Moreover, if MT is not successful as a whole, then the Babylonian confusion of language can still be overcome, if all of us learn Esperanto, which can be recommended in any case".

Noto: Mark Fettes, Sabine Fiedler, Dan Maxwell kaj Blazio Vaha helpis min multe en la verkado de tiu ĉi artikolo, mi kore dankas ilin. Mi ankaŭ dankas Feng Zhiwei pro sia helpo rilate komputilan lingvistikon.

Bibliografio

Barandovská-Frank, Vera (1995): La latina kiel interlingvo/Latein als internationale Sprache . Praha: Akademio Libroservo, 193 p.

Blanke, Detlev (1985): Internationale Plansprachen. Eine Einführung. Berlin: Akademie-Verlag, 408 p.

- (1998): La aktuala stato de interlingvistiko. En: Carlevaro, Tazio (Red.): Domaine de la recherche en linguistique appliquee. Bellinzona: Dubois, 6-90.

- (2001/aperonta): "Vom Entwurf zur Sprache." En: Schubert, Klaus (Red.): Planned Languages: From Concept to Reality. Brussel: Hogeschool voor Wetenschap en Kunst, 37-89 - Paralele en: Interface. Journal of Applied Linguistics / Tijdschrift voor Toegepaste Linguïstik 15 (1) (2000), 37-89.

Brown, James Cooke (1960): "Loglan." En: Scientific American 202 (6), 53-63.

Chen Yuan (1998): Yuanyanxue Lunzhu (`Verkaro de Lingvistiko'), vol. III. Shenyang: Liaoning Jiaoyu Chubanshe. 917 p.

Dietze, Joachim (1989): Frequenzwörterbuch Esperanto-Deutsch: Die meistgebrauchten Wurzeln der Esperanto-Literatursprache (Wissenschaftliche Beiträge F 96). Halle (Saale): Martin-Luther-Universität Halle-Wittenberg, 67 S.

Feng Zhiwei (1991): Shuxue he yuyan (`Matematiko kaj Lingvo'). Changsha: Hunan Jiaoyu Chubanshe. 265 p.

Frank, Helmar (1986): "Übersetzungsuntreue und Referenzsprache". In: Grkg/Humankybernetik 27(4) 177-183.

- (1994): "Kibernetiko kaj la Internacia Lingvo". En: Maxwell, Dan et al. (Red.): Lingvo kaj kibernetiko . Prag : KAVA-PECH, 113-117.

Frank, Helmar/Lánsky, M. (1992) ,,Eine rechnerunterstützte Wortbildungsgrammatik auf der Grundlage der Ideen von Komensky, Zamenhof und de Saussure". En: Grkg/Humankybernetik 33/1, 5-19.

Gledhill, Christopher (1998): The Grammar of Esperanto. A corpus-based description. München: Lincom Europa, 151 p.

Hellwig, Peter (1980): "PLAIN - A Program System for Dependency Analysis and for Simulating Natural Language Inference". En: Leonard Bolc (Red.): Representation and Processing of Natural Language. Munich/Vienna/London: Hanser & Macmillan, 271-376.

Humboldt, Wilhelm von (1836/1997). Über die Verschiedenheit des menschlichen Sprachbaues und ihren Einfluß auf die geistige Entwicklung des Menschengeschlechts. (Ĉinlingva Traduko, Yao Xiaoping). Beijing: Shangwu.

Koutny, Ilona/Olaszy, Gabor (1994): "Fonetika fono kaj realigo de esperantlingva elektronika parolgenero." En: Maitzen, Michael/Mayer, Herbert/Tišljar, Zlatko (Red.): Aktoj de Internacia Scienca Simpozio "Esperanto - 100-Jara". Wien/Maribor: Pro Esperanto/Inter-kulturo, 187-202.

Liu, Haitao (1993): "Ziranyuyanchuli zhongde meijieyu wenti" (`Interlingvo en perkomputila lingva prilaborado'). In: Information Science 14(2), 54-60.

- (1996): "Juyuhanyu de jihuyuyan jiangou" (`Planlingvoj surbaze de ĉinlingvo'). In: Chinese Character Culture (Hanzi Wenhua) 4, 7-12.

- (1999a): "Aplikata interlingvistiko". En: Grkg/Humankybernetik 40 (1), 31-41.

- (1999b): "La kalkulado de lingvo - vide el interlingvistiko". En: Grkg/Humankybernetik 40 (4), 160-170.

Minnaja, Carlo (2000): "Statistika analizo de paroladoj de Ivo Lapenna". En: GrKG/Humankybernetik 41 (2), 83-90.

Münnich, Antal/Arnold, E./Hilgers, R. (1975): Prinzipen der Programmiersprache PROGRESO. Paderborn: Institut für Kybernetische Pädagogik.

Ouyang Wendao (1985): "Enkonduko de 5-dimensia modelo de ĉin-lingva informo kaj algoritmaj studoj pri vort-identigo, fraz-analizo kaj semantika prezentado". En: Koutny Ilona (Red.): Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro, 145-152.

Paech, K.-E. (1990): "Noto pri fruaj interlingvistikaj eksperimentoj en München." En: GrKG/Humankybernetik 31 (1), 29-30.

Piron, Claude (1981): Esperanto: European or Asiatic Language?. Rotterdam: UEA, 31 p.

- (1994): Le défi des langues: Du gâchis au bon sens. Paris: Editions L'Harmattan, 334 p.

Pokrovskij, Sergio (1995): Komputika Leksikono. Jekaterinburg: Sezonoj. 365 p.

Sakaguchi, Alicja. (1998): Interlinguistik. Gegenstand, Ziele, Aufgaben, Methoden. Frankfurt/M: Lang, 492 p.

Schubert, Klaus (1989): "A Dependency Syntax of Esperanto". En: Maxwell, Dan/Schubert, Klaus (Red.): Metataxis in Practice. Dependency Syntax for Multilingual Machine Translation. Dordrecht/Providence: Foris, 207-232.

- (1992): "Esperanto as an Intermediate Language for Machine Translation". En: Newton, John (Red.): Computers in Translation. London/New York: Routledge, 78-95

- (1996): DLT - faktoj pri finita projekto.
[ http://www.esperantic.org/ced/DLT.htm] .

Schubert, Klaus (1989) (Red.): Interlinguistics: Aspects of the science of planned languages. Berlin/New York: Mouton de Gruyter. 348 p.

Sgall, Petr (1988): "On some Results of the Conference". En: Maxwell, Dan/Schubert, Klaus/Witkam, Toon (Red.): New Directions in Machine Translation. Dordrecht/Providence: Foris, 243-249.

Shannon, Claude E. (1948): "A Mathematical Theory of Communication". En: The Bell System Technical Journal Vol. 27, 379-423, 623-656.

Sherwood, Bruce (1985): "Sintezo de Esperanto kaj de diversaj naturaj lingvoj." En: Koutny Ilona (Red.): Perkomputila Tekstoprilaboro. Budapest: Scienca Eldona Centro. 49-56.

Tesnière, Lucien (1959). Éléments de syntaxe structurale. Paris: Editions Klincksieck. 674 p.

Ti_ljar, Zlatko (1982): "Pri la morfemfrekvencaro en la parolata Internacia Lingvo". En: Grkg/Humankybernetik 23(1), 40-47.

Wells, John C. (1989): Lingvistikaj Aspektoj de Esperanto. (la dua eldono). Rotterdam: UEA/CED. 76 p.

Witkam, A.P.M. (1985): "Distribuita Lingvo-Tradukado". En: Koutny, Ilona (Red.): Perkomputila Tekstoprilaboro . Budapest: Scienca Eldona Centro. 207-228.

Wüster, Eugen (1936): Konturoj de la lingvonormigo en la tekniko. Budapest: Literatura Mondo, 123 p.

1 En retpoŝta mesaĝo (2000-01-28) al mi, Blanke skribis: `mi fakte celas ambaŭ a) Informations/theorie, - wissenschaft (teorio pri strukturo kaj perado de informoj) kaj b) Informatik (computer science).'

2 Por pli klara esprimo, ni uzos la terminojn `informiko' (informa teorio, information theory ) kaj `komputiko' (computer science) kiel esprimojn de la du sencoj de `informadiko'=.

3 Pri tio kio estas planlingvo, interlingvistoj jam havas komunan opinion. Laŭ Blanke (1985: 53), planlingvo estas "eine von einzelnen Personen oder Personengruppen nach bestimmten Kriterien bewußt geschaffene Sprache zum Zwecke der Erleichterung der internationalen sprachlichen Kommunikation" . Sakaguchi (1998: 58) difinas ĝin jene: "ein System, das zur Optimierung internationaler Kommunikation mit unterschiedlichen Zweckstellungen bewußt vom Menschen geschaffen worden ist" .

4 Notindas, ke pro limigo de tekniko kaj neunueco de kodsistemoj, oni ofte devas uzi postsekvan 'x' (ikson) au 'h' (hoon) por indiki ĉapelitajn literojn en elektronika komunikado. Sendube tio longigas la vorton kaj malpliigas la efikon de komunikado. Laŭ retposta mesaĝo de Haszpra (2000-02-05) "la iksa sistemo (ĉ, ĝ, ĥ, ĵ, ŝ, ŭ) plilongigas 10000-literan tekston averaĝe per 238 literoj, la hoa sistemo (ch, gh, hh, jh, sh, u) per 176 literoj".

5 Gledhill klarigas sian metodon jene: 'Mia kalkulo dependas de la unuaj literoj de ĉiu vorto en triono de la (tiama) tekstaro. Ĝi reprezentas tre simple la proporcion de la alfabeto okupita en la alfabeta listo. Tial mi diras, ke temas pri 'sample-based' kaj diras (rapide) en la unua libro, ke tia kalkulo ne inkluzivas la uzadon de ofte mezaj kaj finaj literoj (ekz. j kaj ĵ). Tia ofteco tamen utilus por indiki uzadon en tekstoj, krom la ofteco havebla laŭ vortara listo (kun multaj malofte uzitaj vortoj).' (retpoŝta mesaĝo al mi, 2000-02-07).

6 Liu (1996) esploras la rilaton inter la ĉina kaj la planlingvo Esperanto. Post esplori la historion kaj sintakson de Esperanto, la aŭtoro konsideras, ke la vortklasaj finaĵoj kaj afiksaro de Esperanto similas al parto de Hanzi-oj. Iasence Esperanto estas pazigrafio uzanta alfabeton. Se ni konsideras la fakton, ke la ĉina bone funkcias kiel skriba rimedo inter diversaj etnoj de Ĉinio, la sukceso de Esperanto eble ŝuldiĝas al ĝia simileco je strukturo al la ĉina lingvo, precipe, se konsideri Hanzi-aron kiel pazigrafian sistemon. Certe estus bele kaj helpe por kompreni la esencon, se mi povus doni kelkajn ekzemplojn per ĉinaj signoj, tamen pro tipografia malfacilo, mi vole nevole rezignas pri la ideo.

7 Rimarkindas, ke Minnaja (2000: 86) mise diras "La longo de la vortoj en e-o neniam estis pritraktita." Ĉar la unua eldono de Gledhill jam aperis je 1998, oni ne devas plu havi tiel misan diraĵon. Laŭ lia supraĵa statistiko sur ĉ. 10000 vortoj, la averaĝa longo de ĉiu vorto egalas al 5,19 literoj.

8 Haszpra retpoŝte skribas (2000-02-16) :"Ni povas kalkuli la ofton de la silaboj (= sumo de la ofto de la kvin vokaloj): 0,43 silaboj/litero. Se el Gledhill ni akceptas la averaĝan vortlongon de 4,9 literoj/vorto, tiel: 0,43 (silaboj/litero) x 4,9 (literoj/vorto) = 2,1 (silaboj/vorto)."

9 Laŭ praktika uzado, Blanke (1985; 2000) klasifikas planlingvajn projektojn al tri klasoj: projektoj, semiplanlingvoj kaj planlingvo (Esperanto).

10 Lojban estas varianto el 'Loglan' (Brown 1960). Por detala informo, oni povas viziti http://www.lojban.org. Estas interese, ke la leksiko de Loglan (Lojban) algoritme estas eltirita el kelkaj ĉefaj lingvoj: la ĉina, angla, hinda, rusa, franca, germana, hispana kaj araba. La kalkulado de leksema internacieco estas stranga kaj malfacile komprenebla. Ekzemple, en la vorto 'blanu' (blua) la ĉina havas tre altan procentaĵon, sed al ĉino la lerneblo de la vorto ne estas tiel evidenta. Miaopinie, tia produkto nur estas matematikaĵo, sed ne lingvo.

11 En citaĵoj de Frank, ni ofte vidas la terminon 'ILo'. Fakte, ILo estas esprimo, uzata de Helmar Frank kaj AIS, por la lingvo, kies nomo estas Esperanto.

12 LSF (Latino sine flexione) estas planlingva projekto, kiun kreis la itala matematikisto Giuseppe Peano en 1903, ĉefe por scienca apliko. Esence, ĝi estas la latina sen kompleksa gramatiko.

13 En la TTT-ejo vi ankaŭ povas trovi la tekstan redaktilon UniRed, kiu estas senpaga kaj povas rekte prilabori Esperantan tekston en Unikodo, kun Esperanta literumilo.

14 Nova programo Windows 2000 posedas bonan subtenon al Unikodo, nun la komerca programo komencas amike labori kun Esperanto. Ekz-e uzante la programon UniKey 2000 ( http://www.fanix.com), oni povas facile enkomputiligi ne nur Esperantajn literojn, sed preskaŭ ĉiujn diakritajn literojn en eŭropaj lingvoj!

15 Pri taŭgeco de Esperanto kiel interlingvo en DLT, Schubert (ĉeflingvisto kaj poste estro de la projekto) diversloke kaj diverslingve argumentas; la plej aktuala versio eble estas Schubert (1992). Liu (1993) ankaŭ diskutas la taŭgecon de Esperanto kiel interlingvo, ne nur en MT, ankaŭ en aliaj terenoj de perkomputila lingva prilaborado.