Hizkuntzaren prozesamendu

Hizkuntzaren prozesamendua (ingelesez, NLP - Natural Language Processing edo Computational Linguistics) informatika, adimen artifizial eta hizkuntzalaritzaren alorra da, hizkuntzalaritza konputazionaleko ingeniaritza lantzen duena. Hizkuntzaren bidez pertsona eta makinen arteko komunikazioa, baita pertsonen artekoa ere, errazteko tresna konputazionalak ikertzeaz arduratzen da.

Bideo hau Ikusgela proiektuaren parte da. Bideoak dituzten artikulu guztiak ikus ditzakezu hemen klik eginez gero.

Hizkuntza prozesamendu naturala: komunikazioaren iraultza?

Hizkuntzaren prozesamendua izenarekin ezagutzen dugunari hizkuntzalaritza konputazionala ere esaten zaio askotan, hitz biak ia sinonimotzat har daitezke. Batzuetan hizkuntzalaritza konputazionala terminoa lehenesten da hizkuntzalaritzaren ikuspuntua azpimarratzeko, eta hizkuntzaren prozesamendua, aldiz, ikuspuntu teknologikoa azpimarratzeko, baina bereizketa hori ez da zurruna. Bestalde, Ingelesezko Wikipedian Computational_linguistics (Hizkuntzalaritza Konputazionala) kategoriaren barruan Natural Language Processing (Hizkuntzaren prozesamendua) eta Speech Recognition (Hizketaren tratamendua) kategoriak bereizten dira, nonbait hizkuntzaren prozesamendua hizkuntza idatziarekin lotuz, eta hizketaren tratamendua ahozkoarekin, baina gero erabilera mailan Computational linguistics eta Natural Language Processing kontzeptuen arteko bereizketa hori ez dago hain garbi. Euskaraz Hizkuntza naturalaren prozesamendua edota Lengoaia naturalaren prozesamendua ere erabili izan dira aurreko urteetan, baina joera dago azken bi izen horiek baztertzeko, eta hizkuntzaren prozesamenduaren erabilera lehenesteko.

«	Hizkuntza berez datorkigun zerbait dela uste dugu, eta erraz sortzen dugula, arnasa hartzea edo oinez ibiltzea bezala. Baina dirudiena baino askoz eragiketa konplexuagoa da hitz egitea. Hitz egiten ari garenean, adierazi nahi ditugun esanahiak hizkuntza-forma bihurtzen ditugu, eta hizkuntza-forma horiek soinu/irudien bidez igortzen ditugu. Era berean, hizkuntza hori ulertzeko, gure begi/belarriek seinale bat dekodifikatu behar dute lehenengo, horri dagokion hizkuntza-forma aurkitu eta hizkuntza-forma horrek daraman esanahia jaso. Hori guztia burmuinak egiten du, baina prozesu horretan eragin handia daukate beste hamaika faktorek.	»
—Itziar Laka^[1]

Aplikazioak

Gaur egun badira testua edo hizketa lantzeko zenbait hizkuntza–aplikazio eskuragarri, hala nola:

Ortografia-zuzentzaileak.
Estilo-zuzentzaileak.
Lexikografia konputazionala. Hiztegiak sortzeko eta kontsultatzeko..
Morfologia konputazionala.
Itzulpengintza automatikoa, eta itzulpen-laguntzak.
Hizketa-ezagutzaileak. Hizketa-soinua testua bihurtzen duten sistemak. (ASR, Automatic Speech Recognition).
Ahotsaren sintesia. (TTS, Text To Speech).
Informazioaren berreskurapena, Dokumentu-bilatzaileak (IR, Information Retrieval).
Galdera-erantzun sistemak. Galderetarako erantzunak bilatzeko sistemak (QA, Question Answering).
Informazio-erauzketa. Datuak erauztea dokumentuetatik (IE, Information Extraction).
Ikasketa automatikoa
Testu-meatzea (text mining). Informatikaren munduan azken urteetan indarra hartu duen arloa dugu data mining edo text mining izenekoa. Datu-masa handietatik ondorioak ateratzea da funtsa, eta aplikazio asko du: maileguen arriskuak, gaixotasunen arrisku-taldeak... Datu horiek testuak direnean text mining terminoa erabiltzen da, datuak orokorrean Internetetik hartzen direnean, aldiz, web mining. Guzti horietan erabiltzen diren metodoak antzekoak dira, baina testuekin arazo bat dago: ezaugarriak edo adierazleak asko dira eta ez daude agerian. Medikuntzan edo finantzatan ezaugarri argiak daude, diru-mugimenduak esaterako, eta gehienetan jasota. Text mining eta informazio erauzketa automatikoa sinonimotzat har daitezke.
Laburpengintza automatikoa (Summarization). Dokumentu baten laburpena lortzea testuan oinarrituta. Erauzketaren kasu bat bezala ikus daiteke baina berezia da, datu-base bat osatu beharrean testuaren ordezkari labur bat lortu nahi baita. Dokumentuen laburpena automatikoki egitea bi eratara bidera daiteke. Modu errazena da testu zati edo esaldi esanguratsuenak hautatzea. Modu zaila erabiltzen denean, aldiz, ideia nagusiak detektatu, integratu eta testu berri bat sortzen da. Testu-editore aurreratuek, hizkuntza-tresnen artean, eskaini ohi dute laburpenak egiteko aukera. Hori eskatuta atzeko planoa markatuta dutela azaltzen dira dokumentuko hainbat esaldi. Erabiltzaileak aukera dezake laburpenaren luzera, alegia, testu osoaren zenbateko portzentajea izan behar den laburpena.
Dokumentuen analisia.
Dokumentu-sailkatzaileak. Testu bat emanda bere kategoria edo gaia asmatzea da helburua. IEren ataza gisa ikus daiteke eta modu automatikoan edo semiautomatikoan egin daiteke.
Dokumentu-multzokatzaileak (Clustering). Arlo askotan erabiltzen den teknika-multzo honek antzekotasuna duten dokumentuak erlazionatzea du helburutzat, berreskuratzea ahaltsuagoa egiteko asmoz askotan. Erauzketaren 2. fasea izaten da batzuetan, multzo berean sartzen baitira erauzitako ezaugarriren bat komunean duten dokumentuak. Terminologia-erauzketa automatikoan adibidez, clustering egin ohi da bigarren fase batean, terminoen hierarkia bat sortzearren erauzitako terminoetatik abiatuta. Aurreko aplikazioetan makina bat dokumentu aldez aurretik ezarritako kategoria multzo txiki baten arabera sailkatu behar ziren. Baina clustering egiten denean, aldez aurretik ez daude definituta kategoria posibleak. Abiapuntuan, hainbat dokumentu dauzkagu, eta bukaeran dokumentu horiek guztiak sailkatuta, haien arteko antzekotasunen arabera. Jakin beharko da geroago interpretatzen zergatik proposatu diren multzo horiek, zer adierazten duten azpimultzo horiek.
Informazio-bideratzea (routing): informazioa pertsona edo agente desberdinen artean banatzeko teknika multzoa. Sailkapen mota bat da azken finean, baina informazioaren ezaugarriez gain agenteena ere kontuan hartu behar dira. Kazetaritza alorreko adibide pare bat jar daiteke: egunkari batean agentzien berrien banaketa kazetarien artean, edo web bidezko berrien pertsonalizazioa. Batzuetan bideratzea eta iragaztea sinonimotzat hartzen dira.
Informazio-iragaztea (filtering): dinamikoki jasotzen den informazio ez-interesgarria baztertzean datza. Indar handia hartu du posta elektronikoarekin, iragazte-aplikazioen adibide tipikoa posta elektronikoko spam-mezu guztiak detektatzea eta automatikoki alde batera uztea da. Sailkatzaileen kasu partikular gisa ere ikus daiteke.
Eleaniztasunerako tresnak
Bigarren hizkuntza ikasteko sistemak.
Testu-sorkuntza automatikoa.
Iritzi-meatzaritza edo sentimendu-analisia
Sare sozialen analisia
Testu-inferentzia
Hitz mailako semantika

Osagaiak

Analisi morfologikoa.
Analisi sintaktikoa.
Interpretazio semantikoa.
Analisi pragmatikoa.
Perpausaren planifikazioa.
Perpausaren sorrera.

Historia

Bideo hau Ikusgela proiektuaren parte da. Bideoak dituzten artikulu guztiak ikus ditzakezu hemen klik eginez gero.

Adimen artifiziala ulertzeko bideoa.

Inprentaren sorkuntzak hizkuntzaren tratamendua eta zabalkuntza irauli bazituen, XX. mende amaierakoa dugun konputagailuak ez du iraultza txikiagoa ekarri. Hasteko, gero eta gehiago erabiltzen ditugu konputagailuak eta konputagailu-programak gure eguneroko jardunean, eta programa horietako askok eta askok testua nola edo hala “tratatu” egiten dute, prozesatu. Bestalde, konputagailuekiko komunikazioa hizkuntza arruntaren bitartez (eta ez lengoaia formal baten bidez) egin ahal izatea, gero eta normalago izango da. Gizarte eleaniztunak hizkuntza batetik bestera egin behar izaten dituen joan-etorriak leuntzeko ere, aparteko lagun dugu konputagailua. Gainera, telekomunikazioetan gertatutako aurrerapen izugarriak eragin duen Internet fenomenoak, areagotu egin du hizkuntzaren tratamendu automatikoaren beharra; interesatzen zaigun informazioa ondo selekzionatzeko, esaterako, tratamendu linguistiko lagungarria ezinbestekoa baita.

Hizkuntza naturalen prozesamendua adimen artifizialaren baitan sortutako lehen adarretako bat da. Itzulpengintza automatikoa, esate baterako, 1940ko hamarkada amaieran sortu zen, adimen artifizial kontzeptua bera baino lehenago. Hala eta guztiz ere, LNPk egoera ezberdinak bizi izan ditu adimen artifizialaren barruan, aldaketa teknologiko eta zientifikoak direla-eta bere garrantzia honen baitan hazi eta murriztu egin delarik garai ezberdinetan. Ordenagailu bidez testuak itzultzeko lehen saiakerek huts egin zuten, ordenagailuen mugak eta hizkuntzalaritza arloko ezagutza urria zela-eta. Beranduago, 1960ko eta 1970eko hamarkadetan interfazeak hizkuntza naturalen bidez sortzearen saiakerek arrakasta gehiago izan zuten. 1980ko eta 1990eko hamarkadetan izan da, batez ere, Itzulpengintza automatikoaren inguruko ikerketen berrindartzea.

Hizkuntza naturalen prozesamendurako zailtasunak

Anbiguotasuna

Hizkuntza naturala hainbat mailatan anbiguoa izan ohi da:

Maila lexikalean: hitz bakar batek esanahi ezberdinak izan ditzake, eta hauetako egokiaren hautapena testuinguruaren edo oinarrizko ezagutzaren araberakoa izan behar da. Zentzu honetan ikerketa ezberdinak burutu izan dira, hiztegiak, gramatika, ezagutza oinarriak eta korrelazio estatistikoetan oinarritutako metodoekin.
Erreferentzia mailan: anafora eta kataforak ebazteak erreferentzia egiten duten aurreko edo ondorengo entitate linguistikoa zehaztea suposatzen du.
Egitura mailan: Zuhaitz sintaktiko ezberdinak sortzea ondorioztatzen duten sintagma preposizionalen dependentziaren anbiguotasuna argitzeko semantikara jo beharra dago.
Maila pragmatikoan: Esaldi askok, sarritan, ez dute esaten dena adierazten. Ironiek garrantzi handia dute mezuaren ulermenean.

Anbiguotasun hauek eta beste batzuk ebazteko, arazo nagusia hizkuntza naturalean izaten diren sarrerak anbiguotasunik gabeko barne errepresentazio batean itzultzea da, hala nola, zuhaitz sintaktiko bat.

Hitzen arteko banaketak antzematea

Ahozko hizkuntzan ez dira tarteak uzten hitzen artean. Hitzen arteko tartea bilatzeko, askotan zentzu gramatikala baten bila jo beharra dago testuingurua aztertuta. Idatzizkoan ere, txinera bezalakoek ez dauzkate hitzen arteko tarterik.

Datuak ezegoki jasotzea

Tekleatze-akatsak, OCR bidez jasotzeagatik sortutako erroreak, hitzek tokian-tokiko dituzten aldakuntza bitxiak, hitz egiteko arazo fisikoek sortutako aldaketak eta beste arazo ugarirengatik sarrerako datuen jasotze ezegoki bat gerta daiteke.

Erreferentziak

↑ «Hizkuntzaren prozesamendua [Sareko Euskal Gramatika»] www.ehu.eus (Noiz kontsultatua: 2019-01-22).

Bibliografia

Daniel Jurafsky and James H. Martin (2008).
Speech and Language Processing,
2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
Steven Bird, Ewan Klein, and Edward Loper (2009).
Natural Language Processing with Python.
O'Reilly Media. ISBN 978-0-596-51649-9.* Manning C. and Schütze H. Foundations of Statistical Natural Language Processing. MIT Press. Cambridge, MA: May 1999. nlp.stanford.edu/fsnlp/
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008).
Introduction to Information Retrieval.
Cambridge University Press. ISBN 978-0-521-86571-5.
Manning C. and Schütze H. (2008).
Foundations of Statistical Natural Language Processing
MIT Press. Cambridge, MA: May 1999. nlp.stanford.edu/fsnlp/
Hizkuntzalaritza konputazionala atala Sareko Euskal Gramatika (SEG). 2011.
Aldezabal I., Arriola J., Díaz de Ilarraza A., Sarasola K. (2005)
Hizkuntzalaritza Konputazionala^{[Betiko hautsitako esteka]}.
Udako Euskal Unibertsitatea, Bilbo 2005. HIZTEK saila.
Aitzol Astigarraga, Koldo Gojenola, Kepa Sarasola, Aitor Soroa. (2009)
Testu-analisirako PERL erremintak^{[Betiko hautsitako esteka]}.
ISBN: 978-84-8438-233-1,Udako Euskal Unibertsitatea (UEU). Bilbo. http://www.unibertsitatea.net/blogak/testuak-lantzen
Alegria I., Urkia M. (2002)
Morfologia Konputazionala. Euskararen morfologiaren deskribapena^{[Betiko hautsitako esteka]} Hizkuntza teknologia (Hiztek) graduondokoa UEU, Bilbo 2002

Ikus, gainera

Kanpo estekak

Hizkuntzalaritza konputazionala Wikipedia-kategoriako artikulu bisitatuenak
Hizkuntzaren Prozesamenduko Wikipedia-kategoriako artikulu bisitatuenak
HAP masterra. EHUko Hizkuntzaren Azterketa eta Prozesamendua masterra.
Hitz zentroa Euskal Herriko Unibertsitatea.
Ixa taldea. EHUko ikerketa taldea.
Aholab laborategia. Hizketaren tratamendua.
Elhuyar hizkuntza zerbitzuen I+G unitatea^{[Betiko hautsitako esteka]}
Berbatek. Hiru urterako (2009-2011) ikerketa estrategikoko proiektu bat da, eta Elhuyar Fundazioak, EHUko Ixa eta Aholab ikerketa-taldeek eta Vicomtech eta Robotiker teknologia-zentroek osatzen dute proiektu hori gauzatzeko partzuergoa.
Langune hizkuntzen Industriaren alorreko Euskal Herriko enpresen elkartea da. Elkarte hau 2010an sortu da eta itzulpengintza, edukiak, irakaskuntza eta hizkuntzen teknologiaren alorreko 30 enpresatik gora elkartzen ditu.
Euskarazko softwarea (Eusko JaurlaritzaJ)
Hizkuntz softwarea (Softkat-UEU)
Hizkuntza-Teknologiak. Ixa taldearen bloga.
Ber2a Elhuyar Hizkuntza-Zerbitzuen bloga.
Iparorratza. Andoni Sagarnaren bloga.
Hizkuntzaren prozesamenduko estekak Ixa taldearen webgunean.
Hizkuntzaren prozesamendua ZTHn (Zientzia eta Teknologiaren Hiztegi entziklopedikoan)
Hizkuntzalaritza konputazionala atala Sareko Euskal Gramatikan (SEG) 2011
(Ingelesez) Blogak ingelesez ACLwikin (CL, NLP, linguistics, language...)
(Ingelesez) Ixa Group. Language Technology. Ixa taldearen ingelesezko bloga

Datuak: Q30642
Multimedia: Natural language processing / Q30642

[1] «Hizkuntzaren prozesamendua [Sareko Euskal Gramatika»] www.ehu.eus (Noiz kontsultatua: 2019-01-22).

[1]