Idi na sadržaj

Rudarenje tekstualnih podataka

S Wikipedije, slobodne enciklopedije

Rudarenje tekstualnih podataka, slično analitici teksta, je proces izvođenja visokokvalitetnih informacija iz teksta. To uključuje "kompjutersko otkrivanje novih, ranije nepoznatih informacija, automatskim izdvajanjem informacija iz različitih pisanih izvora." [1] Pisani resursi mogu uključivati web stranice, knjige, e-poruke, recenzije i članke. Visokokvalitetne informacije se obično dobijaju osmišljavanjem obrazaca i trendova pomoću sredstava kao što je učenje statističkih obrazaca. Prema Hothou et al. (2005) možemo razlikovati tri različite perspektive rudarenja teksta: ekstrakciju informacija, rudarenje podataka i KDD (en. Knowledge Discovery in Database, tj. otkrivanje znanja u bazama podataka) proces.[2] Iskopavanje teksta obično uključuje proces strukturiranja ulaznog teksta (obično raščlanjivanje, uz dodavanje nekih izvedenih jezičkih karakteristika i uklanjanje drugih, te naknadno umetanje u bazu podataka ), izvođenje obrazaca unutar strukturiranih podataka i konačno evaluaciju i interpretaciju izlaza. 'Visoka kvaliteta' u rudarenju teksta obično se odnosi na neku kombinaciju relevantnosti, novosti i interesa. Tipični zadaci rudarenja teksta uključuju kategorizaciju teksta, grupisanje teksta, izdvajanje koncepta/entiteta, proizvodnju granularnih taksonomija, analizu sentimenta, sažimanje dokumenta i modeliranje odnosa entiteta (tj. učenje odnosa između imenovanih entiteta).

Reference

[uredi | uredi izvor]

Citati

[uredi | uredi izvor]

 

  1. ^ "Marti Hearst: What is Text Mining?".
  2. ^ Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62

Izvori

[uredi | uredi izvor]