Rudarenje tekstualnih podataka

Rudarenje tekstualnih podataka, slično analitici teksta, je proces izvođenja visokokvalitetnih informacija iz teksta. To uključuje "kompjutersko otkrivanje novih, ranije nepoznatih informacija, automatskim izdvajanjem informacija iz različitih pisanih izvora." ^[1] Pisani resursi mogu uključivati web stranice, knjige, e-poruke, recenzije i članke. Visokokvalitetne informacije se obično dobijaju osmišljavanjem obrazaca i trendova pomoću sredstava kao što je učenje statističkih obrazaca. Prema Hothou et al. (2005) možemo razlikovati tri različite perspektive rudarenja teksta: ekstrakciju informacija, rudarenje podataka i KDD (en. Knowledge Discovery in Database, tj. otkrivanje znanja u bazama podataka) proces.^[2] Iskopavanje teksta obično uključuje proces strukturiranja ulaznog teksta (obično raščlanjivanje, uz dodavanje nekih izvedenih jezičkih karakteristika i uklanjanje drugih, te naknadno umetanje u bazu podataka ), izvođenje obrazaca unutar strukturiranih podataka i konačno evaluaciju i interpretaciju izlaza. 'Visoka kvaliteta' u rudarenju teksta obično se odnosi na neku kombinaciju relevantnosti, novosti i interesa. Tipični zadaci rudarenja teksta uključuju kategorizaciju teksta, grupisanje teksta, izdvajanje koncepta/entiteta, proizvodnju granularnih taksonomija, analizu sentimenta , sažimanje dokumenta i modeliranje odnosa entiteta (tj. učenje odnosa između imenovanih entiteta).

Reference

Citati

^ "Marti Hearst: What is Text Mining?".
^ Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62

Izvori

Ananiadou, S. and McNaught, J. (Editors) (2006). Text Mining for Biology and Biomedicine. Artech House Books. ISBN 978-1-58053-984-5 ISBN 978-1-58053-984-5
Bilisoly, R. (2008). Practical Text Mining with Perl. New York: John Wiley & Sons. ISBN 978-0-470-17643-6 ISBN 978-0-470-17643-6
Feldman, R., and Sanger, J. (2006). The Text Mining Handbook. New York: Cambridge University Press. ISBN 978-0-521-83657-9 ISBN 978-0-521-83657-9
Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62
Indurkhya, N., and Damerau, F. (2010). Handbook Of Natural Language Processing, 2nd Edition. Boca Raton, FL: CRC Press. ISBN 978-1-4200-8592-1 ISBN 978-1-4200-8592-1
Kao, A., and Poteet, S. (Editors). Natural Language Processing and Text Mining. Springer. ISBN 1-84628-175-X ISBN 1-84628-175-X
Konchady, M. Text Mining Application Programming (Programming Series). Charles River Media. ISBN 1-58450-460-9 ISBN 1-58450-460-9
Manning, C., and Schutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press. ISBN 978-0-262-13360-9 ISBN 978-0-262-13360-9
Miner, G., Elder, J., Hill. T, Nisbet, R., Delen, D. and Fast, A. (2012). Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications. Elsevier Academic Press. ISBN 978-0-12-386979-1 ISBN 978-0-12-386979-1
McKnight, W. (2005). "Building business intelligence: Text data mining in business intelligence". DM Review, 21-22.
Srivastava, A., and Sahami. M. (2009). Text Mining: Classification, Clustering, and Applications. Boca Raton, FL: CRC Press. ISBN 978-1-4200-5940-3 ISBN 978-1-4200-5940-3
Zanasi, A. (Editor) (2007). Text Mining and its Applications to Intelligence, CRM and Knowledge Management. WIT Press. ISBN 978-1-84564-131-3 ISBN 978-1-84564-131-3

[1] "Marti Hearst: What is Text Mining?".

[2] Hotho, A., Nürnberger, A. and Paaß, G. (2005). "A brief survey of text mining". In Ldv Forum, Vol. 20(1), p. 19-62

[1]

[2]