Datizrace
Datizrace (angļu: Data mining) ir datu analīzes process ar mērķi identificēt apslēptus, atkārtotus šablonus (angļu: patterns) kādā datu grupā, izmantojot īpašas metodes.[1] Atkārtotu šablonu identificēšana datos ir vērtīga, jo tie var liecināt par savstarpēju saistību jeb korelāciju starp datu punktiem / novērojumu vienībām.[2] Vienlaikus, neprasmīga datizraces pielietošana var novest pie nederīgu vai pat maldīgu saistību atklāšanas, ko nereti dēvē par datu bagarēšanu (angļu: data dredging).[3]
Datizrace ir daļa no plašāka zināšanu atklāšanas / iegūšanas procesa (angļu: knowledge discovery / extraction), kurā no datiem tiek iegūtas jaunas, netriviālas, praktiski lietderīgas zināšanas, kas nepieciešamas lēmumu pieņemšanā dažādās sfērās. [3] Šīs metodes plaši izmanto tādās jomās kā statistika, datu analīze, mašīnmācīšanās, datubāzes un citās interdisciplinārās, ar datorzinātnēm saistītās.jomās.
Vēsture
labot šo sadaļuTermins Data mining radies 1978. gadā, bet mūsdienu traktējumā, tad guvis plašu ievērību, sākot ar 90. gadu pirmo pusi. Līdz tam datu analīzi veica ar statistikas palīdzību, un varēja apstrādāt nelielus datu apjomus. Datizrace ir plaša nozare, kas radusies un attīstījusies no tādām zinātņu jomām kā statistika, tēlu atpazīšana, mākslīgais intelekts, datubāzu teorija, mašīnapmācība utt.
Salīdzinājums ar citām datu analīzes metodēm
labot šo sadaļuTradicionalās datu analīzes metodes (statistika) un OLAP galvenokārt orientētas uz iepriekš formulētu hipotēžu pārbaudi un uz "raupju" izmeklēšanas analīzi, bet datizraces pamatā ir "ne uzreiz pamanāmu" likumsakarību meklēšana. Datizraces instrumenti var atrast šādas likumsakarības patstāvīgi, kā arī patstāvīgi izveidot hipotēzes par savstarpējām sakarībām.
Ja vairums statistisko metožu strādā ar neeksistējošiem lielumiem, izmantojot izlases vidējā koncepciju, tad datizrace darbojas ar reālām vērtībām
Ja salīdzina datizraci, statistiku un mašīnapmācību, tad statistika pamatā bāzējas uz teoriju, mašīnapmācība bāzējas uz apmācību, bet datizrace integrē teoriju un apmācību. Ja statistika koncentrējas uz hipotēžu pārbaudi, bet mašīnapamācība - uz apmācības aģentu darbības uzlabošanu, tad datizrace ir koncentrēta uz vienotu datu analīzes procesu, kas ietver datu attīrīšanu, apmācību, rezultātu integrāciju un vizualizāciju.
Datizraces process
labot šo sadaļuDatizraces process parasti notiek divos vai trijos posmos:
- Likumsakarību atrašana (brīva meklēšana)
- Atrasto likumsakarību izmantošana, lai prognozētu nezināmās vērtības (prognozējošā modelēšana)
- Izņēmumsituāciju analīze (likumsakarībās atrasto anomāliju noteikšana un izskaidrošana)
Datizraces uzdevumi
labot šo sadaļuAr likumsakarību (šablonu) atrašanu tiek risināti datizraces uzdevumi. Pēc iegūtās informācijas tipiem, datizraces uzdevumus iedala šādās grupās:
- Klasifikācija (Classification)
- Klāsterizācija (Clustering)
- Asociācija (Associations)
- Secība (Sequence)
- Prognozēšana (Forecasting)
- Noviržu noteikšana (Deviation Detection)
- Novērtēšana (Estimation)
- Saišu analīze (Link Analysis)
- Vizualizācija (Visualization, Graph Mining)
- Kopsavilkums (Summarization)
Pēc izvēlētās statēģijas, uzdevumus iedala:
- apmācība ar skolotāju
- apmācība bez skolotāja
- citi
Datizraces metodes
labot šo sadaļuPastāv vairāki datizraces metožu veidi, piemēram, statistikas procedūras vai mašīnmācīšanās algoritmi.
Datizraces metodes var klasificēt dažādi. Piemēram, pēc tā, vai dati pēc datizraces tiek saglabāti vai arī tiek distilēti turpmākajai izmantošanai:
- Tiešā datu izmantošana vai datu saglabāšana
- klāsteranalīze
- tuvākā kaimiņa metode
- k-tuvākā kaimiņa metode
- spriešana pēc analoģijas
- Formālo likumsakarību atrašana un izmantošana vai šablonu distilācija
- loģiskās metodes
- netiešie vaicājumi un analīzes
- simboliskie likumi
- lēmumu koki
- ģenētiskie algoritmi
- vizualizācijas metodes
- šķērstabulācijas metodes
- aģenti
- Baijesa tīkli
- šķērstabulu vizualizācija
- metodes, kas balstītas uz vienādojumiem
- statistiskās metodes
- neironu tīkli
- loģiskās metodes
Pēc matemātisko modeļu apmācības pieejas, datizraces metodes var arī iedalīt:
- statistiskās metodes
- kibernētiskās metodes
Praktiskais pielietojums
labot šo sadaļu- Biznesa uzdevumi (bankas, finanses, apdrošināšana, CRM, ražošana, sakari, elektroniskā komercija, mārketings u.c.)
- Valsts līmeņa uzdevumi (personu meklēšana, kas izvairās no nodokļiem, līdzekļi cīņā pret terorismu)
- Zinātniskie pētījumi (medicīna, bioloģija, ģenētika, bioinformātika, astronomija, ķīmija u.c.)
- Web Mining, globalā tīmekļa uzdevumi (meklēšanas programmas, skaitītāji u.c.)
- Text Mining - tekstu apstrāde
- Call Mining - telefona zvanu apstrāde
Atsauces
labot šo sadaļu- ↑ «Latvijas Nacionālais terminoloģijas portāls». Latvijas Nacionālais terminoloģijas portāls (latviešu). Skatīts: 2022-10-11.
- ↑ Han, J., Cheng, H., Xin, D.. "Frequent pattern mining: current status and future directions.". Data Mining and Knowledge Discovery 15: 56.
- ↑ 3,0 3,1 Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. (1996). "From Data Mining to Knowledge Discovery in Databases". AI Magazine, 17(3) 17: 39.
Šis ar informācijas tehnoloģijām saistītais raksts ir nepilnīgs. Jūs varat dot savu ieguldījumu Vikipēdijā, papildinot to. |