Tf–idf: erinevus redaktsioonide vahel
P r2.7.3) (Robot: lisatud vi:Tf–idf |
P r2.7.1) (Robot: fa:فراوانی وزنی تیاف-آیدیاف → fa:فراوانی وزنی تیاف-آیدیاف |
||
25. rida: | 25. rida: | ||
[[en:Tf–idf]] |
[[en:Tf–idf]] |
||
[[es:Tf-idf]] |
[[es:Tf-idf]] |
||
[[fa:فراوانی وزنی |
[[fa:فراوانی وزنی تیاف-آیدیاف]] |
||
[[fr:TF-IDF]] |
[[fr:TF-IDF]] |
||
[[ko:TF-IDF]] |
[[ko:TF-IDF]] |
Redaktsioon: 1. märts 2013, kell 02:49
See artikkel vajab toimetamist. (Jaanuar 2007) |
TF-IDF (inglise term frequency–inverse document frequency) on statistiline mõõt, mida kasutatakse tihti infootsingus ja andmekaevanduses. Seda mõõtu kasutatakse sõnade tähtsuse hindamiseks tekstikorpuses. Enamasti kasvab sõna tähtsus proportsionaalselt sõna esinemissagedusega. Sellele loogikale ei allu väga tihti kasutatavad sõnad (näiteks sidesõnad, asesõnad jms), millede esinemissagedus on küll suur, aga tähtsus tekstis väike.
Niisiis võib kirjeldada TF (term frequency) ehk termini sagedust järgmiselt:
kus termini esinemissagedus tekstis () on jagatud sõnade hulgaga tekstis.
IDF mõõdab termini üldist tähtsust kasutades järgmist valemit:
kus |D| on tekstide arv korpuses ja tekstide arv, kus termin esineb.
TF-IDF on seega järgmine: