Carian Teks Penuh

Carian teks penuh atau full teks search merupakan satu teknik untuk mencari dokumen teks yang disimpan di dalam bentuk elektronik berdasarkan keseluruhan kandungan dokumen tersebut.

Carian teks penuh telah menjadi suatu kebiasaan semenjak pertengahan tahun 1970. Sebelum itu, carian dokumen dilaksanakan dengan cara meletakkan kata kunci untuk sebahagian teks bertujuan untuk menggambarkan subjeknya. Dokumen boleh didapati dengan menggunakan kombinasi boolean. Teknik terbabit mempunyai beberapa kekurangan seperti ia memerlukan seseorang untuk mengindeks, di mana kerja mengindeks memerlukan kemahiran yang tinggi serta memakan masa yang agak lama.^[1]

Carian teks penuh diharap dapat mengatasi masalah ini. Secara teorinya, mana-mana dokumen yang dikuarikan boleh didapati, tanpa memerlukan pengindeksan dan mendapatkan keputusan yang lebih tepat. Secara nyatanya, terdapat beberapa kesukaran yang mungkin dialami. Terutamanya, terdapat dokumen yang hampir-hampir sahaja mengena sesebuah subjek, tetapi dokumen seperti ini juga akan didapati bersama dokumen yang lebih relevan. Carian teks penuh juga mempunyai masalah di mana satu dokumen menggunakan perkataan yang lain untuk menerangkan maksud yang sama dengan yang diingini oleh pencari.

Carian yang sofistikated memerlukannya untuk menyokong carian teks penuh. Ia mestilah boleh merekodkan posisi bagi setiap perkataan di dalam sesebuah dokumen; membolehkannya untuk mendapatkan dokumen yang mengandungi fasa “carian penuh” berbanding hanya perkataan “carian” dan “penuh”. Selain itu, ia mestilah boleh menentukan keutamaan sesebuah dokumen yang didapati berdasarkan kepada frekuensi setiap perkataan carian yang timbul; dengan membuat anggapan bahawa satu perkataan adalah lebih kerap dan lebih relevan.

Pendekatan yang biasa digunakan dalam carian teks penuh adalah dengan menjana satu indeks lengkap atau indeks perkataan untuk setiap dokumen yang boleh dicari. Untuk setiap perkataan (kecuali beberapa perkataan tertentu yang terlalu biasa untuk menjadi relevan) satu kemasukan akan dibuat yang mana ia akan merekodkan posisi sebenar bagi setiap yang wujud di dalam pangkalan data. Daripada senarai tersebut, secara relatifnya adalah amat mudah untuk mendapatkan kesemua dokumen yang memenuhi sesebuah kuari, tanpa perlu memeriksa setiap dokumen semasa carian. Pengindeksan merupakan teknik yang menjadi pilihan untuk semua carian teks penuh.^[2]

Nota

^ B., Yuwono; Lee, D. L. (1996). "Search and ranking algorithms for locating resources on the World Wide Web". 12th International Conference on Data Engineering (ICDE'96). m/s. 164.
^ Capabilities of Full Text Search System Diarkibkan Disember 23, 2010, di Wayback Machine

[YuwonoLee-1] B., Yuwono; Lee, D. L. (1996). "Search and ranking algorithms for locating resources on the World Wide Web". 12th International Conference on Data Engineering (ICDE'96). m/s. 164.

[Capabilities_of_Full_Text_Search_System-2] Capabilities of Full Text Search System Diarkibkan Disember 23, 2010, di Wayback Machine

[1]

[2]