Mine sisu juurde

Otsingumootor

Allikas: Vikipeedia

Otsingumootor ehk otsimootor on arvutiprogramm (tavaliselt otsinguprogrammide-andmebaaside süsteem), mille väljundi abil saab veebis infot kiiremini leida. Otsimootor otsib kindlate tunnustega andmeid veebist ja FTP-serveritest.[1] Päringu vastused esitatakse nimekirjana, mis võib koosneda viidetest veebilehtedele, piltidele, dokumentidele, videotele jt objektidele võrgus. Mõned otsingumootorid kaevandavad andmeid võrku ühendatud andmebaasidest või avatud loenditest. Erinevalt veebiregistritest-portaalidest, mida hooldavad toimetajad, uuendavad otsingumootorid infot reaalajas, käitades veebiämblike abil algoritme.[2]

Ajaline järjestus
Aasta Nimi Praegune seis
1993 W3Catalog suletud
Aliweb suletud
JumpStation suletud
1994 WebCrawler aktiivne
Go.com aktiivne, Yahoo Search
Lycos aktiivne
1995 AltaVista Yahoo! poolt üle võetud
Daum aktiivne
Magellan suletud
Excite aktiivne
SAPO aktiivne
Yahoo! aktiivne
1996 Dogpile aktiivne
Inktomi Yahoo! poolt üle võetud
HotBot aktiivne (lycos.com)
Ask Jeeves aktiivne (ask.com)
1997 Northern Light aktiivne
Яндекс aktiivne
1998 Google aktiivne
MSN Search aktiivne Bingina
NETI aktiivne
1999 AlltheWeb suletud (URL ümber suunatud Yahoo!-le)
GenieKnows aktiivne, ümber nimetatud Yellowee.com-ks
Naver aktiivne
Teoma aktiivne
Vivisimo suletud
2000 Baidu aktiivne
Exalead Dassault Systèmesi poolt üle võetud
2002 Inktomi Yahoo! poolt üle võetud
2003 Info.com aktiivne
2004 Yahoo! Search aktiivne
A9.com suletud
Sogou aktiivne
2005 AOL Search aktiivne
Ask.com aktiivne
GoodSearch aktiivne
SearchMe suletud
2006 wikiseek aktiivne
Quaero aktiivne
Ask.com aktiivne
Live Search aktiivne Bingina
ChaCha aktiivne
Guruji.com aktiivne
2007 wikiseek suletud
Sproose suletud
Wikia Search suletud
Blackle.com aktiivne
2008 Powerset Microsofti poolt üle võetud
Picollator suletud
Viewzi suletud
Boogami aktiivne
LeapFish suletud
Forestle aktiivne
VADLO aktiivne
Duck Duck Go aktiivne
2009 Bing aktiivne
Yebol aktiivne
Search2.net aktiivne
Mugurdy suletud
Goby aktiivne
2010 Yandex aktiivne
Cuil suletud
Blekko aktiivne
Yummly aktiivne
Solusee aktiivne
2011 Interred aktiivne
2013 Aoohe aktiivne
Go.Mail.ru aktiivne

Veebi algusaegadel kasutati veebiserverite loetelu, mida toimetas Tim Berners-Lee ja majutas CERN-i serveris. 1992. aastast on alles ka üks ajalooline pilt[3] Kuna internetti tekkis järjest kiiremini uusi veebiservereid, ei suutnud see loetelu enam kasvuga sammu pidada. NCSA lehel teatati uutest serveritest jaotises "What's New!" ('mida uut!').[4]

Esimene tööriist, mida kasutati internetis otsimiseks, oli Archie. Nimi tähendas "archive" ('arhiiv') ilma "v"-ta. Selle lõid 1990. aastal Alan Emtage, Bill Heelan ja J. Peter Deutsch, arvutitehnika õpilased McGilli ülikoolist Montréalis. Programm laadis alla registri nimekirjad kõikidest failidest, mis asusid avalikes FTP võrgukohtades, luues failinimedega otsitava andmebaasi. Archie ei indekseerinud lehtede sisu, sest andmemahud olid piiratud, samas võis andmeid lihtsalt leida.

Gopheri loomine 1991. aastal Mark McCahilli poolt avas tee kahele uuele otsinguprogrammile: Veronica ja Jughead. Sarnaselt Archiega otsisid nad failinimesid ja pealkirju, mis olid salvestatud Gopheri indeksisüsteemidesse. Veronica võimaldas märksõnaotsingut enamikule Gopheri menüü pealkirjadele terves Gopheri nimekirjas. Jughead oli tööriist, mille abil võis leida menüü infot kindlatest Gopheri serveritest. Kuigi otsingumootori Archie nimi polnud viide Archie koomiksisarjale, said Veronica ja Jughead nime selle sarja tegelaste järgi ja viitasid niimoodi oma eelkäijale.

1993. aasta suvel ei olnud veebi jaoks ühtegi otsingumootorit, mitmeid spetsiaalseid katalooge hallati käsitsi. Oscar Nierstrasz Geneva Ülikoolist kirjutas seeria Perli skripte, mis perioodiliselt peegeldasid neid lehti ja nad kirjutasid need ümber standardvormingusse, mis moodustas W3Catalogi aluse. See oli esimene primitiivne veebis kasutatav otsingumootor ning anti välja 2. septembril 1993.[5]

1993. aasta juunis lõi Matthew Gray arvatavasti esimese veebiroboti, Perli baasil loodud World Wide Web Wandereri ja kasutas seda Wandexi-nimelise indeksi loomiseks. Wandereri eesmärgiks oli mõõta veebi suurust, mida see tegi kuni 1995. aastate lõpuni. Veebi teine otsingumootor ALiweb ilmus novembris 1993. Aliweb ei kasutanud veebirobotit, vaid sõltus veebilehtede adminide teavitustest iga lehe olemasolu kohta.

JumpStation ('hüppejaam') kasutas veebirobotit veebilehtede leidmiseks ja neist registri ehitamiseks ning kasutas veebiankeeti kasutajaliidesena oma päringu programmina. See oli seega esimene WWW ressursi avastamise vahend, milles olid liidetud kolm põhilist otsingumootori omadust (roomamine, indekseerimine ja otsimine). Kuna platvormil, millel see jooksis, olid piiratud ressursid, piirdus selle indekseerimine ja seega ka otsimine pealkirjadega lehtedega, mida ämblik oli külastanud.

Üks esimesi täistekstiämbliku baasil toimivaid otsingumootoreid oli WebCrawler ('veebiämblik'), mis tuli välja 1994. aastal. Erinevalt eelkäijatest lasi see oma kasutajatel otsida iga sõna igal veebilehel, mis on sellest ajast saadik muutunud standardiks kõigile otsingumootoritele. See oli ka üks esimesi otsingumootoreid, mis sai tuntuks laiema avalikkuse ees.

Peagi loodi veel mitu otsingumootorit, mis konkureerisid omavahel populaarsuse pärast. Nende seas olid Magellan, Excite, Infoseek, Inktomi, Northern Light ja AltaVista. Yahoo! oli üks populaarsemaid viise inimesi huvitavate veebilehtede leidmiseks, kuid selle otsingufunktsioon toimis enda veebiregistril täistekstlehtede koopiate asemel. Info otsijad said vaadata ka registrit otsingusõnal põhineva otsingu asemel.

1996. aastal tahtis Netscape anda ühele otsingumootorile eksklusiivse lepingu, millega see muutuks Netscape'i brauseriga kaasasolevaks otsingumootoriks. Huvi selle vastu oli nii suur, et Netscape tegi tehingu viie suurema otsingumootoriga. 5 miljoni dollari eest aastas olid Netscape'i otsingulehel ringluses viis otsimootorit: Yahoo!, Magellan, Lycos, Infoseek ja Excite.[6]

Otsingumootoreid peeti ka eredamateks tähtedeks 1990. aastate lõpu internetti investeerimise hulluses.[7] Mitmel firmal läks turule sisenemine suurepäraselt, nad said avalikel pakkumistel rekordilisi tulusid. Mõned võtsid maha oma avalikud otsingumootorid ja turustasid ainult ettevõtetele mõeldud versioone nagu Northern Light.

2000. aasta paiku tõusis tippu Google'i otsingumootor. Firma saavutas paremaid tulemusi innovatsiooniga PageRank. See korduv algoritm hindab veebilehti PageRank-numbri alusel. Eeldatakse, et headele ja nõutud lehtedele lingitakse teistelt veebisaitidelt rohkem kui teistele. Google säilitas oma otsingumootoris ka minimalistliku kasutajaliidese, vastandina mitmetele konkurentidele, kelle otsingumootor oli veebiportaali sisse ehitatud.[viide?]

2000. aastal hakkas Yahoo! kasutama otsingutulemuste saamiseks Google'it. Yahoo! hankis endale Inktomi 2002. ja Overture'i 2003. aastal. 2004 tuli ta välja oma otsingumootoriga, milles olid ühendatud Yahoo!-le kuuluvate rakenduste tehnoloogiad.[viide?]

Microsoft lasi MSN Searchi välja 1998. aasta sügisel, kasutades Inktomi otsingutulemusi. 1999. aasta alguses hakkas leht näitama loetelusid Looksmartist, mis olid kokku segatud tulemustega Inktomist.[viide?] 2004 hakkas Microsoft oma otsingutehnoloogiale üle minema.[viide?] Microsofti taasmärgistatud otsingumootor Bing avati kasutajatele 1. juunil 2009.[viide?] 29. juulil lõpetasid Yahoo! ja Microsoft lepingu, mille kohaselt hakkab Yahoo! Search toimima Microsoft Bingi tehnoloogia baasil.[viide?]

Kuidas otsingumootor töötab

[muuda | muuda lähteteksti]
Tavalise veebiämbliku kõrgtaseme arhitektuur (ingl)

Otsingumootor toimib sellises järjekorras:

  1. veebis "roomamine";
  2. indekseerimine, st sorteerimine, analüüsimine, markeerimine jne;
  3. päringutele sobivate vastuste otsimine.

Otsingumootorid toimivad salvestades infot mitmete veebilehtede kohta, mille nad otsivad välja HTML-ist endast. Need lehed leitakse veebiämbliku abil – see on automatiseeritud veebibrauser, mis järgib igat linki lehel. Erandeid saab teha robots.txt abil. Seejärel analüüsitakse iga lehe sisu, misjärel otsustatakse, kuidas seda indekseerida. Andmeid veebilehtede kohta hoitakse indeksi andmebaasides, et kasutada hilisemates päringutes, mis võib olla ka ühe sõna pikkune. Indeksi eesmärk on lubada info võimalikult kiiret leidmist. Mõned otsingumootorid, näiteks Google, salvestavad kas kõik või osa allika lehest ja ka infot veebilehtede kohta. Teised, nagu AltaVista, salvestavad iga sõna igalt lehelt, mis nad leiavad. Nii salvestatud leht omab tegelikku otsingumootori teksti, sest see oli see, mis tegelikult indekseeriti. Sellest on kasu, kui lehte on uuendatud ja otsingusõnu pole seal enam näha. Lehtede salvestamine võimaldab otsingu suurt täpsust, sest need võivad sisaldada andmeid, mida enam kusagil mujal ei leidu.

Kui kasutaja sisestab otsingumootorisse päringu, siis uurib mootor oma indekseid ja tagastab nimekirja parima sobivusega veebilehtedest vastavalt oma sisule, tavaliselt lühikese kokkuvõttega dokumendi pealkirjast ja mõnikord lõiguga tekstist. Indeks ehitatakse üles informatsioonist, mis salvestatakse koos andmetega vastavalt info indekseerimismeetodile. Seni pole aga ühtegi avalikku otsingumootorit, mis lubaks faile otsida kuupäeva alusel. Enamik otsingumootoreid toetab konnektorite JAH, VÕI ja EI kasutamist, et võimaldada täpsema päringu esitamist. Konnektorid lubavad kasutajal muuta ja laiendada otsingutingimusi. Mootorid otsivad sõnu või fraase täpselt nii, nagu need sisestati. Mõned otsingumootorid pakuvad arenenud võimalust, mis lubab kasutajal määrata võtmesõnade vahelist kaugust. On ka ideelisi otsinguid, kus uurimine sisaldab statistilise analüüsi kasutamist lehtedel, mis sisaldavad sõnu või fraase, mida otsitakse. Loomuliku keele päringud lubavad kasutajal sisestada küsimuse nõnda, nagu seda küsitaks teiselt inimeselt, üks selline sait on näiteks ask.com.

Otsingumootori tõhusus sõltub otsingutulemuste asjakohasusest. Kuigi teatud sõna või fraasi sisaldavaid lehekülgi on miljoneid, on mõned neist asjakohasemad, populaarsemad või usaldusväärsemad kui teised. Enamik otsingumootoreid kasutab meetmeid tulemuste järjestamiseks, et tuua "parimad" tulemused ettepoole. See, kuidas mootorid otsustavad, millised vasted on parimad ja millises järjekorras neid näidata, sõltub mootorist endast. Meetodid muutuvad aja jooksul samamoodi, nagu muutub interneti kasutamine ja tekivad uued tehnikad. Põhiliselt on olemas kahte tüüpi otsingumootoreid: üks on süsteem kindlaksmääratud ja hierarhiliselt järjestatud otsingusõnadega, mida on laialdaselt programmeeritud. Teine süsteem loob tagurpidi indeksi, analüüsides leitavat teksti ning toetub tugevamalt arvutile, mis teeb ära suurema osa tööst.

Enamik otsingumootoreid on äriprojektid, mis teenivad tulu reklaami müügiga. Reklaamiandjad maksavad, et enda lehekülge otsingutulemuste seas kõrgemale tõsta. Otsingumootorid, mis tulemusi raha eest ei järjesta, teenivad, näidates oma tavatulemuste kõrval otsingutulemustega seotud reklaame. Otsingumootor teenib raha iga kord, kui keegi avab ühe sellise reklaami.

Google'i otsingumootori ülemaailmne populaarsus jõudis tippu aprillis 2010, kui saadi kätte 86,3% turuosa.[8] Otsingumootorid nagu Yahoo! ja Bing olid populaarsemad Ameerikas kui Euroopas. Hiina Rahvavabariigis oli 2009. aasta juulis 61,6% turust Baidu käes.[9]

NET MARKETSHARE kohaselt olid veebruaris 2021 otsimootorite turuosad maailmas järgmised: Google 72,68%, Bing 11,94%, Baido 11,72%, Yahoo! 1,81% ja ülejäänud jäid 2% sisse.[10]

Otsingumootorite kallutatus

[muuda | muuda lähteteksti]

Kuigi otsingumootorid on programmeeritud reastama veebilehti populaarsuse ja asjakohasuse järgi, on kogemustel põhinevast uurimistööst näha, et neis leidub poliitilisi, majanduslikke ja sotsiaalseid eelarvamusi[11].[12] Nende eelarvamuste põhjuseks võivad olla majanduslikud, ärilised (nt firmad, mis reklaamivad end otsingumootorite abil võivad muutuda populaarsemaks loomulikes otsingutulemustes) ja poliitilised (nt otsingu tulemuste kustutamine, et olla vastavuses kohalike seadustega) protsessid.[13] Üheks näiteks, kus otsingutulemusi üritatakse mõjutada poliitilistel, sotsiaalsetel või ärilistel põhjustel, on "Google Bombing".

Veebiämblik

[muuda | muuda lähteteksti]

Veebiämblik on robotprogramm, mis otsib veebis kindla ja korrapärase meetodiga uusi veebidokumente ja lisab leitud tulemused andmebaasidesse. Nimetuse on programm saanud selle järgi, et see ronib veebis ringi, nii nagu ämblik oma võrgul. Paljud otsingumootorite saidid kasutavad veebiämblikke, et tagada uusima info näitamine otsingutulemustes. Kiirete otsingutulemuste saamiseks kasutatakse veebiämblikke, mis teevad külastatud lehtedest koopia, mida saab hiljem töödelda. Ämblikke võib kasutada veebilehtedel automaatseteks hooldustöödeks nagu linkide kontrollimine või HTML-koodi kinnitamine. Lisaks võib neid kasutada ka veebilehtedelt kindla info leidmiseks, näiteks kogutakse e-posti aadresse rämpsposti saatmise eesmärgil.

Tööpõhimõte

[muuda | muuda lähteteksti]

Veebiämblikel on alguses nimekiri URL-idest, mida nad peavad külastama. Iga kord, kui ta külastab ühte URL-i, tuvastab see kõik lehel olevad hüperlingid ja lisab need oma URL-ide nimekirja. Kõiki linke külastatakse kindlate reeglite järgi ja veebiämbliku käitumine oleneb nende reeglite kooskõlast:[14]

  • valikureegel, mis määrab, milliseid lehti alla laadida;
  • taaskülastusreegel, mis määrab, millal kontrollida lehtedes toimunud muudatusi;
  • viisakusreegel, mis määrab, kuidas vältida lehtede ülelaadimist;
  • paralleelsusreegel, mis määrab, kuidas kooskõlastada ämblikevahelist tööd.

Avalike veebiämblike näiteid

[muuda | muuda lähteteksti]
  • Yahoo! Slurp – Yahoo Searchi ämblik
  • Bingbot – Microsoft Bingi veebiämblik, mis asendas Msnboti
  • FAST Crawler[15] – jagatud ämblik, mida kasutab Fast Search & Transfer
  • Googlebot[16] – Google'i ämblik, viite kirjeldus on ämbliku vanemast versioonist, mis oli kirjutadud C++ ja Pythoniga
  • PolyBot[17] – jagatud ämblik kirjutatud C++ ja Pythoniga, mis koosneb "ämblikuhaldurist", ühest või rohkemast "tõmbajast" ja ühest või rohkemast "DNSi lahendajast".
  • RBSE[18] – esimene avaldatud veebiämblik. See põhines kahel programmil: "spider" haldas järjekorda suhtelises andmebaasis ja "mite" oli modifitseeritud www ASCII brauser, mis laadis veebist lehti
  • WebCrawlerit[19] kasutati, et luua esimene veebi alamhulga avalikult kasutatav täistekstiregister
  • World Wide Web Worm[20] – esimene ämblik, mida kasutati lihtdokumentide nimede ja URL-ide nimekirja loomiseks.
  • WebRACE[21] – Javas teostatud roomav ja salvestav moodul, mida kasutatakse osana üldisemast süsteemist eRACE.[22]
  1. "Otsingumootor". Originaali arhiivikoopia seisuga 8. detsember 2012. Vaadatud 19. detsembril 2011.
  2. "Veebiämblik". Originaali arhiivikoopia seisuga 8. detsember 2012. Vaadatud 19. detsembril 2011.
  3. Veebi ajaloolised serverid
  4. Mida Uut! Veebruar 1994
  5. W3Catalog
  6. "Yahoo! ja Netscape Ink vaheline leping" (PDF). Originaali (PDF) arhiivikoopia seisuga 16. november 2013. Vaadatud 12. detsembril 2011.
  7. "Interneti otsingumootorite vahelise võistluse dünaamika" – Neil Gandal
  8. Google turuosa
  9. "Otsingumootorite turuosa 2009 juulis". Originaali arhiivikoopia seisuga 26. detsember 2009. Vaadatud 12. detsembril 2011.
  10. Search Engine Market Share
  11. Elad Segev – "Google and the Digital Divide: The Biases of Online Knowledge".
  12. L.Vaughan & M.Thelwall – "Search engine coverage bias: evidence and possible causes, Information Processing & Management".
  13. Google asendamine alternatiivsete otsingumootoritega Hiinas
  14. Veebiämblike efektiivsusest
  15. K.M.Risvik, and R.Michelsen Otsingumootorid ja Veebi Dünaamika[alaline kõdulink]
  16. Googleboti arhitektuur
  17. "Kõrge töövõimega veebiämbliku disainist ja kasutamisest" (PDF). Originaali (PDF) arhiivikoopia seisuga 1. oktoober 2005. Vaadatud 21. jaanuaril 2012.
  18. D.Eichmann RBSE ämblik: otsingu ja veebi laadimise tasakaalustamisest.
  19. "Kogemusi WebCrawleriga". Originaali arhiivikoopia seisuga 4. september 2001. Vaadatud 4. septembril 2001.
  20. O.A.McBryan "GENVL and WWWW: Tools for taming the web".
  21. D.Zeinalipour-Yazti ja M.D.Dikaiakos Kõrge töövõimega veebiämbliku disainist ja kasutamisest.
  22. "eRACE". Originaali arhiivikoopia seisuga 30. jaanuar 2012. Vaadatud 21. jaanuaril 2012.