Otsingumootor

Otsingumootor ehk otsimootor on arvutiprogramm (tavaliselt otsinguprogrammide-andmebaaside süsteem), mille väljundi abil saab veebis infot kiiremini leida. Otsimootor otsib kindlate tunnustega andmeid veebist ja FTP-serveritest.^[1] Päringu vastused esitatakse nimekirjana, mis võib koosneda viidetest veebilehtedele, piltidele, dokumentidele, videotele jt objektidele võrgus. Mõned otsingumootorid kaevandavad andmeid võrku ühendatud andmebaasidest või avatud loenditest. Erinevalt veebiregistritest-portaalidest, mida hooldavad toimetajad, uuendavad otsingumootorid infot reaalajas, käitades veebiämblike abil algoritme.^[2]

Ajalugu

Ajaline järjestus
Aasta	Nimi	Praegune seis
1993	W3Catalog	suletud
	Aliweb	suletud
	JumpStation	suletud
1994	WebCrawler	aktiivne
	Go.com	aktiivne, Yahoo Search
	Lycos	aktiivne
1995	AltaVista	Yahoo! poolt üle võetud
	Daum	aktiivne
	Magellan	suletud
	Excite	aktiivne
	SAPO	aktiivne
	Yahoo!	aktiivne
1996	Dogpile	aktiivne
	Inktomi	Yahoo! poolt üle võetud
	HotBot	aktiivne (lycos.com)
	Ask Jeeves	aktiivne (ask.com)
1997	Northern Light	aktiivne
1997	Яндекс	aktiivne
1998	Google	aktiivne
	MSN Search	aktiivne Bingina
	NETI	aktiivne
1999	AlltheWeb	suletud (URL ümber suunatud Yahoo!-le)
	GenieKnows	aktiivne, ümber nimetatud Yellowee.com-ks
	Naver	aktiivne
	Teoma	aktiivne
	Vivisimo	suletud
2000	Baidu	aktiivne
2000	Exalead	Dassault Systèmesi poolt üle võetud
2002	Inktomi	Yahoo! poolt üle võetud
2003	Info.com	aktiivne
2004	Yahoo! Search	aktiivne
	A9.com	suletud
	Sogou	aktiivne
2005	AOL Search	aktiivne
	Ask.com	aktiivne
	GoodSearch	aktiivne
	SearchMe	suletud
2006	wikiseek	aktiivne
	Quaero	aktiivne
	Ask.com	aktiivne
	Live Search	aktiivne Bingina
	ChaCha	aktiivne
	Guruji.com	aktiivne
2007	wikiseek	suletud
	Sproose	suletud
	Wikia Search	suletud
	Blackle.com	aktiivne
2008	Powerset	Microsofti poolt üle võetud
	Picollator	suletud
	Viewzi	suletud
	Boogami	aktiivne
	LeapFish	suletud
	Forestle	aktiivne
	VADLO	aktiivne
	Duck Duck Go	aktiivne
2009	Bing	aktiivne
	Yebol	aktiivne
	Search2.net	aktiivne
	Mugurdy	suletud
	Goby	aktiivne
2010	Yandex	aktiivne
	Cuil	suletud
	Blekko	aktiivne
	Yummly	aktiivne
	Solusee	aktiivne
2011	Interred	aktiivne
2013	Aoohe	aktiivne
2013	Go.Mail.ru	aktiivne

Veebi algusaegadel kasutati veebiserverite loetelu, mida toimetas Tim Berners-Lee ja majutas CERN-i serveris. 1992. aastast on alles ka üks ajalooline pilt^[3] Kuna internetti tekkis järjest kiiremini uusi veebiservereid, ei suutnud see loetelu enam kasvuga sammu pidada. NCSA lehel teatati uutest serveritest jaotises "What's New!" ('mida uut!').^[4]

Esimene tööriist, mida kasutati internetis otsimiseks, oli Archie. Nimi tähendas "archive" ('arhiiv') ilma "v"-ta. Selle lõid 1990. aastal Alan Emtage, Bill Heelan ja J. Peter Deutsch, arvutitehnika õpilased McGilli ülikoolist Montréalis. Programm laadis alla registri nimekirjad kõikidest failidest, mis asusid avalikes FTP võrgukohtades, luues failinimedega otsitava andmebaasi. Archie ei indekseerinud lehtede sisu, sest andmemahud olid piiratud, samas võis andmeid lihtsalt leida.

Gopheri loomine 1991. aastal Mark McCahilli poolt avas tee kahele uuele otsinguprogrammile: Veronica ja Jughead. Sarnaselt Archiega otsisid nad failinimesid ja pealkirju, mis olid salvestatud Gopheri indeksisüsteemidesse. Veronica võimaldas märksõnaotsingut enamikule Gopheri menüü pealkirjadele terves Gopheri nimekirjas. Jughead oli tööriist, mille abil võis leida menüü infot kindlatest Gopheri serveritest. Kuigi otsingumootori Archie nimi polnud viide Archie koomiksisarjale, said Veronica ja Jughead nime selle sarja tegelaste järgi ja viitasid niimoodi oma eelkäijale.

1993. aasta suvel ei olnud veebi jaoks ühtegi otsingumootorit, mitmeid spetsiaalseid katalooge hallati käsitsi. Oscar Nierstrasz Geneva Ülikoolist kirjutas seeria Perli skripte, mis perioodiliselt peegeldasid neid lehti ja nad kirjutasid need ümber standardvormingusse, mis moodustas W3Catalogi aluse. See oli esimene primitiivne veebis kasutatav otsingumootor ning anti välja 2. septembril 1993.^[5]

1993. aasta juunis lõi Matthew Gray arvatavasti esimese veebiroboti, Perli baasil loodud World Wide Web Wandereri ja kasutas seda Wandexi-nimelise indeksi loomiseks. Wandereri eesmärgiks oli mõõta veebi suurust, mida see tegi kuni 1995. aastate lõpuni. Veebi teine otsingumootor ALiweb ilmus novembris 1993. Aliweb ei kasutanud veebirobotit, vaid sõltus veebilehtede adminide teavitustest iga lehe olemasolu kohta.

JumpStation ('hüppejaam') kasutas veebirobotit veebilehtede leidmiseks ja neist registri ehitamiseks ning kasutas veebiankeeti kasutajaliidesena oma päringu programmina. See oli seega esimene WWW ressursi avastamise vahend, milles olid liidetud kolm põhilist otsingumootori omadust (roomamine, indekseerimine ja otsimine). Kuna platvormil, millel see jooksis, olid piiratud ressursid, piirdus selle indekseerimine ja seega ka otsimine pealkirjadega lehtedega, mida ämblik oli külastanud.

Üks esimesi täistekstiämbliku baasil toimivaid otsingumootoreid oli WebCrawler ('veebiämblik'), mis tuli välja 1994. aastal. Erinevalt eelkäijatest lasi see oma kasutajatel otsida iga sõna igal veebilehel, mis on sellest ajast saadik muutunud standardiks kõigile otsingumootoritele. See oli ka üks esimesi otsingumootoreid, mis sai tuntuks laiema avalikkuse ees.

Peagi loodi veel mitu otsingumootorit, mis konkureerisid omavahel populaarsuse pärast. Nende seas olid Magellan, Excite, Infoseek, Inktomi, Northern Light ja AltaVista. Yahoo! oli üks populaarsemaid viise inimesi huvitavate veebilehtede leidmiseks, kuid selle otsingufunktsioon toimis enda veebiregistril täistekstlehtede koopiate asemel. Info otsijad said vaadata ka registrit otsingusõnal põhineva otsingu asemel.

1996. aastal tahtis Netscape anda ühele otsingumootorile eksklusiivse lepingu, millega see muutuks Netscape'i brauseriga kaasasolevaks otsingumootoriks. Huvi selle vastu oli nii suur, et Netscape tegi tehingu viie suurema otsingumootoriga. 5 miljoni dollari eest aastas olid Netscape'i otsingulehel ringluses viis otsimootorit: Yahoo!, Magellan, Lycos, Infoseek ja Excite.^[6]

Otsingumootoreid peeti ka eredamateks tähtedeks 1990. aastate lõpu internetti investeerimise hulluses.^[7] Mitmel firmal läks turule sisenemine suurepäraselt, nad said avalikel pakkumistel rekordilisi tulusid. Mõned võtsid maha oma avalikud otsingumootorid ja turustasid ainult ettevõtetele mõeldud versioone nagu Northern Light.

2000. aasta paiku tõusis tippu Google'i otsingumootor. Firma saavutas paremaid tulemusi innovatsiooniga PageRank. See korduv algoritm hindab veebilehti PageRank-numbri alusel. Eeldatakse, et headele ja nõutud lehtedele lingitakse teistelt veebisaitidelt rohkem kui teistele. Google säilitas oma otsingumootoris ka minimalistliku kasutajaliidese, vastandina mitmetele konkurentidele, kelle otsingumootor oli veebiportaali sisse ehitatud.^[viide?]

2000. aastal hakkas Yahoo! kasutama otsingutulemuste saamiseks Google'it. Yahoo! hankis endale Inktomi 2002. ja Overture'i 2003. aastal. 2004 tuli ta välja oma otsingumootoriga, milles olid ühendatud Yahoo!-le kuuluvate rakenduste tehnoloogiad.^[viide?]

Microsoft lasi MSN Searchi välja 1998. aasta sügisel, kasutades Inktomi otsingutulemusi. 1999. aasta alguses hakkas leht näitama loetelusid Looksmartist, mis olid kokku segatud tulemustega Inktomist.^[viide?] 2004 hakkas Microsoft oma otsingutehnoloogiale üle minema.^[viide?] Microsofti taasmärgistatud otsingumootor Bing avati kasutajatele 1. juunil 2009.^[viide?] 29. juulil lõpetasid Yahoo! ja Microsoft lepingu, mille kohaselt hakkab Yahoo! Search toimima Microsoft Bingi tehnoloogia baasil.^[viide?]

Kuidas otsingumootor töötab

Tavalise veebiämbliku kõrgtaseme arhitektuur (ingl)

Otsingumootor toimib sellises järjekorras:

veebis "roomamine";
indekseerimine, st sorteerimine, analüüsimine, markeerimine jne;
päringutele sobivate vastuste otsimine.

Otsingumootorid toimivad salvestades infot mitmete veebilehtede kohta, mille nad otsivad välja HTML-ist endast. Need lehed leitakse veebiämbliku abil – see on automatiseeritud veebibrauser, mis järgib igat linki lehel. Erandeid saab teha robots.txt abil. Seejärel analüüsitakse iga lehe sisu, misjärel otsustatakse, kuidas seda indekseerida. Andmeid veebilehtede kohta hoitakse indeksi andmebaasides, et kasutada hilisemates päringutes, mis võib olla ka ühe sõna pikkune. Indeksi eesmärk on lubada info võimalikult kiiret leidmist. Mõned otsingumootorid, näiteks Google, salvestavad kas kõik või osa allika lehest ja ka infot veebilehtede kohta. Teised, nagu AltaVista, salvestavad iga sõna igalt lehelt, mis nad leiavad. Nii salvestatud leht omab tegelikku otsingumootori teksti, sest see oli see, mis tegelikult indekseeriti. Sellest on kasu, kui lehte on uuendatud ja otsingusõnu pole seal enam näha. Lehtede salvestamine võimaldab otsingu suurt täpsust, sest need võivad sisaldada andmeid, mida enam kusagil mujal ei leidu.

Kui kasutaja sisestab otsingumootorisse päringu, siis uurib mootor oma indekseid ja tagastab nimekirja parima sobivusega veebilehtedest vastavalt oma sisule, tavaliselt lühikese kokkuvõttega dokumendi pealkirjast ja mõnikord lõiguga tekstist. Indeks ehitatakse üles informatsioonist, mis salvestatakse koos andmetega vastavalt info indekseerimismeetodile. Seni pole aga ühtegi avalikku otsingumootorit, mis lubaks faile otsida kuupäeva alusel. Enamik otsingumootoreid toetab konnektorite JAH, VÕI ja EI kasutamist, et võimaldada täpsema päringu esitamist. Konnektorid lubavad kasutajal muuta ja laiendada otsingutingimusi. Mootorid otsivad sõnu või fraase täpselt nii, nagu need sisestati. Mõned otsingumootorid pakuvad arenenud võimalust, mis lubab kasutajal määrata võtmesõnade vahelist kaugust. On ka ideelisi otsinguid, kus uurimine sisaldab statistilise analüüsi kasutamist lehtedel, mis sisaldavad sõnu või fraase, mida otsitakse. Loomuliku keele päringud lubavad kasutajal sisestada küsimuse nõnda, nagu seda küsitaks teiselt inimeselt, üks selline sait on näiteks ask.com.

Otsingumootori tõhusus sõltub otsingutulemuste asjakohasusest. Kuigi teatud sõna või fraasi sisaldavaid lehekülgi on miljoneid, on mõned neist asjakohasemad, populaarsemad või usaldusväärsemad kui teised. Enamik otsingumootoreid kasutab meetmeid tulemuste järjestamiseks, et tuua "parimad" tulemused ettepoole. See, kuidas mootorid otsustavad, millised vasted on parimad ja millises järjekorras neid näidata, sõltub mootorist endast. Meetodid muutuvad aja jooksul samamoodi, nagu muutub interneti kasutamine ja tekivad uued tehnikad. Põhiliselt on olemas kahte tüüpi otsingumootoreid: üks on süsteem kindlaksmääratud ja hierarhiliselt järjestatud otsingusõnadega, mida on laialdaselt programmeeritud. Teine süsteem loob tagurpidi indeksi, analüüsides leitavat teksti ning toetub tugevamalt arvutile, mis teeb ära suurema osa tööst.

Enamik otsingumootoreid on äriprojektid, mis teenivad tulu reklaami müügiga. Reklaamiandjad maksavad, et enda lehekülge otsingutulemuste seas kõrgemale tõsta. Otsingumootorid, mis tulemusi raha eest ei järjesta, teenivad, näidates oma tavatulemuste kõrval otsingutulemustega seotud reklaame. Otsingumootor teenib raha iga kord, kui keegi avab ühe sellise reklaami.

Turuosa

Google'i otsingumootori ülemaailmne populaarsus jõudis tippu aprillis 2010, kui saadi kätte 86,3% turuosa.^[8] Otsingumootorid nagu Yahoo! ja Bing olid populaarsemad Ameerikas kui Euroopas. Hiina Rahvavabariigis oli 2009. aasta juulis 61,6% turust Baidu käes.^[9]

NET MARKETSHARE kohaselt olid veebruaris 2021 otsimootorite turuosad maailmas järgmised: Google 72,68%, Bing 11,94%, Baido 11,72%, Yahoo! 1,81% ja ülejäänud jäid 2% sisse.^[10]

Otsingumootorite kallutatus

Kuigi otsingumootorid on programmeeritud reastama veebilehti populaarsuse ja asjakohasuse järgi, on kogemustel põhinevast uurimistööst näha, et neis leidub poliitilisi, majanduslikke ja sotsiaalseid eelarvamusi^[11].^[12] Nende eelarvamuste põhjuseks võivad olla majanduslikud, ärilised (nt firmad, mis reklaamivad end otsingumootorite abil võivad muutuda populaarsemaks loomulikes otsingutulemustes) ja poliitilised (nt otsingu tulemuste kustutamine, et olla vastavuses kohalike seadustega) protsessid.^[13] Üheks näiteks, kus otsingutulemusi üritatakse mõjutada poliitilistel, sotsiaalsetel või ärilistel põhjustel, on "Google Bombing".

Veebiämblik

Veebiämblik on robotprogramm, mis otsib veebis kindla ja korrapärase meetodiga uusi veebidokumente ja lisab leitud tulemused andmebaasidesse. Nimetuse on programm saanud selle järgi, et see ronib veebis ringi, nii nagu ämblik oma võrgul. Paljud otsingumootorite saidid kasutavad veebiämblikke, et tagada uusima info näitamine otsingutulemustes. Kiirete otsingutulemuste saamiseks kasutatakse veebiämblikke, mis teevad külastatud lehtedest koopia, mida saab hiljem töödelda. Ämblikke võib kasutada veebilehtedel automaatseteks hooldustöödeks nagu linkide kontrollimine või HTML-koodi kinnitamine. Lisaks võib neid kasutada ka veebilehtedelt kindla info leidmiseks, näiteks kogutakse e-posti aadresse rämpsposti saatmise eesmärgil.

Tööpõhimõte

Veebiämblikel on alguses nimekiri URL-idest, mida nad peavad külastama. Iga kord, kui ta külastab ühte URL-i, tuvastab see kõik lehel olevad hüperlingid ja lisab need oma URL-ide nimekirja. Kõiki linke külastatakse kindlate reeglite järgi ja veebiämbliku käitumine oleneb nende reeglite kooskõlast:^[14]

valikureegel, mis määrab, milliseid lehti alla laadida;
taaskülastusreegel, mis määrab, millal kontrollida lehtedes toimunud muudatusi;
viisakusreegel, mis määrab, kuidas vältida lehtede ülelaadimist;
paralleelsusreegel, mis määrab, kuidas kooskõlastada ämblikevahelist tööd.

Avalike veebiämblike näiteid

Yahoo! Slurp – Yahoo Searchi ämblik
Bingbot – Microsoft Bingi veebiämblik, mis asendas Msnboti
FAST Crawler^[15] – jagatud ämblik, mida kasutab Fast Search & Transfer
Googlebot^[16] – Google'i ämblik, viite kirjeldus on ämbliku vanemast versioonist, mis oli kirjutadud C++ ja Pythoniga
PolyBot^[17] – jagatud ämblik kirjutatud C++ ja Pythoniga, mis koosneb "ämblikuhaldurist", ühest või rohkemast "tõmbajast" ja ühest või rohkemast "DNSi lahendajast".
RBSE^[18] – esimene avaldatud veebiämblik. See põhines kahel programmil: "spider" haldas järjekorda suhtelises andmebaasis ja "mite" oli modifitseeritud www ASCII brauser, mis laadis veebist lehti
WebCrawlerit^[19] kasutati, et luua esimene veebi alamhulga avalikult kasutatav täistekstiregister
World Wide Web Worm^[20] – esimene ämblik, mida kasutati lihtdokumentide nimede ja URL-ide nimekirja loomiseks.
WebRACE^[21] – Javas teostatud roomav ja salvestav moodul, mida kasutatakse osana üldisemast süsteemist eRACE.^[22]

Vaata ka

Otsingumootoritele optimeerimine

Viited

↑ "Otsingumootor". Originaali arhiivikoopia seisuga 8. detsember 2012. Vaadatud 19. detsembril 2011.
↑ "Veebiämblik". Originaali arhiivikoopia seisuga 8. detsember 2012. Vaadatud 19. detsembril 2011.
↑ Veebi ajaloolised serverid
↑ Mida Uut! Veebruar 1994
↑ W3Catalog
↑ "Yahoo! ja Netscape Ink vaheline leping" (PDF). Originaali (PDF) arhiivikoopia seisuga 16. november 2013. Vaadatud 12. detsembril 2011.
↑ "Interneti otsingumootorite vahelise võistluse dünaamika" – Neil Gandal
↑ Google turuosa
↑ "Otsingumootorite turuosa 2009 juulis". Originaali arhiivikoopia seisuga 26. detsember 2009. Vaadatud 12. detsembril 2011.
↑ Search Engine Market Share
↑ Elad Segev – "Google and the Digital Divide: The Biases of Online Knowledge".
↑ L.Vaughan & M.Thelwall – "Search engine coverage bias: evidence and possible causes, Information Processing & Management".
↑ Google asendamine alternatiivsete otsingumootoritega Hiinas
↑ Veebiämblike efektiivsusest
↑ K.M.Risvik, and R.Michelsen Otsingumootorid ja Veebi Dünaamika^{[alaline kõdulink]}
↑ Googleboti arhitektuur
↑ "Kõrge töövõimega veebiämbliku disainist ja kasutamisest" (PDF). Originaali (PDF) arhiivikoopia seisuga 1. oktoober 2005. Vaadatud 21. jaanuaril 2012.
↑ D.Eichmann RBSE ämblik: otsingu ja veebi laadimise tasakaalustamisest.
↑ "Kogemusi WebCrawleriga". Originaali arhiivikoopia seisuga 4. september 2001. Vaadatud 4. septembril 2001.
↑ O.A.McBryan "GENVL and WWWW: Tools for taming the web".
↑ D.Zeinalipour-Yazti ja M.D.Dikaiakos Kõrge töövõimega veebiämbliku disainist ja kasutamisest.
↑ "eRACE". Originaali arhiivikoopia seisuga 30. jaanuar 2012. Vaadatud 21. jaanuaril 2012.

[d0zc9-1] "Otsingumootor". Originaali arhiivikoopia seisuga 8. detsember 2012. Vaadatud 19. detsembril 2011.

[Z72lT-2] "Veebiämblik". Originaali arhiivikoopia seisuga 8. detsember 2012. Vaadatud 19. detsembril 2011.

[G8y6S-3] Veebi ajaloolised serverid

[lVo7D-4] Mida Uut! Veebruar 1994

[o3EFo-5] W3Catalog

[OMXiK-6] "Yahoo! ja Netscape Ink vaheline leping" (PDF). Originaali (PDF) arhiivikoopia seisuga 16. november 2013. Vaadatud 12. detsembril 2011.

[j6929-7] "Interneti otsingumootorite vahelise võistluse dünaamika" – Neil Gandal

[PP6E5-8] Google turuosa

[FLZBG-9] "Otsingumootorite turuosa 2009 juulis". Originaali arhiivikoopia seisuga 26. detsember 2009. Vaadatud 12. detsembril 2011.

[10] Search Engine Market Share

[2yCQN-11] Elad Segev – "Google and the Digital Divide: The Biases of Online Knowledge".

[jpRwZ-12] L.Vaughan & M.Thelwall – "Search engine coverage bias: evidence and possible causes, Information Processing & Management".

[KGU1g-13] Google asendamine alternatiivsete otsingumootoritega Hiinas

[9wnB2-14] Veebiämblike efektiivsusest

[ZnRvN-15] K.M.Risvik, and R.Michelsen Otsingumootorid ja Veebi Dünaamika^{[alaline kõdulink]}

[SHEyS-16] Googleboti arhitektuur

[KIMzP-17] "Kõrge töövõimega veebiämbliku disainist ja kasutamisest" (PDF). Originaali (PDF) arhiivikoopia seisuga 1. oktoober 2005. Vaadatud 21. jaanuaril 2012.

[PEhKZ-18] D.Eichmann RBSE ämblik: otsingu ja veebi laadimise tasakaalustamisest.

[QxwFm-19] "Kogemusi WebCrawleriga". Originaali arhiivikoopia seisuga 4. september 2001. Vaadatud 4. septembril 2001.

[woAJZ-20] O.A.McBryan "GENVL and WWWW: Tools for taming the web".

[MefaB-21] D.Zeinalipour-Yazti ja M.D.Dikaiakos Kõrge töövõimega veebiämbliku disainist ja kasutamisest.

[7cAIR-22] "eRACE". Originaali arhiivikoopia seisuga 30. jaanuar 2012. Vaadatud 21. jaanuaril 2012.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]