Co je vyhledávač, jak to funguje?

18. 5. 2019

V posledních letech služby Google a Yandex vstoupily do našeho života. V tomto ohledu se mnozí pravděpodobně ptají, co vyhledávač? Jednoduše řečeno, jedná se o softwarový systém určený k vyhledání informací na World Wide Web. Výsledky jsou obvykle prezentovány ve formě seznamu, často nazývaného stránky s výsledky vyhledávání (SERP). Informace mohou být kombinací webových stránek, obrázků a jiných typů souborů. Některé vyhledávače také obsahují informace dostupné v databázích nebo otevřených adresářích.

co je vyhledávač

Na rozdíl od webových adresářů, které jsou podporovány pouze jejich vlastními editory, vyhledávače také obsahují informace v reálném čase, běžící algoritmus na webovém vyhledávači.

Dějiny

Vyhledávací stroje se objevily před World Wide Web - v prosinci 1990. První taková služba se nazývala Archie a hledal příkazy k obsahu souborů FTP.

Co je to vyhledávač na internetu? Do září 1993 byla celosvětová síť kompletně indexována ručně. Byl zde seznam webových serverů, který editoval Tim Berners-Lee, který byl umístěn na webovém serveru CERN. Vzhledem k tomu, že se stále více serverů připojilo k internetu, výše uvedená služba se jim nepodařilo zpracovat množství informací.

vyhledávač Google

Jeden z prvních vyhledávačů založených na vyhledávání na webu byl WebCrawler, který byl propuštěn v roce 1994. Na rozdíl od svých předchůdců umožnil uživatelům vyhledávat jakékoliv slovo na libovolné webové stránce. Tento algoritmus se od té doby stal standardem pro všechny hlavní vyhledávače. Bylo to také první rozhodnutí, široké veřejnosti známé. Také v roce 1994 byla zahájena služba Lycos, která se později stala významným komerčním projektem.

Krátce poté se objevilo mnoho vyhledávačů a jejich popularita se výrazně zvýšila. Mezi ně patří Magellan, Excite, Infoseek, Inktomi, Severní světlo a AltaVista. Yahoo! byl jedním z nejpopulárnějších způsobů, jak najít zajímavé webové stránky, ale vyhledávací algoritmus pracoval ve svém vlastním adresáři, nikoliv v celoplošných stránkách. Hledající informace by také mohli procházet katalog a nikoli hledat podle klíčových slov.

Vyhledávač Yandex

Nová fáze vývoje

Společnost Google přijala myšlenku prodávat vyhledávací dotazy v roce 1998, počínaje malou společností, goto.com. Tento krok měl významný dopad na business SEO, který se nakonec stal jednou z nejvýnosnějších aktivit na internetu.

Okolo roku 2000 se vyhledávač Google stal všeobecně známým. Společnost dosáhla lepších výsledků pro mnoho vyhledávání prostřednictvím inovací nazvaného PageRank. Tento iterační algoritmus vyhodnocuje webové stránky na základě jejich odkazů na jiné stránky a stránky založené na předpokladu, že dobré nebo požadované zdroje jsou často odkazovány jinými uživateli. Společnost Google také podporovala minimalistické rozhraní svého vyhledávače. Naopak, mnoho závodníků postavilo vyhledávač do webového portálu. Ve skutečnosti se společnost Google stala tak populární, že se objevují podvodné motory, například Mystery Seeker. Dnes existuje mnoho regionálních verzí této služby, zejména vyhledávač Google.ru, určený pro rusky mluvící uživatele.

google ru vyhledávač

Jak fungují tyto služby?

Jak se řadí a dává výsledky? Co jsou vyhledávací motory z hlediska algoritmu akce? Získávají informace prostřednictvím procházení webu z webu na stránky. Robot nebo "pavouk" kontroluje standardní název souboru robots.txt, který je k němu adresován, před odesláním určitých informací pro indexování. Důraz je kladen na řadu faktorů, jako jsou nadpisy, obsah stránky, JavaScript, kaskádové styly (CSS) a standardní značení HTML pro obsah nebo metadata v meta tagy HTML.

Indexování znamená propojení slov a dalších definovatelných tokenů nalezených na webových stránkách s jejich názvy domén a polí založených na HTML. Sdružení jsou vytvořena ve veřejné přístupné databázi, která je k dispozici pro vyhledávací dotazy na webu. Požadavek od uživatele může být jedním slovem. Index pomáhá co nejrychleji najít informace týkající se dotazu.

Některé z nich metody indexování a ukládání do mezipaměti jsou obchodní tajemství, zatímco procházení webu je jednoduchým procesem navštěvování všech stránek na systematickém základě.

Mezi návštěvami robota je uložena v mezipaměti verze stránky (část nebo veškerý obsah potřebný pro její zobrazení) uložený v pracovní paměti vyhledávače. Pokud je návštěva po splatnosti, vyhledávač může jednoduše fungovat jako webový proxy. V tomto případě se může stránka lišit od indexů vyhledávání. Zdroj v mezipaměti zobrazuje verzi, jejíž slova byla indexována, takže může být užitečné, pokud byla ztracena skutečná stránka.

vyhledávače Rusko

Architektura na vysoké úrovni

Obvykle uživatel zadává vyhledávací dotaz ve formě několika klíčových slov. Index již obsahuje jména stránek obsahujících tato klíčová slova a jsou okamžitě zobrazena. Skutečné pracovní zatížení je vytvoření webových stránek, které jsou seznamem výsledků vyhledávání. Každá stránka v tomto seznamu by měla být hodnocena podle informací v indexech.

V tomto případě vyžaduje horní prvek výsledku vyhledávání, rekonstrukci a označování fragmentů, které zobrazují kontext odpovídajících klíčových slov. Toto je pouze část zpracování každé webové stránky ve výsledcích vyhledávání a další stránky (vedle ní) vyžadují většinu tohoto dalšího zpracování.

Kromě toho, že vyhledávače jednoduše vyhledávají klíčová slova, nabízí vyhledávače své vlastní grafické uživatelské rozhraní nebo příkazy řízené operátory a vyhledávací parametry za účelem vylepšení výsledků.

Poskytují potřebné ovládací prvky pro uživatele prostřednictvím zpětné vazby, filtrováním a vážením při vylepšování požadovaných dat s přihlédnutím k počátečním stránkám prvních výsledků vyhledávání. Například od roku 2007 Google.com povolil, aby byl výsledný seznam filtrován podle data kliknutím na "Zobrazit vyhledávací nástroje" v levém sloupci na původní stránce s výsledky a poté výběrem požadovaného časového období.

Ruské vyhledávače

Variant dotazu

Většina vyhledávačů podporuje použití logických operátorů AND, OR a NOT k tomu, aby koncovým uživatelům pomohli upřesnit dotaz. Někteří operátoři jsou určeni pro literály, které uživateli umožňují upřesnit a rozšiřovat podmínky vyhledávání. Robot vyhledává slova nebo fráze stejným způsobem jako zadané příkazy. Některé vyhledávací nástroje poskytují pokročilou funkci vyhledávání, která uživatelům umožňuje určit vzdálenost mezi klíčovými slovy.

Existuje také vyhledávání na základě konceptu, ve kterém výzkum zahrnuje použití statistické analýzy na stránkách obsahujících slova nebo fráze, které hledáte. Navíc požadavky v přirozeném jazyce umožňují uživateli zadat otázku ve stejné podobě, kterou by požádal o osobu (nejtypičtější je například ask.com).

Užitečnost vyhledávače závisí na významu výsledné množiny, kterou produkuje. Mohou existovat miliony webových stránek, které obsahují určité slovo nebo frázi, ale některé z nich mohou být relevantnější, populárnější nebo autoritativnější než jiné. Většina vyhledávačů používá metody hodnocení, které zajišťují nejlepší výsledky.

Jak vyhledávač rozhodne, které stránky jsou pro daný dotaz nejlepší a v jakém pořadí nalezené zdroje se výrazně liší od jednoho robota k druhému. Tyto metody se v průběhu času mění také s tím, jak se mění používání internetu a vývoj nových technologií.

Co je vyhledávač: druh

Existují dva hlavní typy vyhledávače. První je systém předdefinovaných a hierarchicky uspořádaných klíčových slov, s nimiž lidé masivně naprogramovali. Druhým je systém, který generuje "obrácený index" analýzou nalezených textů.

propagace ve vyhledávačích

Většina vyhledávačů je komerčními službami podporovanými příjmy z reklamy, a proto některé z nich umožňují, aby inzerenti získali hodnocení v zobrazených výsledcích za určitý poplatek. Služby, které nepřijímají pořadí peněz, vydělávají peníze spouštěním kontextových reklam vedle zobrazených stránek. Propagace ve vyhledávačích je dnes jedním z nejvýnosnějších příjmů v síti.

Jaké služby jsou nejčastější?

Google je nejoblíbenější vyhledávač na světě s tržním podílem 80,52% k březnu 2017.

Kompletní hodnocení nejběžnějších služeb (s podílem na trhu více než 1%) vypadá takto:

  • Google - 80,52%
  • Bing - 6,92%
  • Baidu - 5,94%
  • Yahoo! - 5,35%

Vyhledávače Ruska a země východní Asie

V Rusku a některých zemích ve východní Asii není Google nejoblíbenější službou. Mezi ruskými uživateli vyhledávač Yandex vede v popularitě (61,9%) ve srovnání se společností Google (28,3%). V Číně je Baidu nejoblíbenější službou. Jižní Korea Search Portal - Naver se používá pro 70% procent online vyhledávání v zemi. Také Yahoo! v Japonsku a na Taiwanu je nejoblíbenějším nástrojem pro nalezení správných dat.

Další známé ruské vyhledávače jsou Mail a Rambler. S počátkem vývoje Runetu byli velmi populární, ale nyní ztratili většinu svých pozic.

Omezení a kritéria vyhledávání

Ačkoli vyhledávače jsou naprogramovány tak, že hodnocují webové stránky založené na některé z jejich popularity a relevance, empirické studie poukazují na různá politická, ekonomická a sociální kritéria pro výběr informací, které poskytují. Tyto předsudky mohou být přímým důsledkem hospodářského (např. Společnosti, které inzerují vyhledávač, mohou se také stát populárnější v běžných výsledcích vyhledávání) a politické procesy (například odstranění výsledků vyhledávání podle místních zákonů). Takže Google nezobrazí některé neonacistické stránky ve Francii a Německu, kde je popření holocaustu nezákonné.

Křesťanské, islámské a židovské vyhledávače

Globální růst internetu a elektronických médií v muslimském světě v uplynulém desetiletí přiměl islámské stoupence na Středním Východě a asijském subkontinentu, aby se pokusili vytvořit vlastní vyhledávače a filtrované portály, které uživatelům umožní provádět bezpečné vyhledávání.

Tyto služby obsahují filtry, které dále klasifikují webové stránky jako "halal" nebo "haram" na základě současné odborné interpretace "zákona islámu".

Portál ImHalal se objevil online v září 2011 a Halalgoogling - v červenci 2013. Používají haraamové filtry založené na algoritmech Google a Bing.

Jiné náboženské vyhledávací stroje jsou Jewgle (židovská verze Google), stejně jako Christian SeekFind.org. Filtrují místa, která popírají nebo poníží svou víru.