Príspevok

Boti - čo sú zač a prečo by nás mali zaujímať

Boti sa stali neoddeliteľnou súčasťou súčasného digitálneho priestoru. Pomáhajú nám objednávať potraviny, prehrávať hudbu na našom obľúbenom komunikačnom kanáli a platiť našim kolegom za obed alebo kávu, čo nám kúpili. Boti tiež zapĺňajú internet, aby vykonávali funkcie, na ktoré sú určené. Čo to však znamená pre majiteľov webových stránok? A čo je možno dôležitejšie, čo to znamená pre životné prostredie? Čítajte ďalej a dozviete sa, čo potrebujete vedieť o prevádzke botov a prečo by vás to malo zaujímať!

Čo je to sieťová prevádzka botov?

Na začiatok - (ro)bot je softvérová aplikácia určená na vykonávanie automatizovaných úloh na internete. Boti môžu napodobňovať alebo dokonca nahradiť správanie skutočného používateľa. Sú veľmi dobré vo vykonávaní opakujúcich sa a všedných úloh. Sú tiež rýchle a efektívne, čo z nich robí ideálnu voľbu, ak potrebujete niečo vykonať vo veľkom rozsahu.

Pod pojmom sieťová prevádzka botov (traffic) sa rozumie akákoľvek neľudská návštevnosť webovej lokality alebo aplikácie. V skutočnosti ide o úplne bežnú vec na internete. Ak vlastníte webové stránky, je veľmi pravdepodobné, že vás navštívil bot. Odhaduje sa, že za rok 2022 bude skutočná návštevnosť botov predstavovať viac ako 40% celkovej internetovej návštevnosti. V posledných rokoch bol zaznamenaný nárast tohto čísla a v dohľadnej budúcnosti sa bude v tomto trende pokračovať.

Pravdepodobne ste už počuli, že návštevnosť od botov nie je pre vaše webové stránky dobrá. V mnohých prípadoch je to skutočne zlé. Existujú však aj dobré a legitímne roboty. Skutočne záleží na účele týchto botov a na zámere ich tvorcov. Niektorí boti sú nevyhnutní na prevádzku digitálnych služieb, ako sú vyhľadávače alebo osobní asistenti. Niektorí boti sa chcú hrubou silou dostať na vašu webovú stránku a ukradnúť citlivé informácie. Ktoré aktivity botov sú teda dobré a ktoré zlé? Poďme sa týmto dvom druhom botov venovať trochu hlbšie.

Dobrí roboti

Dobrí boti vykonávajú úlohy, ktoré nepoškodzujú vaše webové stránky alebo server. Oznamujú sa a dávajú vám vedieť, čo na vašej webovej lokalite robia.

Najobľúbenejším botom tohto typu sú pravdepodobne vyhľadávacie roboty. Bez prehľadávačov (crawlerov), ktoré navštevujú vašu webovú lokalitu a objavujú obsah, by vám vyhľadávače nemali ako servírovať informácie, keď niečo hľadáte. Keď hovorím o “dobrej” návštevnosti botov, mám na mysli práve týchto botov.

Je úplne normálne, že web má malé percento návštevnosti pochádzajúcej od “dobrých” botov. Okrem crawlerov pre vyhľadávače medzi ďalšie dobré internetové roboty patria napr:

  • SEO prehľadávače: Ak sa zaoberáte SEO optimalizáciou (SEO = optimalizácia pre vyhľadávače), pravdepodobne ste na prieskum kľúčových slov alebo získanie prehľadu o konkurencii používali rôzne nástroje. Aby vám tieto nástroje mohli poskytovať informácie, musia tiež vysielať roboty, ktoré prehľadávajú web a zhromažďujú údaje.
  • Komerčné roboty: Komerčné spoločnosti posielajú týchto botov, aby prehľadávali web a zbierali informácie. Napríklad výskumné spoločnosti ich používajú na monitorovanie noviniek na trhu; reklamné siete ich potrebujú na monitorovanie a optimalizáciu zobrazovaných reklám; “kupónové” webové stránky zhromažďujú zľavové kódy a predajné programy, ktoré slúžia používateľom na ich webových stránkach.
  • Boti na monitorovanie stránok: Pomáhajú vám monitorovať čas prevádzky vašich webových stránok a ďalšie metriky webových stránok. Pravidelne kontrolujú a hlásia údaje, ako je stav servera a trvanie prevádzkyschopnosti, aby ste mohli konať, keď je s vašou stránkou niečo v neporiadku.
  • Boti kanálov(feed)/agregátory: Zhromažďujú a kombinujú obsah hodný pozornosti, ktorý sa má doručiť návštevníkom vášho webu alebo odberateľom e-mailov.

Zlí roboti

Zlí roboti sú vytvorený so zlými úmyslami. Pravdepodobne ste sa už stretli so spamovacími robotmi, ktoré spamujú vaše webové stránky nezmyselnými komentármi, nerelevantnými spätnými odkazmi a otrasnými reklamami. Pravdepodobne ste tiež počuli o botoch, ktoré zaberajú ľuďom miesta v online lotériách, alebo o tých, ktoré vykupujú dobré miesta na koncertoch.

Práve kvôli týmto škodlivým botom má bot traffic zlú povesť, a to oprávnene. Bohužiaľ, v súčasnosti je na internete veľké množstvo zlých botov. Odhaduje sa, že za rok 2022 bude prevádzka škodlivých botov predstavovať 27,7% internetovej prevádzky.

Tu sú niektoré z botov, ktoré na svojej stránke nechcete:

  • E-mailové zberače (scrapers): Zbierajú e-mailové adresy a posielajú na ne škodlivé e-maily.
  • Spamovacie roboty na komentáre: Spamujú vašu webovú stránku komentármi a odkazmi, ktoré presmerujú ľudí na škodlivú webovú stránku. Alebo v mnohých prípadoch spamujú vašu webovú stránku s cieľom inzerovať alebo sa snažia získať spätné odkazy na svoje stránky.
  • Zberacie roboty (scrapers): Tieto roboty prichádzajú na vaše webové stránky a sťahujú všetko, čo nájdu. To môže zahŕňať váš text, obrázky, súbory HTML a dokonca aj videá. Prevádzkovatelia botov potom opätovne použijú váš obsah bez povolenia.
  • Prihlasovací boti / na útoky hrubou silou: Títo boti sa pokúsia získať prístup na vašu webovú lokalitu s cieľom ukradnúť citlivé informácie. Robia to tak, že sa pokúšajú prihlásiť ako skutočný používateľ.
  • Botnet, zombie počítače: Sú to siete infikovaných zariadení, ktoré sa používajú na vykonávanie útokov DDoS. DDoS je skratka pre distribuované odmietnutie služby. Počas útoku DDoS útočník používa takúto sieť zariadení na zaplavenie webovej lokality prevádzkou botov. Tým zahltí webový server požiadavkami, čo má za následok pomalé alebo nepoužiteľné webové stránky (pozdravujem všetkých s nepatchovanými Windows 7).
  • Nákupné a ticketovacie boty: Chodia na webové stránky, aby skupovali lístky na zábavné podujatia alebo hromadne nakupovali novo vydané produkty. Sprostredkovatelia ich používajú na ďalší predaj vstupeniek alebo produktov za vyššiu cenu, aby dosiahli zisk.

Prečo by ste sa mali zaujímať o sieťovú prevádzku botov

Teraz, keď už máte nejaké vedomosti o návštevnosti botov, poďme si povedať, prečo by ste sa o ňu mali starať.

Pre bezpečnosť a výkon vašej webovej stránky

Prebrali sme niekoľko typov zlých botov a ich funkcie. Je samozrejmé, že nechcete, aby na vašej webovej lokalite číhali škodliví boti. Nepochybne spôsobia spúšť na výkone a bezpečnosti vašej webovej lokality.

Škodlivé roboty sa maskujú ako bežná ľudská návštevnosť, takže pri kontrole štatistík webovej lokality nemusia byť viditeľné. To môže potenciálne poškodiť vaše obchodné rozhodnutia, pretože nemáte k dispozícii správne údaje. Môžete vidieť náhodné nárasty návštevnosti, ale neviete prečo. Alebo môžete byť zmätení, prečo máte návštevnosť, ale žiadnu konverziu.

Okrem toho škodlivá prevádzka botov zaťažuje váš webový server a niekedy ho môže preťažiť. Títo boti svojimi požiadavkami zaberajú šírku pásma pripojenia vášho servera, čím sa vaša webová lokalita stáva pomalou alebo v prípade útoku DDoS úplne nedostupnou. Medzitým môžete prísť o návštevnosť a predaj v prospech konkurentov.

Posledná vec, ktorú chcem spomenúť, je, že škodliví boti škodia bezpečnosti vašej webovej lokality. Budú sa snažiť hrubou silou dostať na vašu webovú lokalitu pomocou rôznych kombinácií používateľského mena a hesla alebo vyhľadávať slabé miesta. Ak máte bezpečnostné zraniteľnosti, títo škodliví hráči sa môžu dokonca pokúsiť nainštalovať na vašu webovú lokalitu vírusy a šíriť ich medzi používateľov. A ak vlastníte internetový obchod, určite spravujete citlivé informácie, napríklad údaje o platobných kartách, ktoré by hackeri radi ukradli.

Pre životné prostredie

Vráťme sa k otázke na začiatku príspevku. Musíte sa starať o prevádzku botov, pretože ovplyvňujú životné prostredie viac, ako si myslíte.

Keď bot navštívi vašu lokalitu, odošle na váš server požiadavku HTTP so žiadosťou o informácie. Váš server musí na túto požiadavku odpovedať a vrátiť potrebné informácie. Vždy, keď sa tak stane, váš server musí vynaložiť malé množstvo energie na dokončenie požiadavky. Ak však vezmete do úvahy všetky roboty na internete, potom je množstvo energie spotrebovanej na prevádzku botov obrovské.

V tomto zmysle nezáleží na tom, či vašu stránku navštívi dobrý alebo zlý bot, pretože proces je stále rovnaký. Obaja spotrebúvajú energiu na vykonávanie svojich úloh a obaja majú dôsledky na životné prostredie. Hoci sú vyhľadávače dôležitou súčasťou internetu, aj ony sú vinné z plytvania.

Základy už poznáte, vyhľadávače posielajú na vašu stránku prehľadávače, aby objavili nový obsah a obnovili starý. Môžu však navštíviť vašu stránku zbytočne často a pritom ani nezachytiť tie správne zmeny. Odporúčam skontrolovať logy servera, aby ste zistili, koľkokrát crawlery a boti navštívili vašu lokalitu. Okrem toho je v konzole Google Search Console k dispozícii prehľad štatistík prehľadávania, ktorý tiež informuje o tom, koľkokrát Google prehľadáva vašu lokalitu. Niektoré čísla vás tam možno prekvapia.

Čo robiť proti zlým botom

Môžete sa pokúsiť odhaliť zlé roboty a zablokovať im vstup na vašu stránku. Ušetríte tak veľkú šírku pásma a znížite zaťaženie servera, čo zase pomôže ušetriť energiu.

Najzákladnejším spôsobom, ako to urobiť, je zablokovať konkrétnu IP alebo celý rozsah IP adries. IP adresu by ste mali zablokovať, ak z nej zistíte neobvyklú prevádzku. Tento prístup síce funguje, ale je prácny a časovo náročný. Môžete taktiež použiť riešenie na správu botov od poskytovateľov, ako je napríklad Cloudflare. Tieto spoločnosti majú rozsiahlu databázu dobrých a zlých botov. Využívajú tiež umelú inteligenciu a strojové učenie na detekciu škodlivých botov a blokujú ich skôr, ako môžu spôsobiť škodu na vašom webe.

Ak používate webové stránky postavené na redakčnom systéme (Joomla, WordPress, …) mali by ste si nainštalovať bezpečnostný doplnok pre botov. Dajú sa nájsť aj také doplnky, ktoré spravujú spoločnosti zamestnávajúce bezpečnostných výskumníkov, ktorí monitorujú a opravujú prípadné chyby. Niektoré bezpečnostné doplnky za vás automaticky blokujú konkrétne “zlé” roboty. Iné vám umožnia vidieť, odkiaľ prichádza neobvyklá prevádzka, a rozhodnete sa, ako s ňou naložiť.

A čo “dobrí” boti?

Ako som už spomenul, “dobré” roboty sú dobré, pretože sú dôležité a transparentné v tom, čo robia. Pri vykonávaní svojich úloh však môžu spotrebovať veľa energie, nehovoriac o tom, že títo dobrí boti nemusia byť pre vás ani užitoční. Aj keď to, čo robia, možno považovať za “dobré”, môžu dokonca priniesť nevýhody pre vašu webovú lokalitu. Čo teda môžete urobiť pre dobrých botov?

  1. Zablokujte ich, ak nie sú užitoční
    Musíte sa zamyslieť a rozhodnúť, či chcete, aby tieto “dobré” roboty prehľadávali vašu stránku. Je pre vás ich prehľadávanie vašej webovej lokality prínosom?

    Vezmime si napríklad roboty vyhľadávačov. Viete, že Google nie je jediný vyhľadávač. Je veľmi pravdepodobné, že vás navštívili aj crawlery z iných vyhľadávačov. Povedzme, že skontrolujete logy svojho servera a zistíte, že vyhľadávač dnes prešiel na vašu stránku 100-krát, ale priniesol vám len desať návštevníkov. Ak je to tak, bolo by užitočné nechať roboty z tohto vyhľadávača prehľadávať vašu stránku? Alebo by ste ich mali zablokovať, pretože z tohto vyhľadávača aj tak nemáte veľkú pridanú hodnotu?

  2. Obmedzte rýchlosť prehľadávania botmi
    Ak je v súbore robots.txt podporovaná funkcia crawl-delay, mali by ste sa pokúsiť obmedziť rýchlosť ich prehľadávania, aby sa nevracali raz za 20 sekúnd a neprehľadávali stále tie isté odkazy. Toto je veľmi užitočné pre stredne veľké až veľké webové stránky, ktoré crawlery často navštevujú. Používanie oneskorenia prehľadávania je však výhodné aj pre malé webové stránky. Je veľmi pravdepodobné, že obsah svojej webovej lokality neaktualizujete 100-krát za deň, a to ani v prípade väčších webových lokalít. A ak vaše stránky navštevujú roboty na kontrolu porušovania autorských práv, potrebujú prichádzať každých pár hodín?

    Môžete sa taktiež pohrať s rýchlosťou prehľadávania a sledovať jej vplyv na vašu webovú lokalitu. Môžete priradiť konkrétnu rýchlosť oneskorenia prehľadávania pre prehľadávače z rôznych zdrojov. Začnite s miernym oneskorením a toto číslo zvyšujte, dokiaľ si budete istí, že to nemá negatívne dôsledky. Bohužiaľ, spoločnosť Google nepodporuje oneskorenie prehľadávania, takže ho pre roboty od Google nemusíte nastavovať.

  3. Pomôžte im pri efektívnejšom prehľadávaní
    Môžete sa rozhodnúť, ktoré časti webu nechcete, aby boti prehľadávali, a zablokovať im prístup prostredníctvom súboru robots.txt. Pomáha to optimalizovať prehľadávanie.

    Na vašej webovej lokalite je veľa miest, kam crawlery nemajú čo chodiť. Môžu to byť napríklad vaše interné výsledky vyhľadávania. Tie nikto nechce vidieť vo verejných výsledkoch vyhľadávania. Alebo ak máte webovú lokalitu na testovanie, pravdepodobne nechcete, aby ju ľudia našli.

    Ďalej môžete pomôcť robotom lepšie prehľadávať vašu lokalitu odstránením nepotrebných odkazov, ktoré automaticky vytvára váš redakčný systém a jeho doplnky. Napríklad WordPress automaticky vytvára na vašej webovej lokalite zdroj RSS pre komentáre. Samozrejme, že tento kanál RSS obsahuje odkaz. Ale aj tak si ho takmer nikto nepozrie, najmä ak nemáte veľa komentárov. Preto vám existencia tohto RSS kanála nemusí priniesť žiadnu hodnotu. Vytvára len ďalší odkaz, ktorý musia prehľadávače opakovane prehľadávať, čím sa plytvá energia.

Tento príspevok je licencovaný pod CC BY 4.0 jeho autorom.

Comments powered by Disqus.

© zvalo. Niektoré práva vyhradené.

Poháňa ma Jekyll s Chirpy témou.