Semalt Bitt Tipps fir Wéi Bots, Spider a Crawler ze këmmeren

Niewent der Sichmotor- frëndlech URLen ze kreéieren léisst den .htaccess Datei Webmasteren spezifesch Bots blockéieren fir Zougang zu hirer Websäit. Ee Wee fir dës Roboteren ze blockéieren ass duerch d'robot.txt Datei. De Ross Barber, de Semalt Customer Success Manager, seet awer datt hien e puer Crawler gesinn huet déi dës Ufro ignoréieren. Ee vun de beschte Weeër ass den .htaccess Datei ze benotzen fir se vun Ärem Inhalt ze indexéieren.

Wat sinn dës Bot?

Si sinn eng Zort Software déi vu Sichmotoren benotzt gëtt fir neien Inhalt vum Internet fir Indexéierungszwecker ze läschen.

Si maachen déi folgend Aufgaben:

  • Besicht Websäiten, mat deenen Dir verbonne sidd
  • Préift Ären HTML Code fir Feeler
  • Si späicheren wéi eng Websäiten déi Dir verlinkt a kuckt wéi eng Websäiten mat Ärem Inhalt verbannen
  • Si indexéieren Ären Inhalt

Wéi och ëmmer, e puer Bots sinn béisaarteg a sichen op Ärem Site no E-Mailadressen a Formen, déi normalerweis benotzt gi fir Iech onerwënscht Messagen oder Spam ze schécken. Aner kucken souguer fir Sécherheetslücken an Ärem Code.

Wat ass néideg fir Web Crawler ze blockéieren?

Ier Dir den .htaccess Datei benotzt, musst Dir déi folgend Saache kontrolléieren:

1. Äre Site muss op engem Apache Server lafen. Hautdesdaags, souguer déi Webhostingfirmen hallef anstänneg an hirer Aarbecht, ginn Iech Zougang zu der erfuerderter Datei.

2. Dir sollt Zougang zu Iech sinn déi rau Serverlogbicher vun Ärer Websäit, fir datt Dir kënnt fannen wat Bots Är Websäiten besicht hunn.

Notéiert datt et kee Wee gëtt datt Dir all schiedlech Bots blockéiere kënnt, ausser Dir se all blockéiert, och déi déi Dir als hëllefräich ugesinn. Nei Bots kommen all Dag op, an eeler ginn geännert. Deen effizientste Wee ass Äre Code ze sécheren an et schwéier fir Bots Iech ze spaméieren.

Bots identifizéieren

Bots kënnen entweder vun der IP Adress oder vun hirem "User Agent String" identifizéiert ginn, wat se an den HTTP Header schécken. Zum Beispill benotzt Google "Googlebot."

Dir kënnt dës Lëscht mat 302 Bots brauche wann Dir schonn den Numm vum Bot hutt deen Dir wëllt ewechhale mat .htaccess

En anere Wee ass all Logbicher Dateien vum Server erofzelueden an se mat engem Texteditor opzemaachen. Hir Positioun op de Server ka sech änneren ofhängeg vun der Konfiguratioun vum Server. Wann Dir se net fannt, freet Hëllef vun Ärem Webhost.

Wann Dir wësst wat Säit besicht gouf, oder d'Zäit vum Besuch, ass et méi einfach mat engem ongewollten Bot ze kommen. Dir kënnt d'Logbuch Datei mat dëse Parameter sichen.

Eng Kéier hutt Dir bemierkt wat Bots Dir musst blockéieren; Dir kënnt se dann an d'htaccess Datei enthalen. Maacht weg datt d'Bot blockéieren net genuch ass fir se ze stoppen. Et kënnt zréck mat enger neier IP oder engem Numm.

Wéi een se blockéiert

Luet eng Kopie vun der .htaccess Datei erof. Maacht Backupen wann néideg.

Method 1: Blockéieren duerch IP

Dëse Code Snippet blockéiert de Bot mat der IP Adress 197.0.0.1

Bestellt Deny, Erlaabt

Denementéiere vum 197.0.0.1

Déi éischt Zeil heescht datt de Server all Ufroe blockéiert déi passend Muster entspriechen, déi Dir uginn hutt an all déi aner erlaben.

Déi zweet Zeil seet dem Server eng 403 ze erausginn: verbueden Säit

Method 2: Blockéierung vu Benotzer Agenten

Deen einfachste Wee ass den Apache's Rewrite Motor ze benotzen

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Déi éischt Zeil garantéiert datt de Rewrite Modul ageschalt ass. Zeil zwee ass d'Konditioun, op déi d'Regel gëllt. De "F" an der Linn 4 seet dem Server e 403 zréckzebréngen: Verbuede wärend den "L" heescht datt dëst déi lescht Regel ass.

Dir luet dann d'htaccess Datei op Äre Server erop an iwwerschreift déi existent. Mat der Zäit musst Dir den IP vum Bot aktualiséieren. Am Fall wou Dir e Feeler maacht, luet just de Backup erop, deen Dir gemaach hutt.

mass gmail