Semalt oferă sfaturi despre cum să te descurci cu roboți, păianjeni și trosnitori

În afară de crearea de URL-uri prietenoase pentru motoarele de căutare , fișierul .htaccess permite administratorilor web să blocheze anumite roboți de accesarea site-ului lor. O modalitate de a bloca acești roboți este prin fișierul robots.txt. Cu toate acestea, Ross Barber, managerul de succes al clienților Semalt , afirmă că a văzut câțiva crawlere ignorând această solicitare. Una dintre cele mai bune metode este să folosești fișierul .htaccess pentru a le opri din indexarea conținutului tău.

Ce sunt acești roboți?

Sunt un tip de software folosit de motoarele de căutare pentru a șterge conținut nou de pe internet în scopuri de indexare.

Ei îndeplinesc următoarele sarcini:

  • Vizitați paginile web la care v-ați conectat
  • Verificați codul HTML pentru erori
  • Ei salvează la ce pagini web faceți legătura și văd ce pagini web se leagă de conținutul dvs.
  • Vă indexează conținutul

Cu toate acestea, unii roboți sunt răuvoitori și caută pe site-ul dvs. adrese de e-mail și formulare care sunt de obicei folosite pentru a vă trimite mesaje nedorite sau spam. Alții chiar caută lacune de securitate în codul dvs.

Ce este necesar pentru a bloca web crawler-urile?

Înainte de a utiliza fișierul .htaccess, trebuie să verificați următoarele:

1. Site-ul dvs. trebuie să fie executat pe un server Apache. În zilele noastre, chiar și acele companii de găzduire web pe jumătate decente în munca lor, vă oferă acces la fișierul necesar.

2. Ar trebui să aveți acces la jurnalele de server brute ale site-ului dvs. web, astfel încât să puteți localiza ce bots au vizitat paginile dvs. web.

Rețineți că nu puteți bloca toate boturile dăunătoare decât dacă le blocați pe toate, chiar și pe cele pe care le considerați utile. Bots noi apar în fiecare zi, iar cei mai vechi sunt modificați. Cea mai eficientă modalitate este să vă securizați codul și să faceți dificil ca roboții să vă poată trimite spam.

Identificarea robotilor

Robotii pot fi identificați prin adresa IP sau din „Stringul agentului utilizator”, pe care îl trimit în anteturile HTTP. De exemplu, Google folosește „Googlebot”.

Este posibil să aveți nevoie de această listă cu 302 de roboți dacă aveți deja numele botului pe care doriți să îl țineți departe .htaccess

Un alt mod este să descărcați toate fișierele jurnal de pe server și să le deschideți folosind un editor de text. Locația lor pe server se poate modifica în funcție de configurația serverului. Dacă nu le găsiți, solicitați asistență de la gazda dvs. web.

Dacă știți ce pagină a fost vizitată sau ora vizitei, este mai ușor să veniți cu un bot nedorit. Puteți căuta fișierul jurnal cu acești parametri.

Odată, ați observat ce roboți trebuie să blocați; apoi le puteți include în fișierul .htaccess. Rețineți că blocarea bot-ului nu este suficientă pentru a-l opri. Poate reveni cu un nou IP sau nume.

Cum să le blochezi

Descărcați o copie a fișierului .htaccess. Efectuați copii de rezervă dacă este necesar.

Metoda 1: blocarea prin IP

Acest fragment de cod blochează botul folosind adresa IP 197.0.0.1

Comanda Deny, Permite

Refuză din 197.0.0.1

Prima linie înseamnă că serverul va bloca toate cererile care corespund modelelor pe care le-ați specificat și le va permite tuturor celorlalte.

A doua linie spune serverului să emită o pagină 403: interzisă

Metoda 2: Blocarea de către agenții User

Cel mai simplu mod este să folosiți motorul de rescriere al lui Apache

ReescrieEngine Activat

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prima linie se asigură că modulul de rescriere este activat. Linia a doua este condiția la care se aplică regula. „F” din linia 4 îi spune serverului să returneze un 403: interzis în timp ce „L” înseamnă că aceasta este ultima regulă.

Vei încărca apoi fișierul .htaccess pe serverul tău și îl vei suprascrie pe cel existent. Cu timpul, va trebui să actualizați IP-ul botului. În cazul în care faceți o eroare, trebuie doar să încărcați backup-ul pe care l-ați făcut.