„Semalt“ teikia patarimus, kaip elgtis su robotai, vorai ir vikšriniai įrenginiai

Be to, kad sukuria paieškos varikliams tinkančius URL, „.htaccess“ failas leidžia žiniatinklio valdytojams blokuoti tam tikrus robotus, kad jie negalėtų patekti į savo svetainę. Vienas iš būdų blokuoti šiuos robotus yra robots.txt failas. Vis dėlto „ Semalt“ klientų sėkmės vadovas Rossas Barberis teigia matęs, kad kai kurie robotai ignoruoja šį prašymą. Vienas geriausių būdų yra naudoti .htaccess failą, kad jie neindeksuotų jūsų turinio.

Kas tie robotai?

Tai programinės įrangos rūšis, kurią naudoja paieškos varikliai, norėdami indeksuoti, iš interneto ištrinti naują turinį.

Jie atlieka šias užduotis:

  • Apsilankykite tinklalapiuose, į kuriuos susiejote
  • Patikrinkite, ar HTML kodas nėra klaidų
  • Jie išsaugo, kuriuos tinklalapius jungiate, ir mato, kurie tinklalapiai nukreipia į jūsų turinį
  • Jie indeksuoja jūsų turinį

Tačiau kai kurie robotai yra kenkėjiški ir jūsų svetainėje ieško el. Pašto adresų ir formų, kurie dažniausiai naudojami siunčiant jums nepageidaujamus pranešimus ar šlamštą. Kiti net ieško saugos spragų jūsų kode.

Ko reikia norint užblokuoti interneto tikrinimo įrenginius?

Prieš naudodamiesi .htaccess failu, turite patikrinti šiuos dalykus:

1. Jūsų svetainė turi veikti „Apache“ serveryje. Šiais laikais net tos žiniatinklio prieglobos įmonės, kurios dirba pusiau padoriai, suteikia jums prieigą prie reikalingo failo.

2. Turėtumėte turėti prieigą prie neapdorotų savo svetainės serverių žurnalų, kad galėtumėte nustatyti, kokie robotai lankėsi jūsų tinklalapiuose.

Atminkite, kad jokiu būdu negalėsite blokuoti visų kenksmingų robotų, nebent blokuosite juos visus, net tuos, kuriuos laikote naudingais. Nauji robotai atsiranda kiekvieną dieną, o senesni modifikuojami. Efektyviausias būdas yra apsaugoti savo kodą ir apsunkinti robotus, kad jie nepatektų jūsų šlamšto.

Identifikuojami robotai

Robotus galima identifikuoti pagal IP adresą arba iš jų „Vartotojo agento eilutės“, kurią jie siunčia HTTP antraštėse. Pavyzdžiui, „Google“ naudoja „Googlebot“.

Jums gali prireikti šio sąrašo su 302 botais, jei jau turite roboto pavadinimą, kurio norėtumėte vengti .htaccess

Kitas būdas yra atsisiųsti visus žurnalo failus iš serverio ir atidaryti juos naudojant teksto rengyklę. Jų vieta serveryje gali keistis atsižvelgiant į jūsų serverio konfigūraciją. Jei jų nerandate, kreipkitės pagalbos į žiniatinklio prieglobą.

Jei žinote, kuris puslapis buvo aplankytas, ar apsilankymo laikas, lengviau ateiti su nepageidaujamu robotu. Žurnalo faile galite ieškoti pagal šiuos parametrus.

Kartą pastebėjote, kokius robotus turite blokuoti; tada galite juos įtraukti į .htaccess failą. Atminkite, kad norint sustabdyti robotą nepakanka. Gali būti, kad grįš su nauju IP arba vardu.

Kaip juos užblokuoti

Atsisiųskite .htaccess failo kopiją. Jei reikia, pasidarykite atsargines kopijas.

1 metodas: blokavimas naudojant IP

Šis kodo fragmentas blokuoja robotą naudojant IP adresą 197.0.0.1

Užsakyk paneigti, leisti

Neigti nuo 197.0.0.1

Pirma eilutė reiškia, kad serveris blokuos visas užklausas, atitinkančias jūsų nurodytus modelius, ir leis visoms kitoms.

Antroji eilutė nurodo serveriui išduoti 403: draudžiamą puslapį

2 būdas: blokavimas, kurį atlieka vartotojo agentai

Paprasčiausias būdas yra naudoti „Apache“ perrašymo variklį

„RewriteEngine“ įjungta

„RewriteCond% {HTTP_USER_AGENT} BotUserAgent“

„RewriteRule“. - [F, L]

Pirma eilutė užtikrina, kad perrašymo modulis būtų įjungtas. Antroji eilutė yra sąlyga, kuriai taikoma taisyklė. 4 eilutės „F“ nurodo serveriui grąžinti 403: Draudžiama, o „L“ reiškia, kad tai yra paskutinė taisyklė.

Tada įkelsite .htaccess failą į savo serverį ir perrašysite esamą. Laikui bėgant turėsite atnaujinti boto IP. Jei padarytumėte klaidą, tiesiog įkelkite padarytą atsarginę kopiją.