Kiruvchi qidiruv botlarining saytingizni indekslashini qanday oldini olish mumkin. Chop etish

  • 0

Ko'p sahifali saytni indekslash jarayoni uzoq vaqt talab qilishi va serverda katta yuk hosil qilishi mumkin.
Indekslashda qidiruv botlari bir vaqtning o'zida saytingizga juda ko'p sonli so'rovlarni yuboradi, bu esa muammoga olib keladi. Qidiruv robotlari juda ko'p (Google, Yahoo, Yandex, Mail.RU, ...) va ularning saytga kirishini butunlay cheklash noto'g'ri (chunki ular sizning manbangizga foyda keltiradi).

Yechim:
Saytingiz katalogida "robots.txt" faylini yarating va unga quyidagi parametrlarni qo'shing:

Foydalanuvchi-agent: *

Ko'rish kechikishi: 10

(Foydalanuvchi-agent – ​​qaysi qidiruv tizimi ko‘rsatilgan parametrlar uchun ishlatilishini bildiradi. Crawl-delay – qidiruv tizimlari sayt sahifalarini yuklash vaqt oralig‘ini bildiradi.)

Shuningdek, keraksiz kataloglarni, masalan, tasvirlar, keshlar va boshqalar bilan kataloglarni indekslashni o'chirib qo'yishni tavsiya etamiz.

Foydalanuvchi-agent: *

Ruxsat bermaslik: /administrator/

Ruxsat bermaslik: /kesh/

Ruxsat bermaslik: /cli/

Ruxsat bermaslik: /komponentlar/

Ruxsat bermaslik: /rasmlar/

Ruxsat bermaslik: / o'z ichiga oladi /

Ruxsat bermaslik: /o'rnatish/

Ruxsat bermaslik: /language/

Ruxsat bermaslik: /libraries/

Ruxsat bermaslik: /logs/

Ruxsat bermaslik: /media/

Ruxsat bermaslik: /modullar/

Ruxsat bermaslik: /plugins/

Ruxsat bermaslik: /shablonlar/

Ruxsat bermaslik: /tmp/

Siz robots.txt faylida keraksiz botlarni indekslashni taqiqlashingiz mumkin:

Foydalanuvchi-agent: bingbot

Ruxsat bermaslik: /

.htaccess-da indekslashni ham o'chirib qo'yishingiz mumkin:

SetEnvIfNoCase foydalanuvchi agenti "^bingbot" search_bot

U yoki bu qoidadan foydalanmoqchi bo'lgan robotning to'g'ri nomini kirish jurnallarida topishingiz mumkin. Misol tariqasida, kirish jurnallaridan parcha:

125.40.77.104 - - [08/Fev/2017:12:05:01 +0200] "Saytingizni oling/ HTTP/1.0" 200 93488 "-" "Mozilla/5.0 (mos; bingbot/2.0; +http://www) .bing.com/bingbot.htm)"

125.40.77.104- - [08/Fev/2017:12:05:01 +0200] "Saytingizni oling/ HTTP/1.0" 200 110513 "-" "Mozilla/5.0 (mos; bingbot/2.0; +http://www) .bing.com/bingbot.htm)"

To'g'ri robot nomi: bingbot/2.0
Agar biz uni .htaccess da bloklashni istasak, qoida quyidagicha ko'rinadi:

SetEnvIfNoCase User-Agent bingbot/2.0 bad_bot

Buyurtmaga ruxsat berish, rad etish

Hammadan ruxsat bering

env=bad_bot dan rad etish

Agar yuqorida aytib o'tilgan blokirovka opsiyalari muammoni hal qilmagan bo'lsa, .htaccess da yozish orqali qidiruv botlarining IP orqali saytga kirishini bloklashingiz mumkin:

125.40.77.104 dan rad etish

bu erda 125.40.77.104 - biz kirish jurnallarida topilgan bingbot IP.


Bu javob sizga yordam berdimi?

«Orqaga