Процесс индексации многостраничного сайта может занять много времени и создать большую нагрузку на сервер.
При индексации поисковые боты отправляют огромное количество запросов на ваш сайт одновременно, что приводит к проблемам. Поисковых роботов очень много (Google, Yahoo, Яндекс, Mail.RU, ...) и полностью ограничивать их доступ к сайту неправильно (поскольку они приносят пользу вашему ресурсу).
Решение:
В каталоге вашего сайта "роботы.создайте файл " TXT " и добавьте в него следующие параметры:
Пользователь-агент: *
Задержка просмотра: 10
(User-agent-указывает, какая поисковая система используется для указанных параметров. Crawl-delay-поисковые системы обозначают временной интервал загрузки страниц сайта.)
Мы также рекомендуем отключить индексирование ненужных каталогов, таких как каталоги с изображениями, кеши и т. д.
Пользователь-агент: *
Не разрешить: / администратор/
Не разрешать: / кэш/
Не разрешать: / cli/
Не разрешать: / компоненты/
Не разрешать: / фото/
Не допускать: / включает /
Не разрешать: / установить/
Не разрешать: / language/
Не разрешать: / библиотеки/
Не разрешать: / журналы/
Не разрешать: / СМИ/
Не разрешать: / модули/
Не разрешать: / Плагины/
Не разрешать: / шаблоны/
Не разрешать: /tmp/
Вы роботы.вы можете запретить индексацию нежелательных ботов в txt-файле:
Пользователь-агент: bingbot
Не позволять: /
.вы также можете отключить индексацию в htaccess:
Пользовательский агент setenvifnocase "^bingbot " search_bot
Вы можете найти правильное имя робота, который хочет использовать то или иное правило, в журналах ввода. В качестве примера приведем выдержку из журналов доступа:
125.40.77.104 - - [08/Fev/2017:12:05:01 +0200] "получить ваш сайт / HTTP / 1.0 "200 93488" - "" Mozilla/5.0 (совместимый; bingbot/2.0; +http://www) .bing.com/bingbot.htm)"
125.40.77.104 - - [08/Fev/2017:12:05:01 +0200] "получить ваш сайт / HTTP / 1.0 "200 110513" - "" Mozilla/5.0 (совместимый; bingbot/2.0; +http://www) .bing.com/bingbot.htm)"
Правильное имя робота: bingbot/2.0
Если мы это сделаем .если мы хотим заблокировать в htaccess, правило выглядит следующим образом:
Setenvifnocase User-Agent Bingbot/2.0 Bad_bot
Разрешение заказа, отказ
Пусть все
отказ от env=bad_bot
Если вышеупомянутые параметры блокировки не помогли решить проблему, .вы можете заблокировать доступ поисковых ботов к сайту по IP, набрав в htaccess:
Отказ от 125.40.77.104
здесь 125.40.77.104-это IP bingbot, который мы нашли в журналах доступа.