Сегодня обратил внимание не чрезмерную активность гуглобота.

С разных IP адресов, которые принадлежат гуглу (например 66.249.72.227) запрашиваются несуществующие страницы с периодичностью в 1 секунду, а то и несколько запросов в секунду.

Вот например из свежака, запросил он страницу /page/video–instrukcija–oformlenija–zaka za–oriflame которой даже чисто теоретически быть не может у меня на сайте. Гуглом нашел сайт с таким же урлом (http://www.oriflameline.ru/page/video–in… Сервер и ip используются только мной. По структуре запрашиваемых адресов видно, что они принадлежал разным сайтам/движкам. Я сначала подумал что это хакерские боты, которые занимаются перебором в url для выявления уязвимостей, но IP принадлежит гугловым подсетям.

Как такое произошло? Кто–то нагенерил ссылок и скормил их гуглу, чтобы замедлить индексирование нормальных страниц?
Можно ли как–нибудь использовать в своих коварных целях каким–либо образом?
Или как это остановить?

Репост

18 Responses to Сегодня обратил внимание не чрезмерную активность гуглобота.

  1. KapCap:

    Подключи для сайта google webmasters и посмотри источник ссылок.

    И проверь наличие страниц в статичном виде, вдруг кто воспользовался таки дырой и загрузил их.

  2. Xxxno:

    зачем это, если есть access log?

  3. KapCap:

    я подумал, что топикстартеру это будет проще и нагляднее.

  4. KenGood:

    Проблему заметил запустим tail -f на nginxсовый лог. В гугл вебмастер глянул в первую очередь, ничего подозрительного в плане ссылок на сайт не увидел.

  5. KapCap:

    советует посмотреть в этом логе реферы.
    что-то вроде tail –f.log | grep video–instrukcija–oformlenija–zakaza–ori flame

  6. KenGood:

    какой реферер? Может ты невнимательно прочел, заходят не пользователи на несуществующие страницы, а гуглобот запрашивает несуществующие страницы.

  7. KapCap:

    ступил. пойду застрелюсь.

  8. Naref:

    Да ну накосорезил кто-то в днс, и чо?

  9. KenGood:

    Вопрос на чьей стороне? Гугловской или моей? Я разве что использую pdd от яндекса. Можно ли как-то использовать в своих целях.

  10. Naref:

    По дороге, у какого-то клоуна, у кого на сайте есть странички /page/video–instrukcija–oformlenija–zaka za–oriflame — вкрутился туда твой ip, вместо не твоего.

  11. Xxxno:

    Блядь, заверни все 404 на главную, используй эту хрень с пользой — подними посещаемость

  12. KenGood:

    редиректить или отдавать главную? А какая польза получится?

  13. Xxxno:

    а какая польза от 404?
    200 всяко лучше. Редирект, да.

  14. KenGood:

    ты знаешь, я там выше написал, что таких клоунов очень много. Я насчитал больше 20 разных структур адресов (разных движков).

  15. Ffaef:

    Несколько лет назад считалось, что таким образом — скармливая поисковику ссылки на несуществующие страницы — можно уронить главную страницу сайта-конкурента в выдаче. Суть в том, что если робот идет по несуществующему адресу и ему вместо 404 отдается 200 с заворотом на главную (что бывает довольно часто), то в базе поисковика возникает огромное количество дублей главной страницы с разными адресами. А дублирующийся контент является поводом для пессимизации.

    Однако мне кажется, что с тех пор поисковики научились распознавать выдачу кода 200 на несуществующие страницы. Во всяком случае, на одном своем сайте я отловил это дело по сообщению в панели Яндекс.Вебмастер.

  16. Kkebad:

    все еще рекомендуется на 404 отдавать соответствующий код

  17. Xxxno:

    о как
    сео такое сео

  18. Ffaef:

    Это не вопрос, что его все равно надо отдавать. Просто навредить таким образом уже не получится, по-моему.

Добавить комментарий