Screaming frog не парсит сайт

Вопрос 1: Вставляю сайт, жму Старт и парсится только первая страница. Ставлю игнор robots.txt – без толку. Все остальные сайты нормально собираются.
Подскажите в чем проблема?

Комментарии:

  • 1. У вас в мета-тегах на главной стоит NOINDEX, NOFOLLOW и, скорее всего, включено в настройках лягухи не сканировать такие страницы.
  • 2. Да, спасибо! В настройках нужно было поставить чекбоксы напротив двух пунктов: Follow Internal “nofollow” и Follow External “nofollow”. Скриншот:

screaming frog не парсит сайт

  • 3. Еще был случай, что хостер заблокировал их пауков (Screaming frog spider), пришлось в саппорт писать.
  • 4. Если блокирует хостинг, то можно было в настройках программы сменить заголовки у паука – User-agent: Googlebot (как пример) и далее убедиться что в HTTP Header прописан поисковый бот, а не лягушкин 🙂 а вообще бежать от такого “хостера” нужно… 🙂


Screaming Frog не хочет сканировать сайт

Вопрос 2: Проблема ахтунг! Сайт на тильде. HTTPS, Ответ сервера по проверке 2ip или в вебмастере Яндекса = 200. Лягуха отказывается брать, говорит 307 и стоп на этом. Куда копать?


Ответы:

– 1. Юзерагент попробуй поменять на Яндексовский или Гугловский. Помогают ли таймаут и смена прокси?

– 2.  >>Юзерагент попробуй поменять
Менял на googlebot тоже самое, как то по другому маскироваться надо…

>>таймаут и смена прокси
прокси нет, – timeout там нет, есть сколько страниц – потоков – уменьшаю без результата…

– 3. Копать в сторону замены SSL-сертификата. Если коротко – делайте shared сертификат через CloudFlare и по старой инструкции Тильды направляйте к ним. Поддержка должна отдать старую инструкцию.

– 4. В настройках покопаться: юзер-агент, куки, js (рендеринг + парсинг внешних js) . После чего то из этого, помню, заработало. Еще можно авторизацию в лягушке запустить, пройти все проверки браузера на нероботность.

– 5.  thanks за ответ “4” – работает!

ИТОГО = идем Configuration -> Spider -> advanced – > ставим галки на Allow Cookies и Allways Follow redirects. Проблему изучу позже в подробностях – пока горит, проверить сайт надо…

– 6. Там идет проверка с временным редиректом через внешний домен. Большинство парсеров не исследует редиректы по внешним адресам (хотя, где-то можно включить), поэтому все спотыкаются на первом редиректе. Ситуация осложняется Disallow для этого редиректа в robots.txt. Парсинг такой проверки по правилам невозможен. Понятное дело, что такую проверку на каждой странице делать не будут, она разовая.



Screaming frog парсит не все страницы

Вопрос 3: Ситуация следующая. Есть сайт http://домен.поддомен.me/. При сканировании в ScreamingFrog (SF), если вводить главную для сканирования, то SF парсит только незначительную часть сайта.
Если добавить любую внутреннюю страницу сайта http://домен.поддомен.me/любая страница, то SF парсит все страницы кроме главной.


Ответ:

Пауки ходят по внутренним ссылкам.
Перелинкованы ли страницы с главной?
Скорее всего что-то с кодом ссылок не так…

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *