Подскажите в чем проблема?
Комментарии:
- 1. У вас в мета-тегах на главной стоит NOINDEX, NOFOLLOW и, скорее всего, включено в настройках лягухи не сканировать такие страницы.
- 2. Да, спасибо! В настройках нужно было поставить чекбоксы напротив двух пунктов: Follow Internal “nofollow” и Follow External “nofollow”. Скриншот:
- 3. Еще был случай, что хостер заблокировал их пауков (Screaming frog spider), пришлось в саппорт писать.
- 4. Если блокирует хостинг, то можно было в настройках программы сменить заголовки у паука – User-agent: Googlebot (как пример) и далее убедиться что в HTTP Header прописан поисковый бот, а не лягушкин 🙂 а вообще бежать от такого “хостера” нужно… 🙂
Screaming Frog не хочет сканировать сайт
Вопрос 2: Проблема ахтунг! Сайт на тильде. HTTPS, Ответ сервера по проверке 2ip или в вебмастере Яндекса = 200. Лягуха отказывается брать, говорит 307 и стоп на этом. Куда копать?
Ответы:
– 1. Юзерагент попробуй поменять на Яндексовский или Гугловский. Помогают ли таймаут и смена прокси?
– 2. >>Юзерагент попробуй поменять
Менял на googlebot тоже самое, как то по другому маскироваться надо…
>>таймаут и смена прокси
прокси нет, – timeout там нет, есть сколько страниц – потоков – уменьшаю без результата…
– 3. Копать в сторону замены SSL-сертификата. Если коротко – делайте shared сертификат через CloudFlare и по старой инструкции Тильды направляйте к ним. Поддержка должна отдать старую инструкцию.
– 4. В настройках покопаться: юзер-агент, куки, js (рендеринг + парсинг внешних js) . После чего то из этого, помню, заработало. Еще можно авторизацию в лягушке запустить, пройти все проверки браузера на нероботность.
– 5. thanks за ответ “4” – работает!
ИТОГО = идем Configuration -> Spider -> advanced – > ставим галки на Allow Cookies и Allways Follow redirects. Проблему изучу позже в подробностях – пока горит, проверить сайт надо…
– 6. Там идет проверка с временным редиректом через внешний домен. Большинство парсеров не исследует редиректы по внешним адресам (хотя, где-то можно включить), поэтому все спотыкаются на первом редиректе. Ситуация осложняется Disallow для этого редиректа в robots.txt. Парсинг такой проверки по правилам невозможен. Понятное дело, что такую проверку на каждой странице делать не будут, она разовая.
Screaming frog парсит не все страницы
Вопрос 3: Ситуация следующая. Есть сайт http://домен.поддомен.me/. При сканировании в ScreamingFrog (SF), если вводить главную для сканирования, то SF парсит только незначительную часть сайта.
Если добавить любую внутреннюю страницу сайта http://домен.поддомен.me/любая страница, то SF парсит все страницы кроме главной.
Ответ:
Пауки ходят по внутренним ссылкам.
Перелинкованы ли страницы с главной?
Скорее всего что-то с кодом ссылок не так…