Парсинг Яндекс картинок – нюансы?


Dram
1029

Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.

Нужно сделать порядка 15000 запросов.

Скорость не важна.

На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)

Как думаете нарвусь на капчу?

Пока придумал на каждый запрос менять юзер агент и куки в курле.

Прокси покупать не хочу.

Может еще подскажите нюансы?


minsky

Dram:
Для своего проекта написал парсер первой картинки из Яндекс картинок по нужному запросу.
Нужно сделать порядка 15000 запросов.
Скорость не важна.
На данный момент все работает как и задумывалось. Думаю запустить скрипт по крону раз в минуту (т.е. 1 картинка в минуту)

Как думаете нарвусь на капчу?
Пока придумал на каждый запрос менять юзер агент и куки в курле.
Прокси покупать не хочу.
Может еще подскажите нюансы?

На капчу не нарветесь, можно выставлять даже 30 сек и не меняя юзера и куки не трогая

Ньюансы – разгадывать капчу XEvil и парсить без таймаута


Dram

Капчу поймал очень быстро… 🙁 Даже меняя юзер агент на каждый запрос.

———- Добавлено 04.04.2020 в 14:23 ———-

Нельзя ли использовать xml лимиты для этого?


minsky

Dram:
Капчу поймал очень быстро… 🙁 Даже меняя юзер агент на каждый запрос.

———- Добавлено 04.04.2020 в 14:23 ———-

Нельзя ли использовать xml лимиты для этого?

Можно вроде, у меня Зенопостер с задержкой 25-35 сек без проблем бесконечно может парсить и капчи не ловит


-= Serafim =-

Dram:
Капчу поймал очень быстро… 🙁 Даже меняя юзер агент на каждый запрос.

———- Добавлено 04.04.2020 в 14:23 ———-

Нельзя ли использовать xml лимиты для этого?

Юзер агенты никогда особо роли не играют, если стоит защита, то она будет на число запросов с ip реагировать, а в случае с Яндексом то защита еще по большему числу параметров. Самый оптимальный вариант или использовать xevil или парсить не Яндекс или Гугл, а тех кто их уже спарсил или просто другие поисковики, хотя везде защиты есть, но есть послабее.


SocFishing

Очень удивлен, что вы не словили капчу на первые 100 запросов пока тестировали. При этом капчу уже на каждый запрос, которую даже на ручной правильный ввод не подходит.

Или же мои IP забанили, что зарегистрироваться в почти не могу даже. Работать с яндекс очень тяжело. “юзер агент на каждый запрос” это напротив фактор подозрения.

Вам точно нужны именно яндекс картинки?

раньше тут можно было 10к запросов сделать с одного IP: ask (поиска по картинке теперь не вижу)

тут вероятнее всего уже лимитировано duckduckgo

api они убрали? python / fluquid ..


Dram

Купил IPV6 прокси и пошло дело… 100 р не те деньги…


-= Serafim =-

Dram:
Купил IPV6 прокси и пошло дело… 100 р не те деньги…

Если бы было все так просто 😀


Dram

-= Serafim =-:
Если бы было все так просто 😀

Первые 500 запросов прошли без проблем. Пока полет нормальный.


iccup

Прокси копейки стоят, зачем так мучиться? Сотнями гигабайт парсю, все в порядке.


athe

Месяца два назад писал парсер под яндекс картинки на пыхе.

Год назад делал парсинг через зенку..

Всегда использовал такую схему для зенки:

1 юзер агент, 1 прокси + антигейт – на 2-4 картинки. Все парсилось нормально.

Для PHP версии парсера юзал только рандомную задержку и мобильную версию.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *