Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси https://awmproxy.com/freeproxy.php
Я пытаюсь использовать эти прокси в своём PHP-скрипте, но в 90% случаев я получаю ошибку с кодом 409 (если паршу сайт на http) и 400 (если на https).
Все прокси, которые выдавали подобную ошибку хостятся на cloudflare, например: 104.28.16.153:80
В разделе помощи на cloudflare перечислены несколько причин, почему может возникать такая ошибка: https://support.cloudflare.com/hc/en-us/articles/360029779472#error1001
Кто-нибудь сталкивался с подобными ошибками? Как их обходили?
И если с подобным не сталкивались, то можете посоветовать бесплатные/платные прокси, которые бы поддерживали ~200 одновременных соединений? Сейчас покупаю прокси на https://buy.fineproxy.org/, но там ограничение на 25 одновременных запросов.
Z0G SYSTEM
А зачем столько много потоков одновременных? Не проще поставить 10 потоков с небольшой задержкой и радоваться тому что нет никаких ошибок?
-= Serafim =-
PendalF89: Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси
А зачем список бесплатных прокси?
drDaemon
400 ошибка как правило при не соответствии протокола прокси и сайта
409 в случае с клоудфлэр — просто не используйте. вы ее не победите.
еще бывает 407 ошибка на прочеканной рабочей проксе — требуется авторизация. Такие тоже можно смело выкидывать из списка.
Одно время я использовал ProxyBroker — он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.
-= Serafim =-: А зачем список бесплатных прокси?
Что бы немного денег сэкономить… Как показывает моя практика — 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.
NEWProject
Есть еще shared прокси, стоят в среднем 33р. за штуку. Их дают до 3х чел на руки. Меня еще не подводили, даже при сборе популярных сайтов. Я стараюсь собирать данные, в среднем, не больше 5 потоков + задержки.
Если интересно по share, можете посмотреть у меня на блоке ссылку и скидку https://bestweb4u.net/proxy-for-parsing/
PendalF89
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси https://awmproxy.com/freeproxy.php
Я пытаюсь использовать эти прокси в своём PHP-скрипте, но в 90% случаев я получаю ошибку с кодом 409 (если паршу сайт на http) и 400 (если на https).
Все прокси, которые выдавали подобную ошибку хостятся на cloudflare, например: 104.28.16.153:80
В разделе помощи на cloudflare перечислены несколько причин, почему может возникать такая ошибка: https://support.cloudflare.com/hc/en-us/articles/360029779472#error1001
Кто-нибудь сталкивался с подобными ошибками? Как их обходили?
И если с подобным не сталкивались, то можете посоветовать бесплатные/платные прокси, которые бы поддерживали ~200 одновременных соединений? Сейчас покупаю прокси на https://buy.fineproxy.org/, но там ограничение на 25 одновременных запросов.
Z0G SYSTEM
А зачем столько много потоков одновременных? Не проще поставить 10 потоков с небольшой задержкой и радоваться тому что нет никаких ошибок?
-= Serafim =-
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси
А зачем список бесплатных прокси?
drDaemon
400 ошибка как правило при не соответствии протокола прокси и сайта
409 в случае с клоудфлэр — просто не используйте. вы ее не победите.
еще бывает 407 ошибка на прочеканной рабочей проксе — требуется авторизация. Такие тоже можно смело выкидывать из списка.
Одно время я использовал ProxyBroker — он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.
А зачем список бесплатных прокси?
Что бы немного денег сэкономить… Как показывает моя практика — 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.
NEWProject
Есть еще shared прокси, стоят в среднем 33р. за штуку. Их дают до 3х чел на руки. Меня еще не подводили, даже при сборе популярных сайтов. Я стараюсь собирать данные, в среднем, не больше 5 потоков + задержки.
Если интересно по share, можете посмотреть у меня на блоке ссылку и скидку https://bestweb4u.net/proxy-for-parsing/