Парсинг на бесплатных прокси


PendalF89
376

Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси https://awmproxy.com/freeproxy.php

Я пытаюсь использовать эти прокси в своём PHP-скрипте, но в 90% случаев я получаю ошибку с кодом 409 (если паршу сайт на http) и 400 (если на https).

Все прокси, которые выдавали подобную ошибку хостятся на cloudflare, например: 104.28.16.153:80

В разделе помощи на cloudflare перечислены несколько причин, почему может возникать такая ошибка: https://support.cloudflare.com/hc/en-us/articles/360029779472#error1001

Кто-нибудь сталкивался с подобными ошибками? Как их обходили?

И если с подобным не сталкивались, то можете посоветовать бесплатные/платные прокси, которые бы поддерживали ~200 одновременных соединений? Сейчас покупаю прокси на https://buy.fineproxy.org/, но там ограничение на 25 одновременных запросов.


Z0G SYSTEM

А зачем столько много потоков одновременных? Не проще поставить 10 потоков с небольшой задержкой и радоваться тому что нет никаких ошибок?


-= Serafim =-

PendalF89:
Прошу у вас совета: есть непопулярный сайт, который я хочу спарсить и есть список бесплатных прокси

А зачем список бесплатных прокси?


drDaemon

400 ошибка как правило при не соответствии протокола прокси и сайта

409 в случае с клоудфлэр — просто не используйте. вы ее не победите.

еще бывает 407 ошибка на прочеканной рабочей проксе — требуется авторизация. Такие тоже можно смело выкидывать из списка.

Одно время я использовал ProxyBroker — он собирает прокси с нескольких сайтов, чекает их и имеет еще разную функциональность, но качество проксей оставляет желать лучшего.

-= Serafim =-:
А зачем список бесплатных прокси?

Что бы немного денег сэкономить… Как показывает моя практика — 5-10 млн. веб страниц в день можно и через бесплатные прокси вытащить. И платные прокси иногда бывают не лучше бесплатных. Конечно, надо вносить попраку на условия задачи.


NEWProject

Есть еще shared прокси, стоят в среднем 33р. за штуку. Их дают до 3х чел на руки. Меня еще не подводили, даже при сборе популярных сайтов. Я стараюсь собирать данные, в среднем, не больше 5 потоков + задержки.

Если интересно по share, можете посмотреть у меня на блоке ссылку и скидку https://bestweb4u.net/proxy-for-parsing/

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *