Парсинг сайтов


Bill_geits
218

 Всем привет. Не знал в какую тему написать вопрос. Думаю эта оптимальная. 

Подскажите, интересует вопрос , каким инструментом , кто пользуется для парсинга сайтов. Цена фото , описание (карточек товара)


Алеандр

У всех сайтов разный HTML. Соответственно заказывается индивидуальный парсинг. Ну, если это конечно не какой-то шаблонный, типа набрать цен из Маркета, под что может быть готовый вариант.


drDaemon

Какой сайт (сайты), какое количество страниц, периодичность, ‘экспорт данных куда, в каком формате. и .т.д….?

В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper.  
Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо).
Можно заказать у специалистов…..

Все зависит от условий задачи….

Алеандр #:
У всех сайтов разный HTML.

Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.


DomainMasterSoft

Есть кстати универсальные парсеры HTML сайтов, но обычно такие настроить сложнее, чем запрограммировать парсер. Обычно все просто, если нет у сайтов защиты от ботов


Vladimir SEO

Контент даунлоадер использовал всегда


Алеандр

drDaemon #:

Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.

А кто говорит, что это проблема? Просто факт — код разный. А значит, что либо настройками, либо в коде РУКАМИ по-любому придется указывать блок, в котором содержится искомая информация. И это к тому, что «взял-поставил-запустил-получил» — только для мегашаблонных сайтов. Для всех остальных придется работать ручками, при этом либо хоть немного понимая, что делаешь, либо заказывать. Не нужно додумывать за других то, что не было написано.

Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что «скачать сайт». Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к «500», внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.


drDaemon

Алеандр #:
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что «скачать сайт». Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к «500», внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.

Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.

Алеандр #:
Не нужно додумывать за других то, что не было написано.

Это вы вообще о чем?

Проблемы на самом деле начинаются во врем эксплуатации.


totamon

из готовых достаточно простой и понятный софт Datacol
Buy Smart Link a Coffee. ko-fi.com/smartlink
Buy Smart Link a Coffee. ko-fi.com/smartlink

  • imtranslator.net
By proceeding you accept the terms and privacy policy. You understand Ko-fi is a listing platform only and doesn’t guarantee or endorse creator content. Any disputes…


clevercolor

totamon #:
из готовых достаточно простой и понятный софт Datacol

Поддерживаю. Использую больше 3 лет. У меня ещё полноценная лицензия а не годовая. Datacol имеет очень внушительный функционал!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *