Всем привет. Не знал в какую тему написать вопрос. Думаю эта оптимальная.
Подскажите, интересует вопрос , каким инструментом , кто пользуется для парсинга сайтов. Цена фото , описание (карточек товара)
Алеандр
У всех сайтов разный HTML. Соответственно заказывается индивидуальный парсинг. Ну, если это конечно не какой-то шаблонный, типа набрать цен из Маркета, под что может быть готовый вариант.
drDaemon
Какой сайт (сайты), какое количество страниц, периодичность, ‘экспорт данных куда, в каком формате. и .т.д….?
В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper. Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо). Можно заказать у специалистов…..
Все зависит от условий задачи….
Алеандр #: У всех сайтов разный HTML.
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.
DomainMasterSoft
Есть кстати универсальные парсеры HTML сайтов, но обычно такие настроить сложнее, чем запрограммировать парсер. Обычно все просто, если нет у сайтов защиты от ботов
Vladimir SEO
Контент даунлоадер использовал всегда
Алеандр
drDaemon #:
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.
А кто говорит, что это проблема? Просто факт — код разный. А значит, что либо настройками, либо в коде РУКАМИ по-любому придется указывать блок, в котором содержится искомая информация. И это к тому, что «взял-поставил-запустил-получил» — только для мегашаблонных сайтов. Для всех остальных придется работать ручками, при этом либо хоть немного понимая, что делаешь, либо заказывать. Не нужно додумывать за других то, что не было написано.
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что «скачать сайт». Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к «500», внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.
drDaemon
Алеандр #: Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что «скачать сайт». Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к «500», внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.
Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.
Алеандр #: Не нужно додумывать за других то, что не было написано.
Это вы вообще о чем?
Проблемы на самом деле начинаются во врем эксплуатации.
totamon
из готовых достаточно простой и понятный софт Datacol
Buy Smart Link a Coffee. ko-fi.com/smartlink
imtranslator.net
By proceeding you accept the terms and privacy policy. You understand Ko-fi is a listing platform only and doesn’t guarantee or endorse creator content. Any disputes…
clevercolor
totamon #: из готовых достаточно простой и понятный софт Datacol
Поддерживаю. Использую больше 3 лет. У меня ещё полноценная лицензия а не годовая. Datacol имеет очень внушительный функционал!
Bill_geits
Всем привет. Не знал в какую тему написать вопрос. Думаю эта оптимальная.
Подскажите, интересует вопрос , каким инструментом , кто пользуется для парсинга сайтов. Цена фото , описание (карточек товара)
Алеандр
drDaemon
Какой сайт (сайты), какое количество страниц, периодичность, ‘экспорт данных куда, в каком формате. и .т.д….?
В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper.
Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо).
Можно заказать у специалистов…..
Все зависит от условий задачи….
У всех сайтов разный HTML.
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.
DomainMasterSoft
Vladimir SEO
Алеандр
drDaemon #:
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.
А кто говорит, что это проблема? Просто факт — код разный. А значит, что либо настройками, либо в коде РУКАМИ по-любому придется указывать блок, в котором содержится искомая информация. И это к тому, что «взял-поставил-запустил-получил» — только для мегашаблонных сайтов. Для всех остальных придется работать ручками, при этом либо хоть немного понимая, что делаешь, либо заказывать. Не нужно додумывать за других то, что не было написано.
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что «скачать сайт». Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к «500», внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.
drDaemon
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что «скачать сайт». Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к «500», внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.
Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.
Не нужно додумывать за других то, что не было написано.
Это вы вообще о чем?
Проблемы на самом деле начинаются во врем эксплуатации.
totamon
clevercolor
из готовых достаточно простой и понятный софт Datacol
Поддерживаю. Использую больше 3 лет. У меня ещё полноценная лицензия а не годовая. Datacol имеет очень внушительный функционал!