Помощь в настройке парсера

Ответить
Voyager
Сообщения: 271
Зарегистрирован: 05 июл 2016 21:06

03 сен 2020 16:36

Добрый день
Коллеги, кто нибудь пробовал настроить свой парсер на какого нибудь агрегатора? Например БЕРУ.
Очень много не понятного, именно в транскрипции селекторов. Примеры из помощи помогли вытянуть самый минимум, те почти ничего. Для картинок просто прописываем div.image img::attr(src)
А что то данная конструкция не работает для фото.
Судя по статусбару, идет динамическая генерация.
https://yadi.sk/i/LKLga5jhcJ8mBA
Кто нибудь сможет прояснить?
isbaturin
Сообщения: 113
Зарегистрирован: 09 мар 2020 08:06

07 сен 2020 08:38

Попробуйте загрузить страницу без JS (либо в dev tools отключить, либо поставить расширение типа noscript). Посмотрите код страницы на предмет того, где ссылки на изображения лежат (зачастую ни лежат где-то совсем в других тегах, не img). Ищите ссылки на полноразмерные изображения, а не на превью. Подсмотреть название файла одного из изображений найти все вхождения в коде будет несложно.
Либо включить галочку загружать (или отображать) страницу в настройках сайта (как будто бы в этом режиме страница будет во фрейме грузиться, js отрабатывать и селектор, который Вы прописали, станет доступен). Однако, это может сильно замедлить парсинг.
Voyager
Сообщения: 271
Зарегистрирован: 05 июл 2016 21:06

07 сен 2020 09:59

isbaturin, спасибо за разъяснения. Больше хотелось бы видеть наглядные примеры, различные варианты использования, тк тема немножко нова для меня от слова "вообще", хотя на другом сайте производителя получилось отпарсить фотки, краткое описание, но вот засада с атрибутами. :)
isbaturin
Сообщения: 113
Зарегистрирован: 09 мар 2020 08:06

07 сен 2020 13:09

Повозившись довольно длительное время, освоив всякие хитрости выбора селекторов я сделал выбор в пользу парсинга на python. Сначала bs4, потом Scrapy.
Несколько моментов досаждали.
1. Отсутствие инструментов для понимания, что ты делаешь не так (причем иногда оказывается нужно все закрыть, открыть заново и опа, работает - система где-то в ошибку сваливается и уже больше не парсит нормально).
2. скорость
3. произвольные проблемы с парсингом только части товаров, а не всех выбранных, хотя в поиске они точно есть
4. периодически входит в ступор и не парсит дальше
5. Цена при более-менее интересном объеме уже становится невыгодной

Возможно часть из проблем связаны с тем, что с мобильного интернета на относительно небольшой скорости это делал, но работать было почти невозможно...

Scrapy на том же интернете в многопотоке и встроенным кешированием справляется с гораздо большими объемам, имеет прозрачную отладку и другие плюсы.

Минус только один - надо разбираться.
Voyager
Сообщения: 271
Зарегистрирован: 05 июл 2016 21:06

07 сен 2020 13:56

Да, 1й пункт отдельно напрягает...всецело поддерживаю.
Ответить

Вернуться в «Техническая поддержка»