Tagged: lxml

22
Апр
2021

Парсинг xml Python

Есть файл xml, который нужно парсить на python, для нахождения тегов. Подскажите, как посчитать количество повторений этих тегов? Вывести в самом конце сам тег – количество.
Вот файл xml:
<?xml version="1.0"?>
<catalog&g…

22
Мар
2021

XPath как из нескольких блоков записать в один словарь данные

Хочу собрать данные с страницы, но они все в разных классах/дивах/улах. В ChroPath по данным xpath_string выделяет нужные данные, но как в питоне из xpath_string записать в словарь отдельно для каждого блока наименование, ссылку и т.д.?
е…

31
Окт
2020

Как спарсить ссылки на новости? Неверный CSS selector?

Пытаюсь спарсить ссылки на старые новости из архива сайта https://www.vedomosti.ru/archive/ с помощью css selector. Искал селектор с помощью SelectorGadget для Chrome, показывает что нужный мне имеет вид ‘.article-preview-item__title’, но …

12
Сен
2020

python lxml objectify скопировать элемент со всеми субэлементами

Есть файл формата XML, в нем, в корне есть много дочерних элементов, которые имеют атрибуты и свои дочерние элементы. Необходимо скопировать один корневой дочерний элемент и добавить эту копию с измененными атрибутами.
Из
<?xml version=…

31
Авг
2020

Python. Выгрузка sql запроса в xml

Столкнулся с проблемой выгрузки в xml нескольких связных таблиц. Получается, что при связке 1 к многим повторяются заголовки,то есть в 1 накладной несколько ресурсов и выводится все построчно. Поэтому не могу сделать объединение наименован…

16
Июл
2020

lxml xpath выдает случайные значения

Нужно получить ссылку с кнопки Скачать на сайте: https://ru.sefon.cc/mp3/5055-bravo-ehtot-gorod/
Прописываю путь по XPath и в итоге интерпритатор каждый раз выдает совсем разные значения и не те, которые нужно.
Код:
import requests
from lx…

16
Июл
2020

lxml xpath выдает случайные значения

Нужно получить ссылку с кнопки Скачать на сайте: https://ru.sefon.cc/mp3/5055-bravo-ehtot-gorod/
Прописываю путь по XPath и в итоге интерпритатор каждый раз выдает совсем разные значения и не те, которые нужно.
Код:
import requests
from lx…

05
Июл
2020

Парсер данных из сайта новостей "gorod48.ru" на lxml

Пробую парсить данные из сайта новостей "gorod48.ru" в формате ‘Название новости’, ‘Ссылка’, ‘Количество комментариев’. Там где нет комментариев должно проставляться 0, а там где есть, соответственно должно быть их количество. Ра…

05
Июл
2020

BS4: парсятся ненужные символы вместе с нужными

Почему парсит кучу ненужных символов вместе с нужным текстом? Обычные способы не помогают
Взял для примера нетрудный для парса сайт auto.ru. Выбрав модель, пасрю каждую карточку по ее характеристикам. И все бы хорошо, но кодировка неправил…

10
Июн
2020

Как спарсить весь текст на веб-странице, включая кнопки, поля, выпадающие списки и т.п?

Хочу вытащить абсолютно весь текст с веб-странице, делаю с помощью python + BeautifulSoup + xlmxl.
Сейчас пишу каждый класс, но хочу узнать может как-то можно ускорить процесс?

13
Фев
2020

Парсер запускается, но ничего не происходит:данные в csv не записываются,но и ошибки не появляется

Наткнулся в интернете на парсер.
При запуске никаких ошибок не возникает, но и полезных действий не происходит (данные в файл не записываются).
Может ли кто-то подсказать, в чем проблема со скриптом и куда копать чтобы его пофиксить.

impo…