Tagged: web-scraping

23
Апр
2021

Как спарсить текст на странице сгенерированный js с помощью JS или PHP?

Есть онлайн переводчик deepl.com. Нужно с помощью PHP или JavaScript отправлять запрос на перевод и каким-то образом забирать перевод. Сам запрос можно отправлять путем обращения по ссылке:
https://www.deepl.com/translator#en/es/Hello worl…

05
Апр
2021

Почему парсер выдаёт ошибку:Cannot set property ‘title’ of undefined?

Всем здрасте . У меня вечные проблемы с парсерами . Коротко: при запуске кода вылетает ошибка
TypeError: Cannot set property ‘title’ of undefined

У меня только один вопрос – почему когда я также само получаю параметр price всё норм , а ко…

13
Мар
2021

scraping python. Парсинг

Добрый день! У меня такой возможно глупый вопрос, я недавно научился парсить сайты, по видео в ютубе, как только я хочу найти какой-то сайт и спарсить его, он просто не так работат, делаю всё так же, как на видео(Просто меняю ссылки, класс…

11
Фев
2021

Web-scraping on Python

Мне необходимо загрузить ответ на POST-запрос с сайта https://www.avast.com/hackcheck/ в виде JSON файла. Но мой запрос возвращает ошибку 400 400. Вот кой код:
URL = ‘https://identityprotection.avast.com/v1/web/query/site-breaches/unauthor…

11
Фев
2021

Web-scraping on Python

Мне необходимо загрузить ответ на POST-запрос с сайта https://www.avast.com/hackcheck/ в виде JSON файла. Но мой запрос возвращает ошибку 400 400. Вот кой код:
URL = ‘https://identityprotection.avast.com/v1/web/query/site-breaches/unauthor…

11
Фев
2021

Web-scraping on Python

Мне необходимо загрузить ответ на POST-запрос с сайта https://www.avast.com/hackcheck/ в виде JSON файла. Но мой запрос возвращает ошибку 400 400. Вот кой код:
URL = ‘https://identityprotection.avast.com/v1/web/query/site-breaches/unauthor…

08
Фев
2021

Как извлечь информацию из страниц по списку url с помощью python?

У меня есть список urls. Список состоит из нескольких сотен urls.
Каждый из urls относится к отдельной странице со своей структурой, соответственно структура страниц по каждому из urls разная.
Я хочу написать алгоритм, который будет идти п…

20
Дек
2020

scrapy pyinstaller error

Нужно собрать проект с парсером (scrapy) в один exe файл. При запуске main.py, через который идет взаимодействие с пользователем через консоль и запуск паука, в Pycharm все работает.
При сборке через pyinstaller main.py создается main.exe….

06
Дек
2020

Почему Beautiful Soup не принимает тег

Мне нужно спарсить заголовки новостей в одном сайте(eurosport).
Я взял тег div(который без параметров).Внутри этого же тега лежит тег h3 и там находится название заголовка.
Вот что я написал:
items=soup.findAll(‘div’)

comps=[]

for item i…

20
Ноя
2020

python парсер web scraping BeautifulSoup

Всем добрый вечер, познаю азы парсинга на python и столкнулся с проблемой. Пытаюсь спарсить коммерческий сайт и в целом все получилось, кроме того, что не могу вытянуть цену (price), хотя она там есть. Очень надеюсь на Вашу помощь и подска…

09
Ноя
2020

Можно ли имитировать браузер через okHttpClient?

Я пытаюсь заскрапить сайт, на котором есть капча, пример страницы. Я обнаружил, что при использовании Selenium Chromedriver капчу нужно вводить только один раз, и после этого я могу загружать страницы столько, сколько потребуется, не получ…

29
Окт
2020

Не получается получить html код страницы

я студент и для исследования в университете нужно собрать данные с Реформы ЖКХ. В плане python самоучка, поэтому думал, всё просто в лоб: получить html и дальше по нему навигировать и искать нужные теги. Но столкнулся с проблемой, что html…

28
Окт
2020

Как получить силку на фото parser JS (пишу scraper )?

И так, у меня есть сайт auto.ria.com я пишу скрапер который извлекает информацию о машине, у меня все работает, осталось только получить картинку. Я не знаю как мне получить именно ссылку на картинку. Размер картинки меня пока не волнует.

28
Окт
2020

Как получить силку на фото parser JS (пишу scraper )?

И так, у меня есть сайт auto.ria.com я пишу скрапер который извлекает информацию о машине, у меня все работает, осталось только получить картинку. Я не знаю как мне получить именно ссылку на картинку. Размер картинки меня пока не волнует.

27
Окт
2020

корректное использование функции users.getFollowers? в python

дорогие коллеги!
Я хочу,используя функцию requests.get получить информацию о друзьях(подписчиках) человека по его id. Когда я пытаюсь выжать информацию о его странице,вроде бы информация,получаемая мною,положительна:
version = 5.124
domain…

19
Окт
2020

Как осуществить переход парсера на следующую страницу?

На этом сайте есть кнопка с переходом на следующую страницу таблицы статистики , не понимаю как реализовать это в парсере, помогите.
https://freedom-stat.com/stats/mk

При нажатии приходят вот такие запросы: https://mc.yandex.ru/webvisor/5…

11
Сен
2020

Можно ли скачать все файлы что есть с сайта если ссылка неполная?

Например
http://cdn.danet.kh.ua:8081/cam5/
Ссылка неполная.
На 60 секунд там создается файл с уникальным именем-пример: stream-5329224180.ts
Можно ли как то через python3 скачать все файлы что есть на cam5(не указывая имени файла) пытался …

05
Авг
2020

Парсинг страницы https://www.ebay-kleinanzeigen.de/m-einloggen.html

Не могу программно получить страницу https://www.ebay-kleinanzeigen.de/m-einloggen.html
Тут явно стоит какая-то защита, потому что все остальные страницы сайта нормально получаются в случае передачи хотя бы адекватного User-Agent, а эта во…

27
Июл
2020

Scrapy как парсить внутренюю ссылку?

Недавно начал изучать scrapy. На главной странице изображены товары и информация о них, цена товара загружается позже. При переходе на страницу товара цена загружается сразу. Необходимо со страницы списка товаров перейти на страницу товара…

07
Июл
2020

Нужно сделать scrape данных с сайта, как обойти блокировку IP адреса?

После некоторого количество запросов включается reCAPTCHA если меняю IP адрес все нормально получается,
нужно создать скрипт который бы скачал все данные.
Как обойти блокировку IP адреса ?

26
Июн
2020

Как проверить динамическая или же статическая веб страница с помощью python

У меня есть функция, которая принимает адрес веб страницы, html которой нужно достать. С первого взгляда задача проста, но мне нужно проверять динамическая или же статическая эта страница. В первом случае использовать селениум, в в другом …

16
Июн
2020

Как получить центральный текст c помощью html2text

У меня есть переменная html, которая хранит в себе разметку всей страницы. Мне нужно получить только центральный(главный текст страницы). Например, у меня есть html статьи CNN(https://edition.cnn.com/2020/06/16/africa/africa-coronavirus-ca…

15
Июн
2020

Как проверить получен ли правильный html с помощью selenium python

У меня есть текстовый файл, в котором храниться список URL адресов, html которых мне нужно получить. Проблема состоит в том, что неизвестно был ли получен доступ к странице и собственно верный ли html. Есть какой то способ как узнать есть …

17
Апр
2020

Как можно получить доступ к данным React компонента с помощью скриптов

Есть сайт, который работает на React. Есть ли какой-нибудь способ скриптом (Python, JS язык особо не важен) забрать данные из props одного компонента. Пока нашел способ получить доступ к этим данным только через React DevTools из Chrome. М…

13
Мар
2020

Взять дочерние элементы первого уровня

Есть данный HTML – код. Нахожу пустой div по xpath.
Возникает проблема, в каждом из обведенных элементов лежит нужная мне информация.
Как взять каждый из вложенных div`oв и провести с ним определенные действия ?

01
Мар
2020

Selenium webDriver : StaleElementReferenceException

Получаю список нужных веб элементов List<WebElement> temp = driver.findElements(By.cssSelector(“span.selection-link”));
Далее я хочу достать из списка значения аттрибутов, пока я это делаю вываливается StaleElementReferenceException….