Лучшие beautifulsoup вопросы ИТ разработчиков

  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Найти HTML-тег с помощью BeautifulSoup в Python

Я хочу найти определенный тег в HTML-коде, например, если есть 2 тега, то как я могу получить содержимое второго тега, а не первого, который soup.find (id = ...

Задан 14 Sep 2013, 08:34 от Vikas Mishra
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

BeautifulSoup не может проанализировать состояние длительного просмотра

Я пытаюсь использовать BeautifulSoup4 для анализа html, полученного из http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0 [http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0]Если я распечатаю полученный суп, он заканчивается ...

Задан 09 Aug 2013, 15:51 от Achim
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Python получает запрос, возвращающий другой HTML, чем исходный вид

Я пытаюсь извлечь фанфик из URL-адреса нашего собственного архива, чтобы использовать библиотеку NLTK для лингвистического анализа. Однако каждая попытка уда...

Задан 06 Jul 2016, 17:54 от Brianna Dardin
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Создание XML-документа с BeautifulSoup

Во всех примерах и учебных пособиях, которые я видел по BeautifulSoup, передается документ HTML / XML и возвращается объект-суп, который затем можно использовать для изменения документа. Однако как я могу использовать BeautifulSoup для создания ...

Задан 30 Apr 2013, 17:18 от Muhammad Waqar
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

 (и, вероятно, все еще будет заблокирован Google).

аюсь очистить Google Finance и получить таблицу «Related Stocks» с идентификатором «cc-table» и классом «gf-table» на основе инспектора веб-страниц в Chrome. (Пример ...

Задан 22 Jul 2017, 21:06 от user399034
  • 17 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Python BeautifulSoup скрести таблицы

Я пытаюсь создать скребок таблицы с BeautifulSoup. Я написал этот код Python: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = ...

Задан 23 Sep 2013, 18:35 от kingcope
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Почему bs4 возвращает теги, а затем пустой список этому методу find_all ()?

Смотря наПерепись США QFD Я пытаюсь захватить расу% по округам. Цикл, который я создаю, выходит за рамки моего вопроса, касающегося этого кода:

Задан 14 Oct 2014, 20:05 от d8aninja
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Использование Python для очистки вложенных Div и Span в Twitter?

Я пытаюсь вычеркнуть лайки и ретвиты из результатов поиска в Твиттере.После запуска Python ниже, я получаю пустой список,

Задан 20 Jan 2016, 23:49 от David Beales
  • 3 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

как достать из таблицы прекрасный суп из питона?

я пытаюсь записать год Победители (первые и вторые столбцы) из "Список финальных матчей » стол (второй стол) изhttp://en.wikipedia.org/wiki/List_of_FIFA...

Задан 11 Dec 2013, 14:15 от JPC
  • 52 голосов
  • 7 ответов
  • 0 просмотров
7 ответов

Разбор HTML в python - lxml или BeautifulSoup? Какой из них лучше для каких целей?

Из того, что я могу разглядеть, две основные библиотеки парсинга HTML в Python - это lxml и BeautifulSoup. Я'выбрал BeautifulSoup для проекта I 'Я ра...

Задан 17 Dec 2009, 13:08 от Monika Sulik
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Почему я получаю ошибку рекурсии с BeautifulSoup и IDLE?

Я следую учебному пособию, чтобы попытаться узнать, как использовать BeautifulSoup. Я пытаюсь удалить имена из URL-адресов на HTML-странице, которую я скачал. Я отлично с этим справляюсь. from bs4 import BeautifulSoup soup = ...

Задан 24 Oct 2013, 23:49 от Codin
  • 289 голосов
  • 9 ответов
  • 0 просмотров
9 ответов

Это сработало для меня:

я возникают проблемы при разборе html-элементов с атрибутом "class" с помощью Beautifulsoup. Код выглядит так soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"]=="stylelistrow"): print divЯ получаю ...

Задан 18 Feb 2011, 11:58 от Neo
  • 0 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Консольный вывод:

[/imgs/2vEuN.jpg] ние href для синего элемента - это то, к чему я хочу получить доступ из этого HTML Я пробовал несколько способов напечатать ссылку, но ничего не вышло. Мой код ниже: - discover_page = BeautifulSoup(r.text, 'html.parser') ...

Задан 15 Sep 2018, 14:53 от Sultan Morbiwala
  • 16 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как запретить BeautifulSoup4 добавлять дополнительные теги <html> <body> в суп? [Дубликат]

На этот вопрос уже есть ответ: Не добавляйте теги html, head и body автоматически, Beautifulsoup [/questions/14822188/dont-put-html-head-and-body-tags-automatically-beautifulsoup] 5 ответов В версиях BeautifulSoup до 3 я мог взять любой кусок ...

Задан 12 Apr 2013, 21:01 от ccpizza
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как скачать файл с использованием селена?

Я пытаюсь получить ссылку для скачивания и скачать файлы.У меня есть файл журнала, который содержит следующие ссылки:

Задан 23 Sep 2013, 06:21 от wan mohd payed
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

 вместо.

ебрал всю документацию по mechansoup & beautifulsoup, но не могу понять, как установить значение элемента формы с помощью 'id' (потому что у него нет имени). import mechanicalsoup browser = mechanicalsoup.StatefulBrowser() browser.open(my_url) ...

Задан 01 Oct 2018, 06:40 от WillyMack33
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Спасибо, это сработало. Мне нужно было добавить время ожидания, прежде чем я вызвал find_elements_by_tag_name и нашел больше фреймов таким образом. В любом случае, вы знаете, как запросить внутренний HTML, созданный iframe?

тоящее время я пытаюсь использовать селен и BeautifulSoup для получения всех тегов iframe с веб-сайта. Проблема в том, что я не получаю все iframes, потому что внутри веб-страницы есть внутренние HTML-документы, которые BS4 не просматривает, и я ...

Задан 11 Nov 2017, 01:23 от user8922432
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как я могу получить текст из тега <dt> с <span> внутри?

Я пытаюсь извлечь текст изнутри<dt> пометить с<span> внутри на www.uszip.com: Вот пример того, что я пытаюсь получить: <dt>Land area<br><span class="stype">(sq. miles)</span></dt> <dd>14.28</dd>Я хочу получить14.28 из тега. Вот как я сейчас к ...

Задан 22 Dec 2013, 02:54 от user3126426
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Разница между attrMap и attrs в BeautifulSoup

Я хотел бы знать, в чем разница междуattrMap а такжеattrs вBeautifulSoup [http://www.crummy.com/software/BeautifulSoup/]? Чтобы быть более точным, какие теги имеютattrs и которые имеютattrMap? >>> soup = BeautifulSoup.BeautifulSoup(source) >>> ...

Задан 12 Jan 2012, 21:01 от abarik
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

Форматирование текста в таблице в Python

У меня проблемы с созданием таблицы, которая динамически адаптируется к различным результатам. Я написал скребок для экрана, чтобы вытащить акции изhttp://finance.yahoo.com [http://finance.yahoo.com]и напечатайте название компании, ее символ и ...

Задан 19 Apr 2013, 17:23 от Ben Sailors
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

вход на сайт с использованием запросов

Я пробовал два совершенно разных метода. Но все же я не могу получить данные, которые присутствуют только после входа в систему.Я пытался сделать один с испо...

Задан 14 Dec 2016, 16:40 от Shashwat Aryal
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Лоскутный ответ отличается от ответа браузера

Я пытаюсь наскрести эту страницу с помощью скрапа: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391и ответ, который я получаю, отличается от того, что я вижу в браузере. Ответ браузера имеет правильную страницу, а ответ ...

Задан 12 Dec 2012, 07:20 от Aditya Shukla
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

urllib.error.URLError: <ошибка urlopen [Errno 11002] сбой getaddrinfo>?

Итак, мой код всего 4 строки. Я пытаюсь подключиться к веб-сайту, то, что я пытаюсь сделать после этого, не имеет значения, потому что ошибка возникла без др...

Задан 07 Mar 2016, 03:37 от Sam Chan
  • 3 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Python скрипт для перевода через гугл переводчик

Я пытаюсь выучить Python, поэтому я решил написать скрипт, который мог бы переводить что-то с помощью Google Translate. До сих пор я написал это: import sys from BeautifulSoup import BeautifulSoup import urllib2 import urllib data = ...

Задан 22 Feb 2012, 23:03 от Burszuras
  • 18 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как вы получаете все строки из определенной таблицы, используя BeautifulSoup?

Я учусь Python и BeautifulSoup, чтобы очистить данные из Интернета и прочитать таблицу HTML. Я могу прочитать это в Open Office, и там написано, что это Таблица № 11. Кажется, что BeautifulSoup является предпочтительным выбором, но ...

Задан 06 Jan 2010, 01:47 от Btibert3
  • 37 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Как установить красивый суп 4 с питоном 2.7 на windows

У меня есть Windows Vista с Python 2.7. Я хотел бы установить BeautifulSoup 4, но, очевидно, я не могу установить Beautiful Soup, просто скопировав файл в каталог site-packages. Я должен установить pip, а затем запустить некоторые команды из ...

Задан 01 Sep 2012, 13:20 от user1119429
  • 18 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как вы получаете все строки из определенной таблицы, используя BeautifulSoup?

Я учусь Python и BeautifulSoup, чтобы очистить данные из Интернета и прочитать таблицу HTML. Я могу прочитать это в Open Office, и там написано, что это Табл...

Задан 06 Jan 2010, 00:47 от Btibert3
  • 14 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как сохранить обратно изменения, сделанные в файле HTML, используя BeautifulSoup в Python?

У меня есть скрипт ниже, который изменяетhref атрибуты в файле HTML (в будущем это будет список файлов HTML в каталоге). Используя BeautifulSoup мне удалось получить доступ к значениям тегов и изменить их, как я хочу, но я не знаю, как сохранить ...

Задан 16 Jan 2013, 22:59 от PepeFloyd
  • 0 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Попробуй это. Это должно получить вас там:

ытался очистить список подписчиков в Твиттере. Для этого требуется авторизация. Поэтому я использовал библиотеку запросов для аутентификации. Проблема, которую я получаю, заключается в том, что, когда я пытаюсь аутентифицироваться, я получаю 200 ...

Задан 27 Jan 2018, 18:28 от Akhil Reddy
  • 1 голос
  • 0 ответов
  • 0 просмотров
0 ответов

Вы должны попробовать использовать плагин Python Selen. Требуется скачать драйвер для любого браузера, который вы используете. После этого вы сможете использовать селен для извлечения значений из HTML

аюсь извлечь эти данные (число) для многих страниц из HTML. Данные разные для каждой страницы. Когда я пытаюсь использовать soup.select ('span [class = "pull-right"]'), он должен дать мне номер, но приходит только тег. Я считаю, что это потому, ...

Задан 23 Aug 2018, 11:22 от Gokce
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Это выводит:

аюсь извлечь данные из нескольких веб-страниц, которые не одинаковы в том, как они отображают свои таблицы. Мне нужно написать код, который будет искать текстовую строку, а затем перейти к таблице сразу после этой конкретной текстовой строки. ...

Задан 19 Apr 2011, 04:08 от Josh Lee
Page 1 of 7
1 2 3 4 5