Лучшие html-parsing вопросы ИТ разработчиков

  • 9голосов
  • 5ответов
  • 0просмотров

Преимущества XSLT или Linq to XML

Какие преимущества дает использование XSLT или Linq to XML для разбора HTML в C #? Это при условии, что html был очищен, поэтому он является действительным xhtml. Эти значения в конечном итоге перейдут в объект c # для проверки ...

Задан Jul 01, 2009, 12:24 AMотBenMaddox
  • 0голосов
  • 2ответа
  • 0просмотров

ASP.NET - анализировать / запрашивать HTML перед передачей и вставлять ссылки на классы CSS

Как веб-разработчик, я чувствую, что слишком много времени тратится на CSS. Я пытаюсь найти решение, в котором я могу написатьre-usable CSSто есть классы и ссылки на эти классы в HTML без дополнительного кода в файлах ASPX или ASCX и т. д. или ...

Задан Jul 30, 2013, 12:16 PMотChris Cannon
  • 19голос
  • 1ответ
  • 0просмотров

JSoup.connect выдает ошибку 403, в то время как apache.httpclient может извлечь содержимое

Я пытаюсь проанализировать дамп HTML любой страницы. я использовалHTML Parser [http://htmlparser.sourceforge.net/]а также попробовалJSoup [http://jsoup.org/cookbook/extracting-data/dom-navigation]для разбора. Я нашел полезные функции в Jsoup, но ...

Задан Apr 12, 2012, 9:24 AMотinstanceOfObject
  • 5голосов
  • 5ответов
  • 0просмотров

Как собрать все теги скрипта HTML-страницы в переменную

Я хотел бы собрать все<script> ....</script> Раздел кода присутствует на странице HTML в некоторой переменной. Какой должен быть более простой способ сделать это, есть идеи, как его можно получить с помощью JavaScript. ?? Любая помощь будет ...

Задан Jun 18, 2012, 7:41 AMотmplungjanAshish Mittal
  • 1голосов
  • 2ответа
  • 0просмотров

Временное удаление HTML из строки для Google Translate API для снижения стоимости

Я должен перевести некоторые детали с помощью API Google, за который мы платим. Детали содержат HTML, и Google взимает плату за каждого персонажа. Я не хочу отправлять весь контент, а только текст на английском языке с удаленным HTML-кодом. Я ...

Задан Nov 24, 2015, 4:08 AMотcweitatAtif Ali
  • 20голосов
  • 2ответа
  • 0просмотров

Почему блочный конечный тег </ p> генерирует пустой абзац?

Видимо, если у вас есть</p> конечный тег без соответствующего начального тега вbody элемент, большинство, если не все браузеры будут генерировать пустой абзац на его месте: <!DOCTYPE html> <title></title> <body> </p> </body>Даже если вокруг ...

Задан May 23, 2017, 11:53 AMотCommunityBoltClock
  • 6голосов
  • 4ответа
  • 0просмотров

Как получить весь текст между двумя указанными тегами, используя BeautifulSoup?

html = """ ... <tt class="descname">all</tt> <big>(</big> <em>iterable</em> <big>)</big> <a class="headerlink" href="#all" title="Permalink to this definition">¶</a> ... """Я хочу получить весь текст между начальным тегомbig до первого появленияa ...

Задан Aug 04, 2012, 1:14 PMотAmit Yadav
  • 4голосов
  • 3ответа
  • 0просмотров

Код селектора Jsoup css (включая код xpath)

Я пытаюсь проанализировать ниже HTML с помощью jsoup, но не могу получить правильный синтаксис для него. <div class="info"><strong>Line 1:</strong> some text 1<br> <b>some text 2</b><br> <strong>Line 3:</strong> some text 3<br> </div>Мне нужно ...

Задан Aug 14, 2012, 2:17 PMотPTS Admin
  • 5голос
  • 1ответ
  • 0просмотров

Как я могу разобрать динамический контент с веб-страницы?

Я пытаюсь получить список прокси из этого URL: Список бесплатных прокси [http://spys.ru/en/free-proxy-list/] Это было бы круто, но номер порта - это динамический контент JavaScript. Как я могу получить сгенерированный JavaScript контент с этой ...

Задан Aug 23, 2012, 5:54 PMотLee TaylorTrump
  • 3голосов
  • 2ответа
  • 0просмотров

Как извлечь динамический AJAX-контент с веб-страницы

Мое требование - извлечь необходимый контент с веб-страницы. На странице есть раздел, который заполняется с помощью ajax. Когда я просматриваю исходный код страницы, он не показывает содержимое, загруженное с помощью ajax. Содержание раздела ...

Задан Aug 24, 2012, 8:59 AMотMaddy
  • 12голосов
  • 3ответа
  • 0просмотров

ItextSharp Ошибка при попытке анализа HTML для преобразования PDF

Я использовал модуль ItextSharp, чтобы преобразовать приведенный ниже HTML в PDF-страницу. <div style="font-size: 18pt; font-weight: bold;"> mma<br>mmar</div><br> <br> <div style="font-size: 14pt;">Click to View Pricing </div> <br> <div> ...

Задан Mar 04, 2017, 6:34 AMотkuujinbokarry
  • 5голос
  • 1ответ
  • 0просмотров

Простой HTML Dom Parser: Как вставить в элементы

Я пытаюсь вставить (добавить) в элемент ... & quot; тело & quot; в частности. Я могу сделать это следующим образом: $var = "some JS stuff"; $e = $htmlDOM->find("body", 0); $e->outertext = '<body>' . $e->innertext . $var . '</body>';Моя проблема ...

Задан Sep 08, 2012, 9:55 AMотDayo
  • 5голос
  • 1ответ
  • 0просмотров

Простой HTML Dom Parser: Как вставить в элементы

Я пытаюсь вставить (добавить) в элемент ... »тело» в частности. Я могу сделать это следующим образом: $var = "some JS stuff"; $e = $htmlDOM->find("body", 0); $e->outertext = '' . $e->innertext . $var . '';Моя проблема в том, что это исправляет ...

Задан Sep 03, 2012, 4:58 PMотDayo
  • 11голосов
  • 3ответа
  • 0просмотров

Извлечение выбранных столбцов из таблицы с помощью BeautifulSoup

Я пытаюсь извлечь первый и третий столбцыэта таблица данных [http://www.samhsa.gov/data/NSDUH/2k10State/NSDUHsae2010/NSDUHsaeAppC2010.htm#tabC.7] используя BeautifulSoup. Посмотрев на HTML, первый столбец имеет тег. Другой интересующий столбец ...

Задан Oct 25, 2012, 4:08 PMотmac389
  • 16голосов
  • 3ответа
  • 0просмотров

Как извлечь объект JSON, который был определен в блоке javascript HTML-страницы, используя Python?

Я загружаю HTML-страницы с данными, определенными в них следующим образом: ... ...Я хотел бы извлечь объект JSON, определенный в 'window.blog.data», Есть ли более простой способ, чем его разбор вручную? (Я смотрю в Красивое Мыло, но могукажется, ...

Задан Nov 10, 2012, 3:51 PMотuser971956
  • 4голосов
  • 2ответа
  • 0просмотров

Получить HTML под тегом, используя htmlparser python

Я хочу получить весь HTML под тегом и с помощью HTMLParser. В настоящее время я могу получить данные между тегами и мой код class LinksParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.recording = 0 self.data = '' def ...

Задан Nov 11, 2012, 5:22 PMотraju
  • 2голос
  • 1ответ
  • 0просмотров

Как получить несколько классов в одном запросе, используя Beautiful Soup

Я хочу найти тд с class = "s" или класс = "С.Б.» в следующем htmlI ' test15,774.04,481.05,444.06,615.06,858.0test25,774.04,481.05,444.06,615.06,858.0 м, используя следующий код прямо сейчас. Но можно получить только класс, равный "S", Можно ли ...

Задан Nov 26, 2012, 7:32 PMотuser503853
  • 30голосов
  • 12ответов
  • 0просмотров

jQuery-подобный интерфейс для PHP?

Мне было любопытно, существует ли интерфейс / библиотека в стиле jQuery для PHP для обработки файлов HTML / XML - в частности, с использованием стиля jQuery selectors.I» [http://docs.jquery.com/Selectors] Я хотел бы сделать такие вещи (все ...

Задан Sep 01, 2009, 5:11 PMотtheotherlight
  • 6голосов
  • 8ответов
  • 0просмотров

PHP регулярное выражение для удаления тегов в документе HTML

Скажи, у меня есть следующий текст ..(content).............blah blah blah [http://foo.com/content]...(continue content)...Я хочу удалить ссылку, и я хочу удалить тег (сохраняя текст между). Как мне сделать это с помощью регулярного выражения ...

Задан Sep 01, 2009, 8:32 PMотSeñor Reginold Francis
  • 8голосов
  • 2ответа
  • 0просмотров

Лучший способ программно сохранить веб-страницу в статический файл HTML

Чем больше исследований я делаю, тем мрачнее становится прогноз. Я пытаюсь сохранить или сохранить веб-страницу с помощью Python. Это означает объединение всех стилей со встроенными свойствами и изменение всех ссылок на абсолютные ...

Задан Dec 19, 2012, 10:04 PMотNick Woodhams
  • 5голос
  • 1ответ
  • 0просмотров

Какой из 9 «HtmlAgilityPack.dll» я использую из загрузки Html Agility Pack?

В загруженном zip-файле HTML Agility Pack содержится девять папок: Net20Net40Net40-клиентNet45sl3-в.ч.SL4SL4-windowsphone71sl5winrt45Я не знаю, что означают эти имена папок. Пожалуйста, объясните, какой из них мне нужен для очистки данных из ...

Задан Jan 04, 2013, 7:39 PMотuser1944272
  • 3голосов
  • 3ответа
  • 0просмотров

Разбор HTML с использованием PHP и цикл по строкам и столбцам таблицы?

пытаюсь разобрать HTML из loadHTML, но яУ меня возникли проблемы, мне удалось пройти через всев документе, но я нене знаю, как пройти через на каждом ряду. Это то, что я сделал до сих пор: $DOM->loadHTML($url); $rows= ...

Задан Jan 09, 2013, 8:06 PMотlisovaccaro
  • 14голос
  • 1ответ
  • 0просмотров

Как сохранить обратно изменения, сделанные в файле HTML, используя BeautifulSoup в Python?

У меня есть скрипт ниже, который изменяетhref атрибуты в файле HTML (в будущем это будет список файлов HTML в каталоге). Используя BeautifulSoup мне удалось получить доступ к значениям тегов и изменить их, как я хочу, но я нене знаю, ...

Задан Jan 16, 2013, 9:59 PMотPepeFloyd
  • 18голосов
  • 5ответов
  • 0просмотров

PHP: HTML: отправить атрибут выбора HTML в POST

Я хочу отправить выбранное значение элемента вместе со значением некоторого атрибута (stud_name). Есть ли какая-либо функциональность в PHP для этого? Вот пример один. Age: 23 24 25Спасибо

Задан Jan 29, 2013, 7:30 AMотSridhar
  • 7голосов
  • 4ответа
  • 0просмотров

Правильный ли синтаксис HTML-разметки? (удалить пробелы между элементами inline-block) [duplicate]

На этот вопрос уже есть ответ здесь: Как убрать пробел между элементами inline-block? [/questions/5078239/how-do-i-remove-the-space-between-inline-block-elements]37 ответовКогда HTML-код не 'украсил», это выглядит как И тогда эти картины ...

Задан Jan 31, 2013, 3:07 PMотel Dude
  • 38голосов
  • 3ответа
  • 0просмотров

разбирать html внутри ng-bind с помощью angularJS [дубликата]

На этот вопрос уже есть ответ здесь: Как удалить HTML, если удалить ng-bind-html-unsafe? [/questions/19415394/with-ng-bind-html-unsafe-removed-how-do-i-inject-html]10 ответовУ меня возникли проблемы с angularJs. Мое приложение ...

Задан Feb 15, 2013, 4:31 AMотEdgar Martinez
  • 10голосов
  • 2ответа
  • 0просмотров

Доступные в Ruby гемы / инструменты для очистки веб-страниц [закрыто]

пытаюсь почистить веб-страницы скриптом на Ruby, который яЯ работаю над. Цель проекта - показать, какие ETF и паевые инвестиционные фонды наиболее совместимы с философией инвестирования в стоимость. Некоторые примеры страниц, которые яХотелось ...

Задан Feb 23, 2013, 4:24 AMотjhsu802701
  • 3голосов
  • 2ответа
  • 0просмотров

Заменить переводы строк тегами BR, но только внутри тегов PRE

В наличии PHP5, что такое хорошоpreg_replace выражение для этого преобразования: заменить символы новой строки , но только внутри блоки (Не стесняйтесь делать упрощающие предположения и игнорируйте угловые случаи. Например, мы можем ...

Задан Oct 04, 2009, 4:51 PMотGregg Lind
  • 7голосов
  • 2ответа
  • 0просмотров

Получить все элементы по имени класса, используя DOMDocument

На этот вопрос, кажется, отвечали много раз, но я все еще не могу собрать все воедино. Я хотел бы получить значение узла каждого класса по имени. например 3212Я хотел бы взять 32 и 12. Я предполагаю, что это требует своего рода цикла for, но не ...

Задан Mar 03, 2013, 9:19 AMотSammy
  • 3голосов
  • 2ответа
  • 0просмотров

Преобразовать строки таблицы HTML в массив PHP и сохранить его в базе данных? [закрыто]

Я пытаюсь сохранить строки таблицы HTML в массиве php, а затем сохранить массив в базе данных. Level Identifier Non-logged in message Logged in message This is your custom message template This is your custom message templateКак я могу получить ...

Задан Mar 19, 2013, 5:16 PMотIrfan Dayan
  • 5голосов
  • 4ответа
  • 0просмотров

Как конвертировать Xpath в CSS

Мой xpath:/html/body/div/table/tbody/tr[2]/td[4] Мне нужно получить CSS, чтобы использовать его в селекторе jsoup. Я нашел сравнение между xpath и ...

Задан Mar 31, 2013, 1:59 PMотKamil
  • 28голосов
  • 4ответа
  • 0просмотров

Как я могу добавить «текущую серию» сообщений от github в свой блог?

У меня есть личный блог, который я построил с использованием рельсов. Я хочу добавить раздел на свой сайт, который отображает мою текущую серию вкладов в github. Что было бы лучшим способом сделать это? редактировать: для пояснения, вот что я ...

Задан Apr 12, 2013, 4:55 PMотOx Smith
  • 18голос
  • 1ответ
  • 0просмотров

Symfony DomCrawler: поиск элемента с определенным значением атрибута

используя компонент DomCrawler: http://symfony.com/doc/current/components/dom_crawler.htmlI» [http://symfony.com/doc/current/components/dom_crawler.html] Я хотел бы, используя CSS-подобный синтаксис, получить элемент с определенным значением ...

Задан Apr 30, 2013, 11:20 AMотWesley
  • 3голосов
  • 4ответа
  • 0просмотров

Regex PHP, сопоставить все ссылки с конкретным текстом

Я ищу регулярное выражение в PHP, которое будет соответствовать якорь с конкретным текстом на нем. Например, я хотел бы получить якоря с текстом mylink, как: mylink [blabla]Таким образом, он должен соответствовать всем якорям, но только если они ...

Задан Nov 02, 2009, 12:00 PMотGranit
  • 6голосов
  • 7ответов
  • 0просмотров

Java: у меня есть большая строка html и мне нужно извлечь текст href = «…»

У меня есть эта строка, содержащая большой кусок HTML и пытаюсь извлечь ссылку из href = "...» часть строки. Href может быть в одной из следующих форм: [...] [...]Я неу меня действительно есть проблема с регулярным выражением, но по какой-то ...

Задан Nov 03, 2009, 9:35 PMотLegend
  • 2голосов
  • 5ответов
  • 0просмотров

Соответствующий тег пары с регулярным выражением

я пытаюсь извлечь определенные теги с их содержимым из документа xhtml, но этос неправильными конечными тегами. В следующем содержании: some content here Welcome Apikot!Конечный тег content_block для id = "добро пожаловать» на самом деле ...

Задан Nov 07, 2009, 11:08 AMотAndrei Serdeliuc ॐ
  • 7голосов
  • 2ответа
  • 0просмотров

BeautifulSoup - простой способ получения содержимого без HTML

Я использую этот код, чтобы найти все интересные ссылки на странице: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))И это делает свою работу довольно хорошо. К сожалению, внутри этогоесть много вложенных тегов, напримершрифт, би ...

Задан Nov 17, 2009, 10:38 PMотAndrea Ambu
  • 1голосов
  • 2ответа
  • 0просмотров

Beautiful Soup: доступ к элементам &lt;li&gt; из &lt;ul&gt; без идентификатора

Я пытаюсь очистить людей, у которых есть дни рождения от этогоСтраница википедии [http://en.wikipedia.org/wiki/January_1] Вот существующий код: hdr = {'User-Agent': 'Mozilla/5.0'} site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1" req ...

Задан Jul 16, 2013, 3:42 PMотAlex Chumbley
  • 0голосов
  • 2ответа
  • 0просмотров

как пропустить файл внутри файла tar, чтобы получить конкретный файл

я пытаюсь получить содержимое HTML-файла, который присутствует внутри файла tar (я использую Visual C ++ для выполнения моей задачи). Мой подход заключается в том, чтобы сохранить tar в буфере, используя поток, а затем сохранить содержимое html в ...

Задан Jul 29, 2013, 7:13 AMотSss
  • 0голос
  • 1ответ
  • 0просмотров

BeautifulSoup не может проанализировать состояние длительного просмотра

Я пытаюсь использовать BeautifulSoup4 для анализа html, полученного из http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0 [http://exporter.nih.gov/ExPORTER_Catalog.aspx?index=0]Если я распечатаю полученный суп, он заканчивается ...

Задан Aug 09, 2013, 1:51 PMотAchim
  • 6голосов
  • 6ответов
  • 0просмотров

Как найти / заменить текст в HTML при сохранении тегов / структуры HTML

Я использую регулярные выражения для преобразования текста, как я хочу, но я хочу сохранить теги HTML. например если я хочу заменитьпереполнение стека" с "Переполнение стека, это должно работать как ожидалось: если входstack overflowЯ должен ...

Задан Dec 06, 2009, 4:44 PMотvbfoobar
  • 8голосов
  • 4ответа
  • 0просмотров

Простой HTML-файл file_get_html не работает - есть ли обходной путь?

find('a') as $element) { echo ""; print_r( $element->href ); echo ""; } $html_base->clear(); unset($html_base); ?>У меня есть вышеуказанный код, и яя пытаюсь получить определенные элементы на странице Play Store, но это не такничего не возвращаю. ...

Задан Sep 06, 2013, 8:20 PMотAlbo Best
  • 11голосов
  • 3ответа
  • 0просмотров

Как я могу использовать регулярное выражение, чтобы получить тег &#39;img&#39;?

Я хочу взятьimg тег из текста, возвращенного из данных JSON, как это. Я хочу взять это из строки: Какое регулярное выражение я должен использовать, чтобы соответствовать ему? Я использовал следующее, но это не ...

Задан Sep 06, 2013, 5:15 PMотeng.ahmed
Пред123След