Вопрос по regex, java, html – Regex для удаления тегов HTML

10

У меня есть этот ввод HTML:

<font size="5"><p>some text</p>
<p> another text</p></font>

Я хотел бы использовать регулярное выражение для удаления тегов HTML, чтобы вывод:

some text
another text

Кто-нибудь может подсказать, как это сделать с помощью регулярных выражений?

Дальнейшее чтение:stackoverflow.com/questions/832620/stripping-html-tags-in-java Andreas_D
Пожалуйста, прочитайте этот ответ на похожий вопрос:stackoverflow.com/questions/1732348/... Sean Patrick Floyd
Не пытайтесь анализировать HTML с помощью регулярных выражений. Это закончится только слезами. Jon Skeet

Ваш Ответ

1   ответ
4

Вы можете скачать его здесь -http://jericho.htmlparser.net/docs/index.html

Jericho HTML Parser - это java-библиотека, позволяющая анализировать и обрабатывать части документа HTML, включая теги на стороне сервера, при дословном воспроизведении любого нераспознанного или недействительного HTML. Он также предоставляет высокоуровневые функции для работы с HTML-формами.

Наличие плохо отформатированного HTML не мешает разбору

Jsoup Лучше сейчас, этому ответу 5 лет! JonasCz
Jsoup ожидает хорошо сформированный HTML, поэтому он НЕ лучше, чем Иерихон, когда вы имеете дело с произвольным HTML. sproketboy

Похожие вопросы