Вопрос по – Как получить чистый сырой HTML страницы в HTMLUnit, игнорируя JavaScript и CSS?

5

Я просто хочу, чтобы текстовое содержимое страницы было максимально простым. Могу ли я отключить весь анализ и дополнительную загрузку JavaScript, CSS и другого внешнего контента, который HTMLUnit делает из коробки?

Ваш Ответ

1   ответ
9

WebClient webClient = new WebClient();
webClient.setCssEnabled(false);
webClient.setAppletEnabled(false);
webClient.setJavaScriptEnabled(false);

Для HtmlUnit 2.13 и выше используйтеwebclient.getOptions().

Также этовопрос и ответ тоже может быть полезен. Это действительно ускорило процесс, но мне пришлось перекомпилировать HtmlUnit ...

Наконец, чтобы получить исходный контент страницы (вместо выводаasXml()) попробуйте следующее:

WebClient webClient = new WebClient();
HtmlPage page = webClient.getPage("http://www.yourpage.com");
String originalHtml = page.getWebResponse().getContentAsString();
asXML()Error: User Rate Limit ExceededgetContentAsString()Error: User Rate Limit Exceeded
Error: User Rate Limit Exceeded
Error: User Rate Limit ExceededasXML()Error: User Rate Limit Exceededpage.getWebResponse().getContentAsString() ? Thomas
Error: User Rate Limit Exceeded

Похожие вопросы