Лучшие text-extraction вопросы ИТ разработчиков

  • 4 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Извлечение чистого содержимого / текста из HTML-страниц за исключением навигации и содержимого Chrome

Я сканирую новостные сайты и хочу извлечь заголовок новости, реферат новостей (первый абзац) и т. Д. Я подключился к коду синтаксического анализатора webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и ...

Задан 08 Nov 2009, 15:42 от Ankur Gupta
  • 17 голосов
  • 8 ответов
  • 0 просмотров
8 ответов

Извлечение текста из HTML Java

Я работаю над программой, которая загружает HTML-страницы, затем выбирает некоторую информацию и записывает ее в другой файл. Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код ...

Задан 06 Sep 2009, 16:52 от MajorMajor
  • 6 голосов
  • 6 ответов
  • 0 просмотров
6 ответов

Использование кипера для извлечения неанглийских статей

Я пытаюсь использоватьboilerpipe [http://code.google.com/p/boilerpipe/] библиотека Java, чтобы извлечь новостные статьи из набора веб-сайтов. Он отлично работает для текстов на английском языке, но для текста со специальными символами, например, ...

Задан 13 Feb 2012, 11:51 от pedro_silva
  • 77 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше? [закрыто]

Я ищу библиотеку PDF, которая позволит мне извлечь текст из документа PDF. Я посмотрел на PyPDF, и это может очень хорошо извлечь текст из документа PDF. Проблема заключается в том, что если в документе есть таблицы, текст в таблицах извлекается ...

Задан 04 Dec 2009, 17:28 от Mike Cialowicz
  • 2 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

php: получить простой текст из html - simplehtmldom или php strip_tags?

Я смотрю на получение простого текста из HTML. Какой из них выбрать, php strip_tags [http://php.net/manual/en/function.strip-tags.php]или жеsimplehtmldom [http://simplehtmldom.sourceforge.net/]извлечение открытого текста? Одним из плюсов для ...

Задан 05 Dec 2011, 19:03 от giorgio79
  • 14 голосов
  • 12 ответов
  • 0 просмотров
12 ответов

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей HTML-страницы весь текст (отображается или нет).я бы хотелУдалитьлюбые теги HTMLЛюбой JavaScriptЛюбые стили CSSЕсть ли регулярное...

Задан 07 Oct 2008, 23:43 от Ron Harlev
  • 8 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

или же

я есть большой набор реального текста, из которого мне нужно вытащить слова для ввода в программу проверки орфографии. Я хотел бы извлечь как можно большезначимым Слова, насколько это возможно, без лишнего шума. Я знаю, что здесь много ...

Задан 19 Apr 2011, 14:22 от orlade
  • 7 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Как я могу прочитать PDF в Python? [Дубликат]

На этот вопрос уже есть ответ: Как извлечь текст из файла PDF? [/questions/34837707/how-to-extract-text-from-a-pdf-file] 14 ответов Как я могу прочитать pdf на python? Я знаю один способ преобразования его в текст, но я хочу читать содержимое ...

Задан 21 Aug 2017, 10:43 от sg1994
  • 14 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Извлечь текст из PDF-файла, используя JavaScript

Я хочу извлечь текст из PDF-файла, используя только Javascript на стороне клиента без использования сервера. Я уже нашел код JavaScript в следующей ссылке:извлечь текст из PDF в ...

Задан 02 Jul 2013, 11:39 от Coccinelle
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Извлечение информации из захваченного изображения в Android

Это мое изображение:Я использовал эту ссылку (tessaract) для захвата и обработки изображения:http://kurup87.blogspot.com/2012/03/android-ocr-tutorial-image-t...

Задан 01 Jun 2013, 14:50 от TharakaNirmana
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

извлечение определенных строк данных из нескольких текстовых файлов для преобразования в один CSV-файл

Во-первых, извиняюсь за мою плохую способность к кодированию, однако я потратил несколько часов, читая форумы и давая им трещину, поэтому я был бы очень признателен за любую помощь в решении следующей проблемы: У меня есть 3 текстовых файла, из ...

Задан 21 Oct 2011, 14:37 от user1007308
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Не в состоянии прочитать точный текст, выделенный через строки

Я работаю над чтением выделенного из PDF документа с использованием PDBox. Мне удалось прочитать выделенный текст в одну строку как одно, так и несколько сло...

Задан 16 Sep 2015, 12:03 от user5342176
  • 14 голосов
  • 12 ответов
  • 0 просмотров
12 ответов

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей HTML-страницы весь текст (отображается или нет). я бы хотелУдалить любые теги HTMLЛюбой JavaScriptЛюбые стили CSSЕсть ли регулярное выражение (одно или несколько), которое достигнет этого?

Задан 08 Oct 2008, 01:43 от Ron Harlev
  • 44 голосов
  • 8 ответов
  • 0 просмотров
8 ответов

 это намного быстрее и захватывает весь текст из .doc, .docx и .pdf без форматирования. DocRipper использует Antiword, grep и pdftotext, чтобы захватить текст и вернуть его.

ибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx? Я нашел этоЛучший способ извлечь текст из документа Word без использования COM ...

Задан 15 Apr 2011, 03:12 от docextract
  • 1 голос
  • 1 ответ
  • 0 просмотров
1 ответ

Вот демо

ичок в Python и был бы очень благодарен, если бы вы могли помочь мне с моей проблемой извлечения текста. Я хочу извлечь весь текст, который лежит между двумя выражениями в текстовом файле (начало и конец буквы). Как для начала, так и для конца ...

Задан 06 Nov 2018, 09:55 от Dominik Scheld
  • 316 голосов
  • 10 ответов
  • 0 просмотров
10 ответов

JSFiddle

я есть строка, в которой есть две одинарные кавычки,' характер. Между одинарными кавычками находятся данные, которые я хочу. Как я могу написать регулярное выражение, чтобы извлечь "данные, которые я хочу" из следующего текста? mydata = "some ...

Задан 11 Jan 2011, 20:22 от asdasd
  • 3 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Извлечение номера и имени из строки [r]

POSIX Expression вызывает у меня головную боль. Допустим, у нас есть строка: a = "[question(37), question_pipe(\"Person10\")]"и в конечном итоге я хотел бы иметь возможность: b = c("37", "Person10")Я посмотрел наstringr пакет, но не могу ...

Задан 20 Mar 2012, 23:53 от Cam B
  • 13 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Перечислите слова в словаре в соответствии с наличием в текстовом корпусе, Scikit-Learn

Я оборудовалCountVectorizer на некоторые документы вscikit-learn, Я хотел бы видеть все термины и их соответствующую частоту в текстовом корпусе, чтобы выбрать стоп-слова. Например 'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so ...

Задан 18 Apr 2013, 08:27 от user1506145
  • 68 голосов
  • 8 ответов
  • 0 просмотров
8 ответов

, Для вашего конкретного случая:

я есть файл, который выглядит примерно так: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="content_analyzer2" primary-key="id"> <type="global" /> </table> <table name="content_analyzer_items" ...

Задан 22 Feb 2011, 16:34 от wrangler
  • 36 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Используя GetPageText, можно также вернуть только текст, расположенный в этой области, или текст, расположенный в этой области, а также информацию о шрифте текста, такую как имя, цвет и размер.

ел бы извлечь текст из части (используя координаты) PDF, используя Ghostscript. Может кто-нибудь мне помочь?

Задан 31 May 2011, 11:59 от AMER
  • 17 голосов
  • 8 ответов
  • 0 просмотров
8 ответов

Извлечение текста из HTML Java

Я работаю над программой, которая загружает HTML-страницы, а затем выбирает некоторую информацию и записывает ее в другой файл.Я хочу извлечь информацию, кот...

Задан 06 Sep 2009, 14:52 от MajorMajor
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

Соскребание текста из файла в тегах HTML

У меня есть файл, из которого я хочу извлечь даты, это исходный файл HTML, так что он полон кода и фраз, которые мне не нужны. Мне нужно извлечь каждый экземпляр даты, который обернут в определенный тег HTML: abbr title = "((это текст, который ...

Задан 18 Mar 2012, 11:59 от user1023420
  • 14 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Извлечь текст из PDF-файла, используя JavaScript

Я хочу извлечь текст из PDF-файла, используя только Javascript на стороне клиента без использования сервера. Я&#39;Мы уже нашли код JavaScript в следующей сс...

Задан 02 Jul 2013, 09:39 от Coccinelle