Лучшие nlp вопросы ИТ разработчиков

  • 8 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Интеграция с Python и .NET

В настоящее время я смотрю на python, потому что мне действительно нравятся возможности разбора текста и библиотека nltk, но традиционно я программист .Net / C #. Я не думаю, что IronPython является для меня точкой интеграции, потому что я ...

Задан 24 Nov 2009, 04:21 от Trent
  • 22 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

CBOW v.s. пропустить грамматику: зачем инвертировать контекст и целевые слова?

Вэтот На странице сказано, что:[...] пропускающая грамма инвертирует контексты и цели и пытается предсказать каждое контекстное слово из его целевого слова [...

Задан 10 Jul 2016, 01:21 от Guillaume Chevalier
  • 10 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

@ user757256: да, Jython немного медленнее и требует больше памяти. Взломайте какой-нибудь прототип, сравните с CPython и Jython, а затем посмотрите, что вы можете оптимизировать. И снова сделайте свой выбор только после оценки, какие библиотеки вы можете использовать.

ро начну новый проект, в котором собираюсь выполнять множество задач по обработке текста, таких как поиск, категоризация / классификация, кластеризация и так далее. Там будет огромное количество документов, которые должны быть ...

Задан 17 May 2011, 11:46 от kga
  • 4 голосов
  • ответ
  • 0 просмотров
ответ

Как вывести блоки NLTK в файл?

У меня есть этот скрипт на Python, где я использую библиотеку nltk для разбора, токенизации, тегов и чанков, некоторые позволяют говорить случайный текст из ...

Задан 06 Feb 2015, 12:16 от user3725561
  • 62 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Рассчитать косинусное сходство по 2 строкам предложения

ИзPython: tf-idf-cosine: найти сходство документа [https://stackoverflow.com/questions/12118720/python-tf-idf-cosine-to-find-document-similarity] , можно рассчитать сходство документов, используя косинус tf-idf. Без импорта внешних библиотек, ...

Задан 02 Mar 2013, 10:06 от alvas
  • 44 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

генерация тегов из текстового контента

Мне любопытно, если существует алгоритм / метод, чтобы генерировать ключевые слова / теги из данного текста, используя некоторые вычисления веса, коэффициент...

Задан 18 Apr 2010, 09:39 от Hellnar
  • 29 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Что тэггер NLTK POS просит меня скачать?

Я только начал использовать тегер части речи, и у меня много проблем. Я начал маркировку POS со следующего: import nltk text=nltk.word_tokenize("We are going out.Just you and me.")Когда я хочу напечатать'text'происходит следующее: print ...

Задан 21 Dec 2011, 13:14 от Pearl
  • 8 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Есть ли база данных, API или анализируемый текст для получения спряжения глаголов?

Это не вопрос программирования, поэтому я заранее извиняюсь. Я работал над генератором случайных предложений без грамматики для игры с типизацией, которую я хотел бы создать, и мне было трудно находить какие-либо анализируемые (или вызываемые) ...

Задан 02 Mar 2012, 18:24 от Jamey
  • 3 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Синтаксический анализатор выдает ошибку утверждения при использовании его с nltk

Я использую солодовый парсер с python nltk. Я успешно загрузил данные тренировок и обновил последнюю версию nltk. Когда я вызываю анализатор солода, он выдае...

Задан 19 Feb 2016, 14:56 от Mustufain
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как использовать CountVectorizerand () в sklearn, чтобы получить нграммы, которые содержат любые знаки препинания в качестве отдельных токенов?

я используюsklearn.feature_extraction.text.CountVectorizer вычислить н-грамм. Пример:

Задан 20 Aug 2015, 21:35 от Franck Dernoncourt
  • 29 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

https://github.com/thavelick/summarize

ли какая-нибудь библиотека, предпочтительно на python, но, по крайней мере, с открытым исходным кодом, которая может обобщать или упрощать текст на естественном языке?

Задан 29 Mar 2011, 21:46 от captainandcoke
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Использование WordNet для определения семантического сходства между двумя текстами?

Как вы можете определить семантическое сходство между двумя текстами в Python, используя WordNet? Очевидная предварительная обработка будет состоять в удале...

Задан 13 Jul 2012, 02:35 от Zach
  • 4 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Что такое матрицы сопутствующих явлений и как они используются в НЛП?

Pypi документы для Google Ngram Downloader скажем, что «иногда вам нужны совокупные данные по набору данных. Например, для построения матрицы совместного исп...

Задан 06 Jun 2014, 02:01 от bernie2436
  • 11 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3/

пор как появились большие веб-приложения, поиск данных (и молниеносный и точный поиск) стал одной из наиболее важных проблем в веб-приложениях. Некоторое вре...

Задан 16 Dec 2010, 05:51 от David Conde
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Использование Sentiwordnet 3.0

Я планирую использовать Sentiwordnet 3.0 для классификации настроений. Может ли кто-нибудь уточнить, что представляют собой числа, связанные со словами в Sen...

Задан 13 Jan 2016, 21:46 от RisingSunAmal Antony
  • 1 голос
  • 2 ответа
  • 0 просмотров
2 ответа

Какой язык или инструменты выучить для обработки естественного языка?

Я француз и бывший сертифицированный администратор сетевой безопасности. Я вернулся в университет 3 года назад, чтобы получить степень бакалаврастепень в обл...

Задан 01 Sep 2013, 11:00 от Sat Cit Ananda
  • 37 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Понимание min_df и max_df в scikit CountVectorizer

У меня есть пять текстовых файлов, которые я ввожу в CountVectorizer. При указании min_df и max_df для экземпляра CountVectorizer, что именно означает минима...

Задан 29 Dec 2014, 23:57 от moeabdol
  • 5 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Обработка естественного языка: Находите матом на английском?

Учитывая набор слов, помеченных для части речи, я хочу найти те, которые являются матом в основном английском языке. Как я могу это сделать? Должен ли я просто сделать огромный список и проверить наличие чего-либо в списке? Должен ли я попытаться ...

Задан 02 Dec 2009, 20:34 от Nick Heiner
  • 95 голосов
  • 8 ответов
  • 0 просмотров
8 ответов

Как избавиться от пунктуации с помощью токенайзера NLTK?

Я только начинаю использовать NLTK, и я неЯ не совсем понимаю, как получить список слов из текста. Если я использую

Задан 21 Mar 2013, 11:22 от lizarisk
  • 1 голос
  • 3 ответа
  • 0 просмотров
3 ответа

Напишите классификатор по этим признакам. Я бы порекомендовал Маллет.

я есть предопределенные слова, и я хотел бы знать, касается ли основной предмет предложения предопределенных слов. Пример: Предопределенные слова: iPhone, Nexus, HTC Предложение: Мне нравится новый дизайн iPhone - основная тема iPhone Я ...

Задан 15 Jun 2011, 18:08 от Amy F.
  • 4 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Выявление времен глагола в питоне

Как я могу использовать Python + NLTK, чтобы определить, относится ли предложение к прошлому / настоящему / будущему?Могу ли я сделать это только с помощью P...

Задан 13 Nov 2013, 22:08 от JohnTortugo
  • 11 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

как определить количество тем для LDA?

Я новичок в LDA, и я хочу использовать его в своей работе. Однако появляются некоторые проблемы. Чтобы получить наилучшую производительность, я хочу оценить лучший номер темы. После прочтения «Поиск научных тем» я знаю, что сначала могу ...

Задан 02 Jul 2013, 09:22 от Chelsea Wang
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

реальное количество слов в NLTK

В книге NLTK есть несколько примеров подсчета слов, но на самом деле это не подсчет слов, а подсчет токенов. Например, в главе 1 «Словарь подсчета» сказано, ...

Задан 20 May 2012, 20:40 от Zach
  • 10 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

НЛТК токенизация и сокращения

Я делаю токенизацию текста с помощью nltk, просто предложений, поданных в wordpunct_tokenizer. Это разделяет сокращения (например, от «не» до «+» и «+»), но ...

Задан 31 Aug 2012, 11:15 от blueblank
  • 11 голосов
  • 5 ответов
  • 0 просмотров
5 ответов

Стратегия разбора описания естественного языка в структурированные данные

У меня есть набор требований, и я ищу лучшееJava на основестратегия / алгоритм / программное обеспечение для использования. По сути, я хочу взять набор ингредиентов рецепта, введенных реальными людьми на естественном английском языке, и ...

Задан 07 Oct 2011, 22:30 от Jizzoe
  • 5 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Надеюсь, это поможет!

бираю предложение со Spacy следующим образом: import spacy nlp = spacy.load("en") span = nlp("This is some text.")Мне интересно, есть ли способ удалить слово в промежутке, сохраняя при этом формат оставшихся слов как предложение. Такие как del ...

Задан 05 Sep 2018, 21:24 от ZEWEI CHU
  • 10 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Stemmers действительно не собираются сокращать это. ОП нуждается в лемматизаторе, например, в WordNet или в теге Stanford POS.

ожно превратить множественные существительные в единственные существительные, используя R? Я использую функцию tagPOS, которая помечает каждый текст, а затем извлекает все существительные во множественном числе, которые были помечены как «NNS». ...

Задан 12 Aug 2011, 07:29 от ssuhan
  • 2 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как извлечь номера строк, которые соответствуют регулярному выражению в текстовом файле

я делаю проект по статистическому машинному переводу, в котором мне нужно извлечь номера строк из текстового файла с тегами POS, которые соответствуют регуля...

Задан 12 Jun 2013, 20:44 от user2468610
  • 3 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

github.com/explosion/spaCy/blob/master/examples/pipeline/...

ользуюошалевший [http://spacy.io/]для проекта НЛП. У меня есть список фраз, которые я хотел бы отметить как новый тип объекта. Первоначально я пытался обучить модели NER, но, поскольку список терминологии ограничен, я думаю, что просто ...

Задан 04 Mar 2018, 16:48 от kevin.w.johnson
  • 0 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Получение OOM при использовании GATE на большом наборе данных

Я новичок в НЛП и использую GATE для него. Я получаю OOM Exception, если я запускаю свой код для большого набора данных (содержащего 7K + записей). Ниже приведен код, где происходит исключение. /** * Run ANNIE * * @param controller * @throws ...

Задан 26 Feb 2013, 05:52 от Divya Motiwala
  • 4 голосов
  • 3 ответа
  • 0 просмотров
3 ответа

Как я могу распечатать все содержимое Wordnet (желательно с NLTK)?

NLTK предоставляет функции для печати всех слов в корпусе Брауна (или Гутенберга). Но эквивалентная функция, похоже, не работает в Wordnet.Есть ли способ сде...

Задан 05 Nov 2015, 03:12 от zadrozny
  • 7 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

github.com/quire-io/SwiftyChrono

, у меня есть [email protected]"tomorrow" Есть ли какая-нибудь библиотека, которая принимает такие строки и преобразует их в NSDates? Я воображаю / надеюсь на что-то вроде этого: NSString* humanDate = @"tomorrow at 4:15"; NSDateFormatter *dateFormatter ...

Задан 04 May 2011, 04:25 от Joel
  • 6 голосов
  • 2 ответа
  • 0 просмотров
2 ответа

Как использовать нецелочисленные строковые метки с SVM из scikit-learn? питон

Scikit-learn имеет довольно удобные модули Python для машинного обучения. Я пытаюсь обучить SVM-тегер для обработки естественного языка (NLP), где мои метки и входные данные - это слова и аннотации. Например. Тегирование части речи вместо ...

Задан 18 Oct 2012, 02:53 от alvas
  • 5 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Python и NLTK: как анализировать грамматику предложений?

У меня есть этот код, который должен показать синтаксическую структуру предложения в соответствии с определенной грамматикой. Однако он возвращает пустой []. Что я пропускаю или делаю неправильно? import nltk grammar = nltk.parse_cfg(""" S -> NP ...

Задан 07 Jan 2014, 22:40 от Helena
  • 2 голосов
  • 1 ответ
  • 0 просмотров
1 ответ

Как сопоставить целые числа в NLTK CFG?

Если я хочу определить грамматику, в которой один из токенов будет соответствовать целому числу, как я могу достичь этого, используя строку CFG nltk?Например -

Задан 05 Feb 2015, 15:59 от Sudipta Bhattacharya
  • 4 голосов
  • 0 ответов
  • 0 просмотров
0 ответов

Извлечение чистого содержимого / текста из HTML-страниц за исключением навигации и содержимого Chrome

Я сканирую новостные сайты и хочу извлечь заголовок новости, реферат новостей (первый абзац) и т. Д. Я подключился к коду синтаксического анализатора webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и ...

Задан 08 Nov 2009, 15:42 от Ankur Gupta
  • 9 голосов
  • 4 ответа
  • 0 просмотров
4 ответа

Определение географического положения в тексте

Какого рода работа была проделана, чтобы определить, относится ли конкретная строка к географическому местоположению? Например:

Задан 29 Jul 2009, 15:08 от Robert Elwell
Page 1 of 9
1 2 3 4 5