Вопрос по python, regex – Создание пользовательского классифицированного корпуса в NLTK и Python

10

У меня возникла небольшая проблема, связанная с регулярными выражениями иCategorizedPlaintextCorpusReader в Python.

Я хочу создать собственный классифицированный корпус и обучить его наивному-байесовскому классификатору. Моя проблема заключается в следующем: я хочу иметь две категории, "pos" и "нег". Положительные файлы находятся в одном каталоге,main_dir/pos/*.txtи отрицательные находятся в отдельном каталоге,main_dir/neg/*.txt.

Как я могу использоватьCategorizedPlaintextCorpusReader загрузить и пометить все положительные файлы в каталоге pos, и сделать то же самое для отрицательных?

NB: установка абсолютно такая же, какMovie_reviews корпус (~nltk_data\corpora\movie_reviews).

Error: User Rate Limit Exceededstackoverflow.com/questions/29275614/… alvas

Ваш Ответ

1   ответ
20

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

Error: User Rate Limit Exceeded

Похожие вопросы