Вопрос по mysql, information-retrieval, full-text-search, php, search-engine – Создание быстрого семантического поискового движка MySQL для частных статей с нуля

2

Я работаю над проектом, который будет включатьfull-text and semantic поиск статей на сайте (если его невозможно объединить, пользователь может выбрать любой вариант). Эти статьи основаны на подписке и могут быть найдены только после входа в систему; поэтому они не доступны для внешних поисковых систем или их API.

Я читаю о сфинксе для полнотекстового поиска по ключевым словам (и я намерен реализовать его для этого аспекта), но я не уверен, как сделать из этого семантическую поисковую систему. например В поисках & quot; США. Президент & Quot; следует перечислить статьи, содержащие ссылки на фактические имена президентов США, например, Джордж Вашингтон, Билл Клинтон (или Уильям Джефферсон Клинтон).

У меня есть идеи, что, возможно, своего рода система тегов может быть использована для связи различных ключевых слов, например, свяжите президента с Джорджем Вашингтоном, а президента с Биллом Клинтоном, но поскольку данных действительно много, и многие такие отношения будут существовать, я не знаю, как развить эту идею.

Пожалуйста, посоветуйте мне, как лучше создать семантическую поисковую систему (я думаю, что Sphinx может обрабатывать полнотекстовый поиск по ключевым словам) с нуля. В противном случае, пожалуйста, сообщите мне о любых интернет-ресурсах или, если на каком-либо языке уже существует программное обеспечение, которое я могу интегрировать в свое приложение.

Постскриптум Моя база данных - MySQL (пожалуйста, совет, если для этой задачи больше подходит другая система баз данных), и я предпочитаю программировать на PHP, но если мне нужно выучить Python или любой другой язык, который будет более эффективен для этой задачи, я буду будь готов.

Я уже искал вanswers.semanticweb.com

Ваш Ответ

2   ответа
0

кто читает эту ветку. Я только что нашел это на Амазоне.

http://www.amazon.com/E-Librarian-Service-User-Friendly-Libraries-X-media-publishing/dp/3642177425

2

Apache Solr, Я думаю, что он более гибкий, чем Сфинкс. Solr поддерживает полнотекстовый поиск, и я считаю, что есть дополнения для семантической поддержки (например,сирена). Solr - это версия Lucene.

Solr поддерживает SynonymFilter:http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#SynonymFilter

В этом посте обсуждаются некоторые стратегии оптимизации поиска контентаhttp://www.lucidimagination.com/devzone/technical-articles/optimizing-findability-lucene-and-solr

Спасибо! Я только что прочитал статью SIREn. Значит ли это, что мне нужно создавать теги RDF для каждой из статей, или это автоматизирует это? Кроме того, с какими языками работает SIREn? На оба вопроса нет ответа на сайте SIREn. Мне интересно, можно ли автоматически генерировать теги RDF ... Я читаю о семантике ARappliedrelevance.com/2011/09/28/ar-semantics-for-apache-solr для Solr, но нет информации о том, как его получить. Cogicero
Исходя из раздела «Начало работы», похоже, что сирена - это Java. (Я считаю, что Sphinx - это C ++).
Еще раз спасибо, я приму ваш ответ, потому что он дает хорошее начало. Хотя мне все еще интересно, как получить семантику AR или любую другую, которая автоматически генерирует теги RDF. Cogicero

Похожие вопросы