5

Вопрос по matrix – Эффективная кластеризация матрицы подобия

моя тема - сходство и кластеризация (связка) текста (ов). В двух словах: я хочу объединить собранные тексты, и они должны появиться в значимых кластерах в конце. Чтобы сделать это, мой подход до сих пор заключается в следующем, моя проблема в ...

Вы получили хорошие ответы? Мне даже не ясно, в каких измерениях должна работать кластеризация ...

от Jim

3 ответа

1

Возможно, вы сможете преобразовать свою матрицу сходства в матрицу различий, такую как преобразование x в 1 / x, тогда ваша проблема состоит в кластеризации матрицы различий. Я думаю, что иерархический кластер может работать. Это может помочь вам:иерархическая кластеризация а такжеКластеризация матрицы различий

1

Просто попробуйте. Существует так много алгоритмов кластеризации, что никто не будет знать их все. Кроме того, это также зависит от вашего набора данных и структуры кластеризации. В конце концов, также может быть только этот один кластер монстров в отношении косинусного расстояния и особенностей BofW.

2

Поскольку вы оба новички в этой области, имеете неизвестное количество кластеров и уже используете косинусное расстояние, я бы порекомендовалFLAME алгоритм кластеризации.

Он интуитивно понятен, прост в реализации и имеет реализации на большом количестве языков (хотя не на PHP, в основном потому, что очень немногие используют PHP для науки о данных).

Не говоря уже о том, что он достаточно хорош, чтобы его можно было использовать в исследованиях большим количеством людей. Если не что иное, вы можете получить представление о том, какие именно недостатки есть в этом алгоритме кластеризации, который вы хотите устранить при переходе к другому.

Похожие вопросы