Какой метод кластеризации текстов лучше использовать при большом количестве тематик? Интересны алгоритмы которые могут показать вероятностную оценку принадлежности к нескольким кластерам
"Label": "Science & Mathematics",
"Probability": 0.148,
"Label": "Astronomy & Space",
"Probability": 0.713
Есть у кого нибудь подобный опыт ?

21 Авг 2019 в 06:08
181 +1
0
Ответы
1

При большом количестве тематик лучше использовать вероятностные методы, такие как вероятностное латентное размещение дирихле (LDA), вероятностное моделирование тематик (PTM) или вероятностное латентное размещение распределения (PLDA).

Эти методы позволяют оценить вероятность принадлежности текста к нескольким кластерам или тематикам. Например, после обучения модели LDA вы можете получить вероятности принадлежности текста к каждой из тем, что поможет вам определить смешанные темы в тексте.

Если у вас есть опыт работы с подобными методами, будет полезно рассмотреть использование вероятностных моделей для кластеризации текстов с большим количеством тематик.

20 Апр 2024 в 13:23
Не можешь разобраться в этой теме?
Обратись за помощью к экспертам
Гарантированные бесплатные доработки в течение 1 года
Быстрое выполнение от 2 часов
Проверка работы на плагиат
Поможем написать учебную работу
Прямой эфир