AI Rookies

LDA — Latent Dirichlet Allocation,潜在狄利克雷分配

事实

从文档词频中发现潜在主题的概率模型。

人话

LDA像中医闻药渣:不问病历,凭药味估这方子几分清热、几分补气。

用于文章聚类、舆情分析,先给文本打主题底色。

相关概念

Latent Model
LDA 把“主题”当作看不见的潜变量。

PGM
LDA 可表示成文档、主题、词的概率图。

Unsupervised Learning
LDA 不靠人工标签,从文本里自己找主题。

Bag-of-Words
LDA 通常把文档先看成词袋来统计。