This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.
这里面的一个隐含的假设就是,**“词-文档矩阵”是一个稀疏矩阵**。什么意思?意思就是从大规模的文字信息来说,文字服从一个叫“**幂定律**”(Power Law Distribution)的规律。那就是绝大多数的单词仅出现很少的次数,而少数的单词会出现在很多文档中。我们也可以理解成一种变形的“20/80”原理,也就是20%的单词出现在80%的文档中。当然,文字的幂定理规则的一个直接结果就是“词-文档矩阵”是稀疏矩阵。这个矩阵里面有大量的零,代表很多单词都没有出现在那些文档中。
值得注意的是,我们这里为了介绍隐语义模型的实际意义而隐藏了一些实际的技术细节。从历史上看,比较流行的隐语义模型其实是基于“**奇异值分解**”(Singular Value Decomposition),也就是我们常常听到的**SVD分解**。由于篇幅有限,我们这里就不针对SVD分解展开讨论了。即便是SVD分解,其核心思想依然是我们刚才讲到的分解出来的主题矩阵。