余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫”余弦相似性”。

举个简单的例子:

A:西米喜欢健身

B:超超不爱健身,喜欢打游戏

step1:分词

A:西米/喜欢/健身

B:超超/不/喜欢/健身,喜欢/打/游戏

step2:列出两个句子的并集

西米/喜欢/健身/超超/不/打/游戏

step3:计算词频向量

A:[1,1,1,0,0,0,0]

B:[0,2,1,1,1,1,1]

step4:计算余弦值


余弦值越大,证明夹角越小,两个向量越相似。

文章相似度例子

TF-IDF与余弦相似性的应用(二):找出相似文章
使用TF-IDF算法、THULAC和余弦相似性算法比较影评的相似程度