生活的道路一旦选定,就要勇敢地走到底,决不回头。

发掘积累过程的快感

首页 » BIBLE模型 » 算法 » 余弦相似性

余弦相似性


余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0 度角的余弦值是 1,而其他任何角度的余弦值都不大于 1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为 1;两个向量夹角为 90° 时,余弦相似度的值为 0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为 0 到 1 之间。

注意这上下界对任何维度的向量空间中都适用,而且余弦相似性最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个文档由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。

另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,会用到它来度量集群内部的凝聚力。

定义

两个向量间的余弦值可以通过使用欧几里得点积公式求出:{\mathbf {a}}\cdot {\mathbf {b}}=\left\|{\mathbf {a}}\right\|\left\|{\mathbf {b}}\right\|\cos \theta

给定两个属性向量, AB ,其余弦相似性 θ 由点积和向量长度给出,如下所示:

{\text{similarity}}=\cos(\theta )={A\cdot B \over \|A\|\|B\|}={\frac {\sum \limits _{{i=1}}^{{n}}{A_{i}\times B_{i}}}{{\sqrt {\sum \limits _{{i=1}}^{{n}}{(A_{i})^{2}}}}\times {\sqrt {\sum \limits _{{i=1}}^{{n}}{(B_{i})^{2}}}}}},这里的 A_{i}B_{i} 分别代表向量 AB 的各分量。

给出的相似性范围从-1 到 1。-1 意味着两个向量指向的方向正好截然相反,1 表示它们的指向是完全相同的,0 通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。

对于文本匹配,属性向量 A 和 B 通常是文档中的词频向量。余弦相似性,可以被看作是在比较过程中把文件长度正规化的方法。

在信息检索的情况下,由于一个词的频率(TF-IDF 权)不能为负数,所以这两个文档的余弦相似性范围从 0 到 1。并且,两个词的频率向量之间的角度不能大于 90°。

角相似性

“余弦相似性”一词有时也被用来表示另一个系数,尽管最常见的是像上述定义那样的。透过使用相同计算方式得到的相似性,向量之间的规范化角度可以作为一个范围在[0,1]上的有界相似性函数,从上述定义的相似性计算如下:

1-\left({\frac {\cos ^{{-1}}({\text{similarity}})}{\pi }}\right)

这式子适用于向量系数可以为正或负的情况。

或者,用以下式子计算

1-\left({\frac {2\cdot \cos ^{{-1}}({\text{similarity}})}{\pi }}\right)

这式子适用于向量系数总为正的情况。

虽然“余弦相似性”一词有时会用来表示这个角距离,但实际上很少这样说,因为角度的余弦值只是作为一种计算角度的简便方法而被用到,本身并不是意思的一部分。角相似系数的优点是,当作为一个差异系数(从 1 减去它)时,产生的函数是一个严格距离度量,而对于第一种意义的“余弦相似性”则不然。然而,对于大多数的用途,这不是一个重要的性质。若对于某些情况下,只有一组向量之间的相似性或距离的相对顺序是重要的,那么不管是使用哪个函数,所得出的顺序都是一样的。

与“Tanimoto”系数的混淆

有时,余弦相似性会跟一种特殊形式的、有着类似代数形式的相似系数相混淆:

T(A,B)={A\cdot B \over \|A\|^{2}+\|B\|^{2}-A\cdot B}

事实上,这个代数形式是首先被 Tanimoto 定义,作为在所比较集合由位元向量表示时计算其 Jaccard 系数的方法。虽然这公式也可以扩展到向量,它具有和余弦相似性颇为不同的性质,并且除了形式相似外便没有什么关系。

Ochiai 系数

这个系数在生物学中也叫 Ochiai 系数,或 Ochiai-Barkman 系数:

K={\frac {n(A\cap B)}{{\sqrt {n(A)\times n(B)}}}}

这里AB是集合,n(A)A的元素个数。如果集合由位元向量所代表,那么可看到 Ochiai 系数跟余弦相似性是等同的。

互联网信息太多太杂,各互联网公司不断推送娱乐花边新闻,SNS,微博不断转移我们的注意力。但是,我们的时间和精力却是有限的。这里是互联网浩瀚的海洋中的一座宁静与美丽的小岛,供开发者歇息与静心潜心修炼。 “Bible”是圣经,有权威的书,我们的本意就是为开发者提供真正有用的的资料。 我的电子邮件 1217179982@qq.com,您在开发过程中遇到任何问题,欢迎与我联系。
Copyright © 2024. All rights reserved. 本站由 Helay 纯手工打造. 蜀ICP备15017444号