写作业的时候看到了顺手翻译分享一下。博客

余弦相似度和相关系数以及z-score之间的关系


向量aabb之间的余弦相似度只与他们之间的角度有关:
cosθ=ababcos\theta = \frac{a\cdot b}{\|a\| \|b\|}
应用余弦相似度的时候,很多情况下向量都是非负的(比如文档中词项的频次向量)。在这些时候,余弦相似度也是非负的。

向量xx的“z-score”向量一般地定义如下:

z=xxˉsxz=\frac{x-\bar{x}}{s_x}

其中xˉ=1nixi\bar{x}=\frac{1}{n}\sum_ix_isx2=(xxˉ)2s_x^2=\overline{(x-\bar{x})^2},分别是xx的均值和标准差。也就是说,zxz_xxx标准化之后的结果,是xx的标准化版本。

对于向量xx和向量yy,他们的相关性系数为:
ρx,y=(zxzy)\rho_{x,y}=\overline{(z_xz_y)}

因而,如果一个向量aa的均值为0,那么它的方差为sa2=1na2s_a^2=\frac{1}{n}\lVert{a}\rVert^2。因此,其单位向量和z-score的关系为:
a^=aa=zan\hat{a}=\frac{a}{\lVert{a}\rVert}=\frac{z_a}{\sqrt n}

所以,如果向量aa和向量bb是中心化的(也就是均值为0),那么它们的余弦相似度和它们的相关性系数是一样的。

太长不看:余弦相似度是向量方向上的单位向量的点积。而皮尔森相关系数是向量中心化后之间的余弦相似度。一个向量的"z-score变换"是将中心化的向量缩放到n\sqrt{n}大小。

Is there any relationship among cosine similarity, pearson correlation, and z-score?

@0x0001 呼叫站长——话说其实嵌入公式和块级公式的符号有可能换成$x$和$$x=y$$吗?感觉和其他编辑器的兼容不太好,在本地编辑之后复制上来得手动修改每一个公式orz

    Colin_Downey 这个符号是后台正则替换字符串才保存的,担心版本更新之类的情况下会带来大坑,所以暂时没启用。

    可以另外写个转换的工具还是 OK 的。

    有点不明白,z-score是代表的是单个样本偏离分布中心程度,余弦相似度是两组数据之间的关系,一个是在抽样内部衡量一个是衡量两组数据。

      © 2018-2025 0xFFFF