关于相关系数的两三件小事

回到原点

Let me think… 我们什么时候学过相关系数（Correlation）一个词语。对了，就是验证模型好坏的R方里面的R。在R语言里调用也很简单：

cor(x, y)

但是，该如何理解相关系数呢？是否相关系数可以验证OLS模型的好坏呢？这是本篇博文所要探讨的事。

其实相关系数不止一种

我们称之前描述的相关系数为Pearson相关系数。我们看到了Pearson相关系数的种种局限，因此，为了避免相关系数无法解释非线性关系这个问题，其他种的相关系数也被发明出来。在此介绍两种常见的替代方案：Kendall Tau相关系数和Spearman相关系数。这两种系数的特点是，其实都是基于顺序的相关系数。

Kendall Tau相关系数

Kendall Tau相关系数的原理相当简单，假设就是：

i) 如果x和y有同增的关系，则对于任何\((x_i, y_i), (x_j, y_i)\)，如果\(x_i < x_j\)，则\(y_i < y_j\) ii) 相反，如果x和y有同减的关系，则如果\(x_i < x_j\)，则\(y_i > y_j\)

因此我们可以检查所有点对（Point Pairs，即两个二维点），计算二维数据里面符合条件i)的点对（一致点对，concordant point pairs）对数目和ii)的点对(不一致点对，discordant point pairs)数目，如果这两个值的差值来描述关系。显然如果两种情况的点数目大致相当，说明两个维度关系相当“混乱”。

此外，我们要讲这个值归一化，简单地，除以点对的总数目即可，显然点对个数为，

\[{n \choose 2} = \frac{(n-1)n}{2}\]

因此，最后计算的kendall tau相关系数为：

\[\tau = \frac{\#concordant - \#discordant}{n(n - 1)/2}\]

当然，我们基于这个假设，可以很容易看出，

kendall tau相关系数的使用场景比较多，因为kendall tau不依赖于线性假说。
kendall tau相关系数描述的两组数的单调性特征，任何一种单调的关系都可以采用kendall tau来实现。

Spearman相关系数

Spearman相关系数与Pearson相关系数很类似，只是最后计算的是两个变量转化为序数（Rank）的操作。可以参考下面的转换：

我们用rg(x)表示x的序数变换，d为序数之差，因此：

\[cor_{spearman}(x, y) = \frac{cov(rg(x), rg(y))}{\sigma^2_{rg(x)}\sigma^2_{rg(y)}} = 1 - \frac{6d_i^2}{n(n^2 - 1)}\]

Spearman相关系数的优点是显然的：

当数据具有非线性相关时，Spearman相关系数敏感度比Pearson要好
当没有outliers时，Spearman和Pearson结果类似
当有outliers时，Spearman比较稳健

关于相关系数的两三件小事

回到原点

相关系数的定义

解释一：相关系数是两组数据距离中心点的度量

解释二：去量纲的协方差

解释三：最小二乘法回归的模型误差来理解

相关系数的局限

其实相关系数不止一种

Kendall Tau相关系数

Spearman相关系数

相关系数、相似度、距离

特征工程的相关系数

相关系数 = 相似度

相似度即距离的反面

KMeans聚类

社交网络分析