Python是一个用来做数据分析的首选语訁具有很多不可思议的数据分析模块。Pandas就是其中一个模块能够使数据导入和分析变得更加简单。
Pandas dataframe.corr()就是用来分析多列数据集之间任意兩列之间数据关联性的函数。在别分析的数据集中na值会被自动的排除。数据集中包含非数字的数据类型的列将会被忽略。
一、corr()函数怎麼用
1.创建dataframe对象df,并且打印出来然后执行df.corr()就完成调用了。是不是超级简单!!!
结果是代表什么呢代表A和B列的数据结构之间是有直接聯系的,或者之间是有联系的
二、不同相关模式有效性的验证
1.创建一个具有两个列的dataframe,第一列为递增数列;第二列为第一列的3次幂函数代码如下:
corr可选的方式有三种:
1)pearson:相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算针对非线性数據便会有误差。
2)kendall:用于反映分类变量excel多组数据相关性分析的指标即针对无序序列的相关系数,非正太分布的数据
3)spearman:非线性的非正呔分析的数据的相关系数
上面的结果验证了,pearson对现行的预测较好对于幂函数,预测差强人意
好的,实验就到这里了这是非常有用的┅个函数,简单实用如果一个数据不清楚有无excel多组数据相关性分析。先对函数来一个corr分析一下