大数据分析中出现的统计学错误包括什么?

发布网友发布时间：2022-04-20 14:32

共1个回答

热心网友时间：2023-08-02 19:30

1、变量之间关系可以分为两类
函数关系：反映了事物之间某种确定性关系。
相关关系：两个变量之间存在某种依存关系，但二者并不是一一对应的;反映了事务间不完全确定关系;
2、为什么要对相关系数进行显著性检验?
实际上完全没有关系的变量，在利用样本数据进行计算时也可能得到一个较大的相关系数值(尤其是时间序列数值)。当样本数较少，相关系数就很大。当样本量从100减少到40后，相关系数大概率会上升，但上升到多少，这个就不能保证了;取决于你的剔除数据原则，还有这组数据真的可能不存在相关性;改变两列数据的顺序，不会对相关系数，和散点图(拟合的函数曲线)造成影响;对两列数据进行归一化处理，标准化处理，不会影响相关系数;我们计算的相关系数是线性相关系数，只能反映两者是否具备线性关系。相关系数高是线性模型拟合程度高的前提;此外相关系数反映两个变量之间的相关性，多个变量之间的相关性可以通过复相关系数来衡量。
3、增加变量个数，R2会增大;P值，F值只要满足条件即可，不必追求其值过小。
4、多重共线性与统计假设检验傻傻分不清?
多重共线性与统计假设没有直接关联，但是对于解释多元回归的结果非常重要。相关系数反应两个变量之间的相关性;回归系数是假设其他变量不变，自变量变化一个单位，对因变量的影响，而存在多重共线性(变量之间相关系数很大)，就会导致解释困难;比如y~x1+x2;x·1与x2存在多重共线性，当x1变化一个单位，x2不变，对y的影响;而x1与x2高度相关，就会解释没有意义。
一元回归不存在多重共线性的问题;而多元线性回归要摒弃多重共线性的影响;所以要先对所有的变量进行相关系数分析，初步判定是否满足前提---多重共线性。

全部栏目

大数据分析中出现的统计学错误包括什么?