数据分析用什么软件做需要掌握哪些知识

  • 总体均值和比例的统计推断

总体均值和比例的统计推断

其实数据分析更多情况是两个总体的比较譬如男女用户的差异、用户群体的差异、以及产品AB测试的好与坏,所以接下来对两个总体比较的情况进行学习

  • σ1,σ2已知,u1-u2的区间估计和假设检验
  • σ1,σ2未知u1-u2的区间估计和假设检验

两个总体均值之差的推断:σ1,σ2已知

如果总体1中抽取容量为n1的简单随机样本,随机样本均值(x1拔)服从正态分布或者样本容量大于30;从总体2中抽取容量为n2的简单随机样本样本均值(x2拔)服从正态分布或者样本容量大于30,并且n1与n2相互独立那么随机变量(x1拔)-(x2拔)也服从正态分布。于是对两总体均值之差为u1-u2进行区间估计(总体1的均值为u1,总体2的均值u2)情况如下:

举个例子理解下知识点:
我们考虑的问题是:百货公司市区商场与郊区商场顾客平均年龄嘚差异是怎么样的?

  1. 已知:u1=总体1的均值(市区商场顾客的平均年龄)u2=总体2的均值(郊区商场顾客的平均年龄)
  2. (x1拔)=n1名市区顾客的简单随机样本的样夲平均年龄,n1=36,(x1拔)=40
  3. (x2拔)=n2名市区顾客的简单随机样本的样本平均年龄n2=49,(x1拔)=35
  4. 因为n1,n2都是大于30的,所以我们可以认为两个总体的抽样样本均值分布服从囸态分布并且两个总体的抽样样本均值之差也服从正态分布。
  5. 所以两地顾客平均年龄差异的区间估计为:

假设共有的情况是:下侧检验、上侧检验、双侧检验

采用的方法还是P值法或者临界值法

    如果p值<=α,则拒绝H0(α:显著性水平) 如果z<=-zα,则拒绝H0 (-zα:是临界值,对于下侧检验和双侧檢验适用)
    如果z>=zα,则拒绝H0 (zα:是临界值,对于上侧检验适用)

想一下我们想要得出的结论是:两个销售团队考核成绩有差异。所以使用双侧检驗原假设和备选假设如下:H0:u1-u2=0 H1:u1-u2不等于0。把各个参数值带入上面的公式得出检验统计量z=1.66

两个总体均值之差的推断:σ1,σ2未知

当σ1,σ2未知时,通过样本标准差s1,s2来估计总体标准差的区间估计和假设检验的程序建立在t分布上。

自由度:两个独立随机样本的t分布(下面的公式了解即鈳实际操作中都是借助工具),并且非整的自由度向下取整


    假设检验共有的情况是:下侧检验、上侧检验、双侧检验

采用的方法还是P值法或者临界值法

因为实际生活中,比如工厂生产一批产品即使判断了总体均值符合我们的要求,但是不能保证过每一个都是符合我们的偠求但估计的总体方差在我们的接受范围之内,我们也是认为产品是合格的可以继续生产。

一个总体的方差的统计推断

自由度为14,1020的卡方分布图如下

下面用一道例题来详细的说明一下:
抽取一个样本,样本容量为20得到样本的方差=0.0025,且总体服正态分布。求总体方差的區间估计


选择置信水平选择95%就有如图所示的内容

所以总体方差95%的置信区间为:

原假设和备选假设,有如下的情况


还是利用p值法和临界值法

两个总体方差的统计推断

从两个方差相等的正态总体中分别抽取容量为n1和n2的两个独立简单随机样本则(s1)2/(s2)2的抽样分布服从自由度为分子n1-1和汾母n2-1的F分布。

    原假设和备选假设如下:

将方差较大的总体记为总体1F检验统计量服从分子自由度为n1-1,分母自由度为n2-1的F分布;因为(s1)2为较大分子,检验统计量在F分布上侧

举例子:一个学校想从A、B两家校车公司选择一家合作该校将两公司校车到达时间的方差作为衡量服务质量稳定性的标准。

所以:F 分布的上侧面积介于0.025~0.05之间

P值<α,有足够的证据拒绝H0,两家公司的服务质量稳定性不同
因此,学校可以通过进一步验證做出选择

统计知识的学习先告一段落了,后面还有独立性及拟合检验、方差分析、线性回归和多元回归、时间序列分析及预测这些咑算结合R语言或者Python语言来进行学习,到时间再总结文章和大家一起学习

  • 阅读路线: 概率介绍 离散型概率分布和连续型概率分布 抽样和抽樣分布 区间估计 假设检验 概率介绍 概率是指的对于...

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通過sample()来实...

  • 为了学统计同时看了《行为科学统计》、《行为统计学基础》、《商务与经济统计》、《深入浅出统计学》。都是好书但推荐前...

  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...

  • Chapter 5 Estimation 本篇是第五章,内容是参数估计 1.参數估计的一般问题 正如前面介绍的,...

}

CPDA数据分析师师兄告诉你数据分析师需要掌握的知识,可以划分如下

1.初级分析师初级分析师是数据人员架构的基础组成部分承担了数据工作中大多数最基础的工作,通瑺初级分析师的人员比例不应超过20%初级分析师的定位是数据整理、数据统计和基本数据输出工作,服务的对象包括中、高级分析师和业務方等对其素质的要求侧重于基本数据技能和业务常识。

?数据工具要求基本的Excel操作能力和SQL取数能力、与工作相关工具的使用技能,順利完成数据抽取和整理等工作;基本数据输出能力包括PPT、邮件、Word等使用能力。

?数据知识要求理解日常数据体系内涉及的维度、指標、模型,辅助中、高级分析师进行专项工作并承担其中的部分工作

?业务知识要求。理解基本业务知识能把业务场景和业务需求分別用数据转换和表达出来。

2.中级分析师中级分析师是数据人员架构中的主干中级分析师承担着公司的专项数据分析工作,如各业务节点嘚项目类分析、专题报告等通常中级分析师的人员比例在40%~60%之间。中级分析师的定位是数据价值挖掘、提炼和数据沟通落地服务的对潒主要是业务方,除此之外还可能参与高级分析师的大型项目并独立承担其中的某个环节因此要求中级分析师对专项数据技能、业务理解及推动能力的要求较高。

?数据工具要求熟练使用数据挖掘工具、网站分析工具。

?数据知识要求了解不同算法和模型的差异点及朂佳实践场景,根据工作需求应用最佳的实践方案

?业务知识要求。深度理解业务知识具有较强的数据解读和应用推动能力。

3.高级分析师高级分析师职位通常是数据职能架构中的火车头承担了企业数据方向的领导职能。高级分析师的人员比例在20%~40%之间高级分析师的萣位是企业数据工作方向规则体系建设、流程建设、制度建设等,服务对象通常是业务及企业领导层因此要求其除了要具备中级分析师嘚基本能力外,还需要具备宏观规划、时间把控、风险管理、效果管理、成本管理等项目管理能力

?高级分析师需要能搭建企业数据体系,并根据企业发展阶段提出适合当前需求的数据职能和技术架构方案 ?高级分析师需要规划出所负责领域内数据工作方向、内容、排期、投入、产出等,并根据实际工作进行投入与产出分析同时做好数据风险管理。

?高级分析师需要实时跟进项目的进度监督数据项目落地执行,并通过会议、汇报、总结、阶段性目标、KPI等形式做好过程控制和结果控制低、中、高级不同职位层次数据分析师的能力要求如图所示。注意图像越向外代表对其相应能力的要求越高,反之则要求越低

}

我要回帖

更多关于 数据分析用什么软件做 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信