数据分析需要掌握些什么知识?

Glassdoor利用庞大的就业数据和员工反馈信息,统计了美国25个最佳职位排行榜,其中,数据科学家排名第一。这个工作的重要性可见一斑。毫无疑问,数据科学家所做的事情是不断变化和发展的。随着机器学习的普遍应用,数据科学家们将继续在创新和技术进步浪潮中独领风骚。

很多软件工程师想转型数据科学家,他们盲目地使用机器学习框架TensorFlow或Apache Spark,而没有透彻理解背后的统计理论。因此,统计学习从统计学和功能分析的角度出发,提出了机器学习的理论框架。

了解各种技术背后的想法,知道如何以及何时使用它们,这一点非常重要。首先,要从理解简单的方法开始,以便把握更复杂的方法。其次,准确地评估一种方法的性能,了解它的工作效果,也很重要。此外,统计学习是令人兴奋的研究领域,在科学、工业和金融领域有着重要应用。最后,统计学习是培养现代数据科学家的基本要素。

属于统计学习领域的问题包括:

  • 确定前列腺癌的危险因素。
  • 根据对数周期图对录制的音位进行分类。
  • 根据人口统计、饮食和临床测量,预测是否有人会发生心脏病。
  • 自定义垃圾邮件检测系统。
  • 识别手写邮政编码中的数字。
  • 根据组织样本进行癌症分类。
  • 建立人口调查数据中工资与人口变量之间的关系。

在统计学中,线性回归是一种通过拟合自变量与因变量之间最佳线性关系,来预测目标变量的方法。过程是给出一个点集,用函数拟合这个点集,使点集与拟合函数间的误差最小。所谓的“最佳”线性关系是指在给定形状的情况下,没有其他位置会产生更少的误差。

线性回归的两种主要类型是简单线性回归和多元线性回归。简单线性回归使用一个独立变量,通过拟合最佳线性关系来预测因变量。多元线性回归使用多个独立变量,通过拟合最佳线性关系来预测因变量。

举例:任意选择日常生活中相关的东西,比如,过去三年的月支出、月收入和月旅行次数。现在回答以下问题:

  • 我明年的每月支出是多少?
  • 哪个因素(月收入或月旅行次数)在决定我的月支出中更重要?
  • 月收入和月旅行次数如何和月支出有什么关系?

分类是一种数据挖掘技术,它将类别分配给数据集合,帮助更准确地预测和分析。分类有时也称为决策树,它是用来分析大型数据集有效性的方法。两种主要的分类技术是逻辑回归和判别分析。

逻辑回归是当因变量是二元时进行的适当回归分析。像所有回归分析一样,逻辑回归分析是一种预测分析。逻辑回归用于描述数据,并解释二元因变量与一个或多个描述事物特征的自变量之间的关系。逻辑回归可以检验的问题类型包括:

  • 体重超重后,每增加一磅和每天吸一包烟草,患肺癌的可能性(是vs否)会发生怎样的变化?
  • 体重、卡路里摄入量、脂肪摄入量和参与者年龄对心脏病发作是否有影响?

在判别分析中,有两个或两个以上群集是已知的,新的观测值根据特征,归入已知群集。判别分析对类别中X的分布进行建模,然后使用贝叶斯定理转换为对应概率。判别分析包括以下两种类型。

线性判别分析(LDA):计算每一项观测结果的“判别分数”,对其所处的响应变量类别进行分类。这些分数是通过寻找自变量的线性组合得到的。它假设每类中的观测结果来自于一个多变量高斯分布,而预测变量的协方差在响应变量Y的所有k级别都是通用的。

二次判别分析(QDA):提供了一种替代方法。和LDA一样,QDA假设每一类中Y的观测结果都来自于高斯分布。然而,与LDA不同,QDA假设每个类别都有自己的协方差矩阵。换句话说,预测变量在Y中的每个k级别都没有共同的方差。

重采样是指从原始数据样本中提取重复样本的方法。这是一种非参数的统计推断方法。换句话说,重采样不利用通用分布计算近似的p概率值。

重采样在实际数据的基础上生成一个独特的抽样分布。它采用实验方法,而不是分析方法,产生独特的抽样分布。它根据研究人员所研究的数据的所有可能结果的无偏样本,得出无偏估计。为了理解重采样的概念,应先了解Bootstrapping (自举)和交叉验证两个术语。

Bootstrapping(自举)可以帮助你在很多情况下验证预测模型的性能、集成方法,估计模型的偏差和方差。它通过对原始数据进行有放回取样,进行数据采样,并将“ 未选择 ”的数据点作为测试用例。我们可以多做几次,计算出平均分,作为模型性能的估值。

交叉验证是验证模型性能的一种技术,它把训练数据分成k个部分,以k1部分作为训练集,其余部分作为测试集。依次重复,重复k次。最后,将k次分数的平均值作为模型性能的估值。

通常,对于线性模型,普通最小二乘法是拟合数据的主要标准。接下来的3种方法,可以为线性模型的拟合提供更好的预测精度和模型可解释性。

此方法选择一个我们认为能够解决问题的预测因子p中的子集,然后,使用子集特征和最小二乘法,拟合一个模型。

最佳子集选择:我们对每种可能的p预测因子组合进行OLS回归,然后查看最终的模型拟合。

1. 拟合所有包含k个预测因子的模型,其中k是模型的最大长度。

2. 使用交叉验证的预测误差选择单个模型。

由于 RSS 和 R^2 随变量增加而单调递增, 所以使用验证或测试误差, 且不用训练误差来评估模型的拟合情况是很重要的。最好的方法是选择具有最高R^2和最低 RSS 的模型,交叉验证。

向前逐步选择:建一个模型,里面不含预测因子,然后逐个添加,直到所有预测因子都在模型中。添加因子的顺序是可变的, 根据不同变量对模型性能提升程度来确定, 添加变量,直到预测因子不能在交叉验证误差中改进模型。

向后逐步选择:将所有预测因子p纳入模型,迭代删除没有用的预测因子,一次删一个。

混合方法:遵循向前逐步选择的方法,但是在添加新变量之后,还可以去除对模型拟合没有用的变量。

这种方法适用于所有预测因子p的建模,然而相对于最小二乘估计,它估计的系数会趋于零。这种收缩,也就是正则化,有减少方差,防止模型过拟合的作用。根据执行的收缩类型,一些系数可能被估计为零。因此,该方法也执行变量选择。两种最著名的缩小系数的方法是岭回归和套索回归。

岭回归类似最小二乘法,不过它通过最小化一个不同的量来估计系数。像OLS一样,岭回归寻求降低RSS的系数估计,但是当系数接近于零时,它们也会有收缩惩罚。这个惩罚的作用是将系数估计收缩到零。不使用数学计算,我们就可以知道,岭回归会将特征缩小到最小空间。

套索回归则克服了这个缺点,能够迫使一些系数归零,只要s足够小。由于s= 1会产生正规的OLS回归,而当s接近0时,系数收缩为零。因此,套索回归也执行变量选择。

降维算法将p + 1个系数的问题简化为M + 1个系数的简单问题,其中M < p,这是通过计算变量的M个不同的线性组合或投影得到的。然后,这些M投影被用作预测最小二乘法拟合线性回归模型的预测因子。该任务的两种方法是主成分回归和偏最小二乘法。

主成分回归(PCR)是从大量变量中导出低维特征集合的方法。数据的第一主成分方向是观测数据变化最大的方向。换句话说,第一主成分是最接近拟合数据的线,可以适合p个不同的主成分拟合。第二主成分是与第一主成分不相关的变量的线性组合,并且在该约束下有最大方差。

PCR方法需要提取X的线性组合,它最能代表预测因子。这些组合(方向)以无监督方式提取,因为X对应的Y不能确定主成分的方向。也就是说, Y不监督主成分的提取,因此,最能解释预测因子的方向,对于预测输出来说不一定是最好的(即使经常假设)。

偏最小二乘法(PLS)是PCR的一种替代方法。 与PCR一样,PLS是 一种 降 维 方法,它首先识别一组新的较小的特征,这些特征是原始特征的线性组合,然后通过最小二乘法拟合一个线性模型,具备新的M个特征。 然而,与PCR不同的是,PLS利用Y变量来识别新的特征。

在统计学中,非线性回归是回归分析的一种形式,其中观测数据是由一个函数建模的,该函数是模型参数的非线性组合,并取决于一个或多个自变量。数据通过逐次逼近的方法进行拟合。以下是一些处理非线性模型的重要技巧。

阶跃函数的变量是实数,它可以写成区间的指示函数的有限线性组合。非正式地说,一个阶跃函数是一个分段常数函数,它只有有限的几个部分。

分段函数是由多个子函数定义的函数,每个子函数应用于主函数域的某个区间。分段实际上是一种表达函数的方式,不是函数本身的特性,而是附加的限定条件,它可以描述函数的性质。例如,分段多项式函数是,在每个子域上,函数都是多项式函数,并且每个多项式都是不同的。

样条曲线是由多项式定义分段的特殊函数。在计算机图形学中,样条曲线是指一个分段多项式参数曲线。由于其结构简单、评估简单、精度高,以及通过曲线拟合和交互曲线设计近似复杂形状的能力,样条曲线是很受欢迎的曲线。

广义加性模型是一种广义线性模型,其中线性预测因子线性地依赖于某些预测变量的未知平滑函数,它的作用就是推测这些平滑函数。

基于树的方法可以用于回归和分类问题,包括将预测空间划分成多个简单区域。由于用于分割预测空间的分割规则集可以在树中总结,这些类型的方法称为决策树方法。下面的方法是几种不同的树,可以组合输出一个单一的共识预测。

Bagging(套袋)是一种减少预测方差的方法,通过从原始数据集生成额外的数据,重复组合,生成训练数据。通过增加训练集的大小,你不能提高模型的预测力,只是减小方差,将预测精确地调整到预期结果。

Boost(提升)是一种使用几种不同模型计算输出的方法,然后使用加权平均方法计算结果。结合这些方法的优点和缺陷,通过改变加权公式,你可以使用不同的模型,为更大范围的输入数据提供良好的预测力。

随机森林算法非常类似于Bagging(套袋)。在这里,你可以绘制随机的自举样本。然而,除了自举样本之外,你还可以绘制一个随机的子集,训练单独的树。

支持向量机是机器学习中有监督学习模型下的技术。通俗地说,它涉及寻找分离两类点集的超平面(二维空间中是线,三维空间中是面,高维空间中是超平面)。本质上,这是一个约束最优化问题,在约束下间隔最大化,完美地对数据进行分类(硬边界)。

这种“支持”这个超平面的数据点被称为“支持向量”。在上图中,实心蓝色圆和两个实心正方形是支持向量。对于两类数据不是线性可分的情况,这些点被投射到一个爆炸(高维)空间,线性分离成为可能。涉及多个类的问题可以分解为多个一对一,或一对剩余的二分类问题。

到目前为止,我们只讨论了监督学习的技术,在这些技术中,数据类别是已知的,并且提供给算法的经验是实体和它们所属的组之间的关系。当不知道数据类别时,可以使用另一组技术。在算法学习中,它们被称为无监督,要自己在提供的数据中找出模式。聚类是无监督学习的一个例子,在这种学习中,不同的数据集被集中到一组密切相关的项目中。以下是最广泛使用的无监督学习算法。

主成分分析:通过识别一组具有最大方差且互不相关的特征的线性组合,从而产生数据集的低维表示。这种线性降维技术有助于理解无监督环境中变量之间潜在的相互作用。

k-均值聚类:根据数据到集群中心的距离将数据划分成k个不同的集群。

层次聚类:通过创建集群树构建多层次的集群。

这是对一些基本的统计技术的简单总结。这些技术可以帮助数据科学项目经理和主管,更好地了解他们的数据科学团队每天都在做什么。事实上,一些数据科学团队纯粹是通过python和R来运行算法的。他们中的大多数人甚至不需要考虑底层的数学问题。但是,能够理解统计分析的基础,可以让团队有更好的方法,对于细节有更深入的了解,便于操作和进行抽象思维。我希望这个基础数据统计指南,能给你带来不错的理解方式!

}

这几年随着大数据和人工智能的发展,所有行业,尤其是传统行业面临着巨大的变革。按照目前社会精英阶层的判断,第四次工业革命能即将到来,这就意味着大量从业人员将面临巨大的下岗风险。事实上,这种现象已经初见端倪。
数据分析师这一职业就是在这一大背景下才逐渐发展火起来的,但真正将之视为专门的岗位来对待的,实际上不过6年左右的时间。因此,称之为蓝海,目前来看还是可信的。
从这6年的发展过程来看,数据分析师行业存在两个明显的特点,首先是发展缓慢,其次是行业规模尚未形成,因此尚属于小众行业。这与数据分析师的准入门槛过高是有直接关系的,**并不是什么人都适数据分析这一岗位,也并不是什么人都能够成为数据分析师。**其中最基本的一条:需要学统计分析的理论,就能把绝大部分人拒之门外。

总的来收,想要入门数据分析师,你要理解数据分析师是干什么的,数据分析师和程序员的区别是什么,以及需要学习的框架是怎么样的,然后再根据自身条件判断是否适合学习数据分析。

就纯数据分析师的角度来看,其主要职责基本上是通过数据挖掘为企事业单位的决策提供支持,因此数据分析师的服务对象有可能是企业中的各个业务部门,也有可能直接面向领导。单单从这一角度来看看,数据分析师就必须要与程序员的性质区分开来。
当然现在还有一个新的趋势,即“数据分析+岗位”的正在逐渐增多。比如前几年比较热门的产品经理岗位,由于准入门槛过低,最终导致行业人才良莠不齐的现象非常严重。近几年随着大数据的迅猛发展,逐渐出现了“数字化产品经理”的Plus版人才,相比于传统人才,数字化产品经理能够基于数据分析结论指导产品研发,提升了研发效率、研发可靠性、并降低了研发成本,因此无论从能力上,还是技术上都更具竞争力,其工资水平也达到了行业平均的2倍以上。
**从性质上来看数据分析师有点像古代的“军师”。**军师分两种:一种是郭嘉类型的,善于帮领导做决断;另一种是荀彧型的,善于帮领导做谋划。这两种类型其实也适用于区分数据分析师的类型:一种是业务支持型的,通过业务数据的挖掘为企业精细化运营做研判;另一种是预测规划型的,通过模型算法的预测,为企业资源的提前配置提供决策支持。

数据分析师的类型划分,目前比较全面且符合企业用人需求的划分方法是**业务数据分析师、算法工程师、大数据分析和人工智能工程师四类,**虽然在此基础上还有数据科学家这一层级的存在,但前四类基本能够囊括目前95%以上的岗位。
上述提到的每个类型都是后续类型的基础,人工智能和数据科学家就不说了,毕竟基本上大企业才有这个需求,也才可能出现数据科学家这样的存在,对于大部分人而言前3个类型是可以考虑的学习的方向。

**业务类数据分析师:**主要负责现状数据的挖掘和分析,举个简单的例子方便理解,比如某公司上个季度的销量下降,下降的主要原因是什么,这就是业务数据分析师必须要回答的问题。

**算法工程师:**除了业务数据分析师的工作内容外,算法工程师需要掌握机器学习算法,对模式和发展趋势进行挖掘,举个简单的例子,某个产品有完整的历史销售记录,决策层想要知道下个季度的销售量能够达到什么样的水平,这就是算法工程师必须能回答的。

**大数据分析师:**大数据分析师的本质依然是算法工程师,却别是大数据分析师掌握了一套专门用于处理海量数据的工具。

数据分析能否自学?答案是肯定的,但自学成才的比例相当低,即使大学本科专业学4年数据分析,或者研究生学3年学数据分析,出来的往往也只是入门级别的,这一点相应很多学生或用人单位深有感触。

很多人问我,为什么学了2年数据分析还是一头雾水?这里面有一个难点和一个陷阱需要注意。首先说下陷阱,要理解这个陷阱依然需要深刻理解程序员和数据分析师的真正区别,很多人在入门时最容易犯的错误就是把数据分析==工具分析,如果按照这个思路起步,那么你最终会沦落为程序员,而不是数据分析师。么怎样能规避这个陷阱呢?这就要说到自学过程中的一个难点,这个难点就是如何有效地将数据分析思维和业务分析思维地结合到工具的学习过程中来,只有这样才能避免工具化的学习陷阱。想想简单,但真正要实现这一点非常困难,所谓隔行如隔山,对于不同人而言,这里面不知道隔了多少座山。

这里我从工具、理论、思维和表达四个层面进行总结。

  1. - 数据分析师需要掌握的工具:

数据分析师对于工具的学习要到什么样的深度?这个问题一直困扰着很多想要转行数据分析的人士。关于这个问题,其实我在前面已经有所指代,数据分析师不应当过于工具化,工具化的思维方式不利于数据分析师的发展,所以工具的学习深度以满足业务问题的解决为目标即可。

就业务数据分析师而言,Excel、PowerBI、MySql、Spss等是必须掌握的工具。
就算法工程师而言,除了上述工具外还需要掌握Python、TensorFlow等机器学习工具。
就大数据分析师而言,除了上述工具外还需要掌握Hadoop、Spark等海量数据处理工具。

2. 数据分析师需要掌握的理论基础:

**统计分析理论:**对于数据分析师而言是必不可少的。统计分析理论讲的是如何在不确定性中找到规律和模式。事实上很多企业会做市场调查,对调查数据的解读,往往就需要用到统计分析的方法。此外,对于模型有效性的解读、对数分析过程中阈值设定的有效性等,都与统计分析密切相关。也正是由于存在各种不确定性,才有数据分析师存在的价值。
**模型算法理论:**模型算法是个非常深的领域,不仅仅是大众理解的数学公式那么简单,其中涵盖了数据清洗、探索性分析、特征工程、降维、模型参数标定、模型评价等理论知识,也是数据分析师走向“神坛”必须越过的一道砍。


**可视化理论:**可视化并不是简单做几张图表完事了,之所以可以成为一门理论,是因为其中有一些基本的原理可以遵循,包括视觉理论、配色理论等等。

  1. 数据分析师需要具备的思维能力:

数据分析师这个职业具有交叉学科的特点,既要有工具能力,又要有很强的思维能力。这里的思维能力可以从两个层面进行理解,我称之为道和术。还是举例说明,对于同一个数据不同数据分析师的解读往往并不一致,比如这次疫情温州市确诊420例,有些人说很高,有些人说不高,说高的人全部是浙江人,说不高的全部是湖北的,都没错,但是站的角度不一样,结论就不一样。因此道的层面,数据分析的很多原则是需要把握好的,这里面有尺度的原则、有不带偏见的原则等等。当然原则仅仅是一方面,其中还包括基本的价值观和社会观等等。术的层面,说的是业务思维能力,对于业务方面的问题,并不存在最优的数据分析方法,只存在适合的方法,这点也是在学习过程需要不断体会并加之理解的。

  1. 数据分析师需要具备的表达能力:

**与其他部门或领导沟通:**切忌以数说数,数字本身并没有实际意义。如果数据分析师把这次疫情的死亡病例仅仅看作是数字进行解读和分析就毫无意义。数据分析师需要解读的还有这些数据背后的家庭和故事,这些才是真正能够赋予数字生命力的元素。与其他部门和领导沟通的过程中也是一样,务必以容易理解的佐证来切中数据分析结论的要点。

**报告的撰写:**对于实际工作而言,数据分析师需要具备撰写报告的能力和制作ppt进行汇报的能力,两者有非常大的区别。报告详细详细,表述务必客观;ppt需要突出重点,并解读数字背后的主要意义,呈现的时候可以生动活泼。

哪些人适合学习数据分析:

数据分析师对于性别的歧视远远低于程序员,因此算是比较公平的行业。但是对于入门还是有一定的要求的,首先专科以下学历的群体基本不需要考虑了,其次专科学历最好是相关专业出身,最后当然是兴趣了,数据分析的工作经验告我,这个世上并不存在所谓的绝对道理。

欢迎加入QQ群学习交流:

}

  转行数据分析师后悔了?转行需要做哪些准备?工作转行意味着人生规划方向发生了变化,可能工作转行与自己擅长的领域跨度很大,要做好充足的心理准备在未来一年或几年时间内可能都不会有什么起色,处在过渡期。


  一、转行数据分析师先了解数据分析行业


  在学习数据分析的知识方面需要了解各个数据岗位,数据分析行业中岗位大致分为四个方向:数据分析、数据挖掘、数据开发、数据产品,接下来我们详细介绍一下。


  1、数据分析师:从事数据采集、整理、分析,发现问题,分析问题,得出结论,为公司的决策层提供数据支持。偏向于业务。


  2、数据挖掘工程师/:利用模型训练数据,从海量数据中挖掘规律,预测或分类对象,主要偏向编程和算法,对统计理论知识要求偏高。


  3、数据开发工程师:设计、搭建并维护基础设施,以提供数据收集、存储、处理、计算等平台。偏代码开发,需要在代码能力上弥补,但与纯技术栈的程序员相比需要一定的业务逻辑。


  4、数据:主要负责以数据为导向提炼需求、设计、规划、项目排期至项目落地,以及后期的产品改进和优化等。


  二、转行数据分析师需要掌握的数据分析基础知识


  数据分析作为一门交叉学科,需要掌握多方面的知识。


  1、数学与统计基础:数据分析是指运用统计方法和分析工具对大量数据进行分析,挖掘出其潜在规律及价值,为经营决策提供科学严谨的理性依据。其中当然离不开数学与统计学的知识,需要有微积分、线性代数、概率论与数理统计等相关的知识储备才行。


  2、分析工具:掌握基础的数据分析工具Excel与统计分析工具SPSS的用法。


  3、SQL数据库语言:数据的存储便离不开使用数据库,需掌握SQL数据库语言在关系型数据库系统中进行增删改查等操作才行。


  4、编程语言:数据分析的进阶需要会使用一门或多门编程语言,如Python和R,会使数据分析变得更加高效。


  5、机器学习算法入门:需要学习常用的分类、回归、聚类和降维等的常用算法以及它们的优缺点和使用场景。


  转行数据分析师后悔了主要因为自己前期没有做好转行的准备,没了解数据分析行业前景未具备数据分析师应该具备的基本技能所有导致转型失败。转行数据分析师有风向,入行需做好充分的准备。

}

我要回帖

更多关于 数据分析的基础知识 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信