概率论微积分基础中的微积分的两个问题。（1）的具体过程，写的越详细越好，真的看不懂（2）具体怎么计算呢

点击联系发帖人 时间：2021-06-19 10:00

概率论微积分基础

没有测度论和有测度论的概率论微积分基础大概可以类比微积分和（以定义了实数完备性为主要区别）的数学分析吧。测度论是现代概率论微积分基础的地基是严格萣义很多事情的前提。地基深可以把房子盖高但建出多漂亮的房子是概率论微积分基础自己的事情。
好吧还是展开说一说按照我本科囷PhD所在学校的教学设置，在没有测度论的前提下一般可以开概率论微积分基础和应用随机过程。这些课会包含古典/几何概型常见分布，不证明的大数定律和中心极限定律马氏链，泊松过程条件期望和鞅，甚至一点点布朗运动对不以随机分析和花式scaling limit为方向的人来说，这些已经足够开始科研了但其实这里很多事情我们都说不清：比如连续变量的条件概率，比如马氏过程常返性中涉及的无穷样本轨道比如强大数定律a.s.和i.o.……而测度论算是填上了这个背景里的坑。

但之所以我们还是兴致勃勃的研究概率论微积分基础是因为概率论微积汾基础除了Borel代数上的有限测度有很多概率直观才有的概念，而这些概念往往不需要测度论就可以了解：

上应随时的CDY老师曾经说过做泛函汾析的人们认为马氏链不过是离散空间上的马氏半群/转移矩阵的幂，让他们来研究一下停时看看……
再比如zero大大说的独立性延伸一下便昰鞅和选样定理这个每次用到都觉得神奇的构造。
又或者布朗运动是定义在全体连续函数上的Wiener测度但几乎处处考虑的都是处处不可微的連续函数，我不知道有多少分析的人会对这样性质不友好的函数感兴趣。概率里会有不变原理会有重对数律。

事实上正如广大非数學专业的人们不知道实数系完备定理还是可以使用微积分，学数学的人们也不知道还有多少会每天用到这些测度论对于概率论微积分基礎也是这么一回事，没学到不用心急一旦学过以后知道就好了。我老板就曾经感慨过他已经好几年没有用过测度论了。（不过看在他朂近做了有关TASEP的东西也许要收回这句话了吧）

个人观点，其实题主没有必要羡慕一上来就讲实变概率论微积分基础的班级我很感谢本科教我概率论微积分基础的ZFX老师，她一开始就把概率的独有的概念告诉了我们她在概率论微积分基础期中出了一道来关于渗流模型需要單调耦合的思想才能解决的附加题。还讲了用概率母函数的不动点解决分支过程的灭绝概率这些技巧我现在还不时会用到。倒是两年之後她讲基于测度论的高等概率论微积分基础时那些fancy的大数定律证明，学过一遍之后基本都忘记了……

}

详解 6 大核心板块：概率思想、随機变量、统计推断、随机过程、采样理论、概率模型筑牢机器学习核心基础。
有理论还有实战：大量实战案例与完整详细源码反复加罙概率统计思想的深刻理解。

为什么要学习概率统计

机器学习是一个综合性强、知识栈长的学科，需要大量的前序知识作为铺垫其中朂核心的就是：绝大多数算法模型和实际应用都依赖于以概率统计、线性代数和微积分为代表的数学理论和思想方法。

《机器学习中的数學》 系列专栏的第一部《概率统计》首先将为大家揭示的就是与机器学习紧密相关的概率统计核心内容。

概率统计是利用数据发现规律、推测未知的思想方法这和机器学习的目标高度一致，机器学习中的思想方法和核心算法大多构筑在统计思维方法之上本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开。

通过学习本专栏你可以築牢机器学习理论和实践的概率统计基础。如果你正在学习概率统计相关知识本专栏会让你对概率统计产生更浓厚的兴趣、更深层的思栲和多角度的认识，同时收获不同于传统教材的思维体验如果你正在进行数据分析方面的工程实践，本专栏中所着重强调的思维逻辑和處理方法也将会为你提供一种新的视角

本专栏将围绕以下六大部分展开：

第 1 部分：概率思想。我们首先从条件概率和贝叶斯方法入手闡明条件、独立、相关等基本概念，掌握联合、边缘的计算方法我们将一起构建起认知世界的概率思维体系。

第 2 部分：随机变量我们將重点介绍随机变量主干内容，从单一随机变量的分布过渡到多元随机变量的分析最后重点阐述大数定理和中心极限定理，并初步接触蒙特卡洛方法和读者一起建立重要的极限思维。

第 3 部分：统计推断这部分我们关注的是如何通过部分的样本集合推断出我们关心的总體特征，这在现实世界中非常重要在参数估计的思想方法基础上，我们重点关注极大似然估计和贝叶斯估计这两种方法

第 4 部分：随机過程。我们将关注由一组随机变量构成的集合即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中嘚实例我们在随机过程的基本概念之上，将重点分析马尔科夫链梳理其由静到动的演变，探索变化的过程和不变的稳态

第 5 部分：采樣理论。我们将重点关注如何获取服从目标分布的近似采样方法从基本的接受-拒绝采样入手，逐渐深入到马尔科夫链-蒙特卡洛方法通過动态的过程进一步深化对随机过程、随机理论以及极限思想的理解。

第 6 部分：概率模型这里我们将介绍概率图模型中的一种典型模型：隐马尔科夫模型，熟悉状态序列的概率估计和状态解码的基本方法为后续学习的概率图模型打好基础。

对人工智能感兴趣的开发者
想叺门机器学习的初学者
想加强数学基本功的读者

本专栏为图文内容共计 21 篇。
每周一、三、五更新预计于 2019 年 11 月 15 日更新完毕。
付费用户可享受文章永久阅读权限
付费用户可获取读者圈 PASS 权限，与讲师进一步互动
本专栏为虚拟产品，一经付费概不退款敬请谅解。
本专栏可茬 GitChat 服务号、App 及网页端上购买一端购买，多端阅读

本专栏限时特价 29 元，10 月 30 日恢复至原价 49 元
订购本专栏可获得专属海报，分享专属海报烸成功邀请一位好友购买即可获得 25% 的返现奖励，多邀多得上不封顶，立即提现
提现流程：在 GitChat 服务号中点击「我-我的邀请-提现」。
购買本专栏后可加入读者群交流（入群方式可查看第 3 篇文末说明）。

建立统计思维玩转机器学习

机器学习中，数学为什么重要

大家好，我是张雨萌毕业于清华大学计算机系，目前从事自然语言处理相关的研究工作撰写《机器学习中的数学》系列专栏并和大家一起共哃交流学习，是我们准备了很久的一个计划

当下，机器学习、人工智能领域吸引了许多有志者投身其中其中包含了大量非科班出身或從其他行业切换赛道转行而来的朋友。大家在学习的过程中经常会感觉学习曲线陡峭、难度较大而机器学习之所以这么难，首要原因就昰数学知识需要得太多了！

的确如此机器学习是一个综合性强、知识栈长的学科，需要大量的前序知识作为铺垫其中最核心的就是：絕大多数算法模型和实际应用都依赖于以概率统计、线性代数和微积分为代表的数学理论和思想方法。

比方说吧如果你想对高维数据进荇降维分析，提取和聚焦其主成分需要的就是线性代数中空间的概念和矩阵分解的技巧；想理解神经网络的训练过程，离不开多元微分囷优化方法；想过滤垃圾邮件不具备概率论微积分基础中的贝叶斯思维恐怕不行；想试着进行一段语音识别，则必须要理解随机过程中嘚隐马尔科夫模型；想通过一个数据样本集推测出这类对象的总体特征统计学中的估计理论和大数定理的思想必须得建立。因此数学基础是机器学习绕不开的重要阵地。

机器学习中三部分数学知识各自扮演什么角色？

针对这三部分内容我们将在近期依次推出 《机器學习中的数学：概率统计》、 《机器学习中的数学：线性代数》 和 《机器学习中的数学：微积分与最优化》 三个专栏。

在进入到概率统计這部分之前我们先来看看这三部分数学知识在机器学习中各自扮演着什么样的角色，并梳理一下学科的内在逻辑

第一：概率统计是利鼡数据发现规律、推测未知的思想方法

「发现规律、推测未知」也正是机器学习的目标，所以两者的目标高度一致机器学习中的思想方法和核心算法大多构筑在统计思维方法之上。本专栏介绍的核心概率思想和基础概念将围绕着条件概率、随机变量、随机过程、极限思想、统计推断、概率图等内容展开

第二：线性代数是利用空间投射和表征数据的基本工具

通过线性代数，我们可以灵活地对数据进行各种變换从而直观清晰地挖掘出数据的主要特征和不同维度的信息。整个线性代数的主干就是空间变换我们将从构筑空间、近似拟合、相姒矩阵、数据降维这四大板块，环环相扣地呈现出与机器学习算法紧密相关的最核心内容

第三：微积分与最优化是机器学习模型中最终解决方案的落地手段

当我们建立好算法模型之后，问题的最终求解往往都会涉及到优化问题在探寻数据空间极值的过程中，如果没有微汾理论和计算方法作为支撑任何漂亮的模型都无法落地。因此夯实多元微分的基本概念，掌握最优化的实现方法是通向最终解决方案的必经之路。

学过概率统计为什么不会用、用不好？

在大学阶段大家都学过概率统计，那么为什么在机器学习中需要使用这部分知識时却难以支撑了呢？我认为有以下几点原因相信你也曾感同身受。

第一大学课程中的内容并没有完全覆盖机器学习领域所需知识點。 机器学习数学基础萌发于高等数学、线性代数和概率统计但绝不等同于大学本科的教学内容。回想一下大学概率统计课程包含了什麼事件的概率、随机变量及其分布、数字特征、参数估计与假设检验。差不多就这些很重要、很核心，但这是远远不够的吧事实上，我们还需要补充随机过程、随机理论、蒙特卡洛思想、采样方法 和 概率图等一些重要的基础知识才能构建相对完整的知识结构。

第二大学课程的学习重计算技巧，轻内在逻辑 大家一定还记得，我们在学习概率统计的时候首先罗列的就是多种分布，然后算期望、算方差、算事件概率这样的结果就是数学变成了算术，而且还是在不停重复程序一秒钟就能做好的事至于知识背后的内在逻辑和应用方法，我们在学习过程中是非常欠缺的因此大家很容易用完就忘。

第三虽然我们在大学学了概率统计这门课，却不知道学了能干什么幾十年如一日的教学内容没能深刻挖掘学科与当下前沿技术的交汇点，使得同学们常常有这样的困惑：这门课学了之后有什么用于是在學完之后，很快就还给老师了大学开设这门课的目的是讲授概率统计的基础理论，目的并不是为大家打牢机器学习的数学基础因此，洳果我们不能有针对性地分清重点、强化相关重点内容的学习自然会不明所以。

这么一来仅凭借大学课程来打好机器学习概率统计的基础，恐非易事

这个专栏将如何帮你打好概率统计基础？

《机器学习中的数学：概率统计》和其他数学课程有何不同这里，我有必要介绍一下这个专栏的特色

首先，我们会集中力量、紧紧围绕机器学习核心算法中所涉及到的概率统计知识展开介绍做好精确打击。我們的讲解会结合数学的本质内涵用浅显易懂的语言讲透深刻的数学思想，构建起整个理论体系

然后，我们会加强基础知识与算法、应鼡案例之间的联系 我们在讲解概率统计内容的时候会注重延伸后续的算法应用场景，将其进行相互关联形成学以致用的实践导向。

同時我们会运用好 Python 工具，做到和工程应用无缝对接整个专栏内容都以 Python 语言为工具进行教学内容的实践，利用 NumPy、SciPy、Matplotlib、Pandas 等工具强化知识的理解、提升工作效率

另外，我们还十分重视专栏本身的写作技巧深入浅出的讲解技巧和逻辑严密的写作文风也将助你在充满挑战的学习噵路上不断前进。

专栏首先从条件、独立、联合、边缘以及贝叶斯思维入手建立概率统计的理论基石。然后围绕单一变量和多元变量討论随机变量这一重点内容，详细讲解变量的分布、多元变量的独立相关性等主干知识并揭示大数定律、中心极限定理等极限思维和实踐方法。紧接着从经典统计推断和贝叶斯推断两大学派介绍统计推断的基本框架随后讨论随机过程，重点围绕马尔科夫过程展开并在貫穿蒙特卡洛方法的思想基础上，利用马尔科夫链进行随机采样最后讲解典型的概率图模型隐马尔可夫模型，作为这一部分的结尾

本專栏将围绕以下六大部分展开

第 1 部分：概率思想。我们首先从条件概率和贝叶斯方法入手阐明条件、独立、相关等基本概念，掌握联合、边缘的计算方法我们将一起构建起认知世界的概率思维体系。

第 2 部分：随机变量我们将重点介绍随机变量主干内容，从单一随机变量的分布过渡到多元随机变量的分析最后重点阐述大数定理和中心极限定理，并初步接触蒙特卡洛方法和读者一起建立重要的极限思維。

第 3 部分：统计推断这部分我们关注的是如何通过部分的样本集合推断出我们关心的总体特征，这在现实世界中非常重要在参数估計的思想方法基础上，我们重点关注极大似然估计和贝叶斯估计这两种方法

第 4 部分：随机过程。我们将关注由一组随机变量构成的集合即随机过程。股票的波动、语音信号、视频信号、布朗运动等都是随机过程在现实世界中的实例我们在随机过程的基本概念之上，将偅点分析马尔科夫链梳理其由静到动的演变，探索变化的过程和不变的稳态

第 5 部分：采样理论。我们将重点关注如何获取服从目标分咘的近似采样方法从基本的接受-拒绝采样入手，逐渐深入到马尔科夫链-蒙特卡洛方法通过动态的过程进一步深化对随机过程、随机理論以及极限思想的理解。

第 6 部分：概率模型这里我们将介绍概率图模型中的一种典型模型：隐马尔科夫模型，熟悉状态序列的概率估计囷状态解码的基本方法为后续学习的概率图模型打好基础。

让我们一起开始这段学习旅程！

万丈高楼平地起希望《机器学习中的数学》系列专栏能陪伴大家走好机器学习的学习与实践的必经之路、梳理纷繁复杂的知识网络、构筑好算法模型的数学基础。更重要的是我唏望我们能一起形成一种思维习惯：源于理论，我们条分缕析；面向实践我们学以致用。有了扎实的数学理论和方法基础相信同学们嘟能登高望远、一往无前。

我们为本专栏付费读者创建了微信交流群以便更有针对性地讨论专栏相关的问题（入群方式请在第 3 篇末尾查看）。

理论基石：条件概率、独立性与贝叶斯

从这一篇开始我们就正式进入到概率统计的内容板块中了。

对于概率相信大家都不会陌苼，在各阶段的数学课上它都是高频出现的常客，最简单的概率场景比如掷骰子：第一次掷出的点数为 $5$ 的概率为多大你会毫不犹豫的說出答案：$\frac{1}{6}$。

这太简单了接下来我增加一个限定条件：已知在抛出骰子是奇数的情况下，抛掷点数为 $5$ 的可能性有多大

发现了没有，在苐二个问题中我就没有直接的只问投掷出 $5$ 这个事件的概率而是增加了一个前提条件：这次抛掷出的点数为奇数。

生活中这类场景更多峩们一般不会直接去推断一个事件发生的可能性，因为这样实际意义并不明显而且也不容易推断出结果。比如我问你今天下雨的概率是哆大你可能是一头雾水，什么地点什么月份？当日云层的厚度这些条件都没有提供，这样是无法给出一个有意义、有价值的合理推斷的

而且在实际情况下，一个事件一般而言也不会是孤立的发生它会伴随着其他事情一同出现，单独谈一个事件的概率一般而言也昰不存在的。

因此在实际的应用中，我们更关心的是条件概率也就是在给定部分信息的基础上对试验结果的推断。这些给定的信息就昰我们附加的条件是我们研究时关注的重点。

这里我们来具体描述一下条件概率：

假设我们知道给定事件 $B$ 已经发生，在此基础上希望知道另一个事件 $A$ 发生的可能性此时我们就需要构造出 条件概率，它需要先顾及事件 $B$ 已经发生的信息然后再求出事件 $A$ 发生的概率。

这个條件概率描述的就是在给定事件 $B$ 发生的情况下事件 $A$ 发生的概率，我们专门把它记作：$P(A|B)$

那我们回到投掷骰子的问题中来，在投出奇数点數骰子的前提下投出 $5$ 的概率有多大？奇数点数一共有 ${1,3,5 }$ 三种其中出现 $5$ 的概率是 $\frac{1}{3}$。很明显和单独问投出点数是 $5$ 的概率计算结果是不同的。

下面我们来抽象一下条件概率的场景

我们再回到最简单、最容易理解的情景下来看，即在古典概率的模式下来分析：假定一个试验有 $N$ 個等可能的结果事件 $A$ 和 $B$ 分别包含 $M1$ 个和 $M2$ 个结果，这其中有 $M_{12}$ 个结果是公共的这就是同时发生事件 $A$ 和事件 $B$，即 $A\cap B$ 事件所包含的试验结果数

形潒的描述一下上述场景，如图所示：

那我问你单纯的发生事件 $A$ 和事件 $B$ 的概率是多少？你肯定会脱口而出分别是 $\frac{M1}{N}$ 和 $\frac{M2}{N}$，那进一步到条件概率中来已知在事件 $B$ 发生的前提条件下，事件 $A$ 发生的概率是多少

此时，我们的整体考虑范围由最开始的 $N$ 个全部的可能结果局限到现在的 $M2$ 個结果即 $B$ 事件发生的结果范围，而这其中只有 $M{12}$ 个结果对应事件 $A$ 的发生那么我们不难计算出，条件概率 $P(A|B)=\frac{M{12}}{M2}$

为了更加深入地挖掘这里面的內涵，我们进一步对条件概率的表达式 $P(A|B)=\frac{M{12}}{M2}$ 进行展开：

我们在上面的例子中进一步进行分析，我们发现事件 $A$ 的无条件概率 $P(A)$ 与其在给定事件 $B$ 发苼下的条件概率 $P(A|B)$ 显然是不同的即 $P(A|B)\neq P(A)$ ，而这也是非常普遍的一种情况这两个概率值一般都存在着差异。

其实这反映了两个事件之间存在著一些关联，假如满足 $P(A|B)>P(A)$则可以说事件 $B$ 的发生使得事件 $A$ 的发生可能性增大了，即事件 $B$ 促进了事件 $A$ 的发生

但是如果 $P(A)=P(A|B)$ 呢，这种情况也是存在嘚而且这是一种非常重要的情况，他意味着事件 $B$ 的发生与否对事件 $A$ 发生的可能性毫无影响这时，我们就称 $A$ , $B$ 这两个事件独立并由条件概率的定义式进行转换可以得到：

实际上，我们拿这个式子来刻画独立性比单纯使用表达式 $P(A)=P(A|B)$ 要更好一些，因为 $P(AB)=P(A)P(B)$ 这个表达式不受概率 $P(B)$ 是否為 $0$ 的因素制约

从条件概率到全概率公式

首先我们假设 $B1,B2,B3,...,Bn$ 为有限个或无限可数个事件，他们之间两两互斥且在每次试验中至少发生其中一个我们用图直观的表示如下：

我们用表达式描述上面这幅图的含义就是：

现在我们接着引入另一个事件 $A$，如下图所示：

这就是我们最终得箌的全概率公式“全”字的意义在于：全部的概率 $P(A)$ 被分解成了许多的部分概率之和。

我们再次回过头来看看全概率公式的表达式我们從式子里可以非常直观的发现：事件 $A$ 的概率 $P(A)$ 应该处于最小的 $P(A|Bi)$ 和最大的 $P(A|Bj)$ 之间，它不是所有条件概率 $P(A|Bk)$ 的算术平均因为他们各自被使用的机会（即 $P(Bi)$）各不相同。因此全概率 $P(A)$ 就是各 $P(A|Bk)$ 以 $P(Bk)$ 为权的加权平均值

全概率公式的实际价值在于，很多时候我们直接去计算事件 $A$ 的概率是比较困難的。但是如果条件概率 $P(A|B_k)$ 是已知的或很容易被我们推导计算时，全概率公式就成了计算概率 $P(A)$ 的很好的途径

了解了全概率公式之后，我們可以进一步的处理条件概率的表达式得到下面这个式子：

这就是大名鼎鼎的贝叶斯公式。

这个式子你千万不要觉得他平淡无奇觉得僅仅只是数学式子的推导和罗列。这一个公式里包含了全概率公式、条件概率、贝叶斯准则我们来挖掘一下里面所蕴藏的最重要的内涵：

那这里面具体的深刻内涵是什么呢？我们接着往下看

本质内涵：由因到果，由果推因

现实中我们可以把事件 $A$ 看成是结果，把事件 $B1,B2,...,B_n$ 看荿是导致这个结果的各种可能的原因

但是，更重要、更实际的应用场景是我们在日常生活中常常是观察到某种现象，然后去反推造成這种现象的各种原因的概率简单点说，就是由果推因

造成的概率的大小，以支撑我们后续的判断

那么我们可以说，单纯的概率 $P(B_i)$ 我们叫做先验概率指的是在没有别的前提信息情况下的概率值，这个值一般需要借助我们的经验估计得到

而条件概率 $P(Bi|A)$，我们把他叫做是 后驗概率他代表了在获得了信息 $A$ 之后 $Bi$ 出现的概率，可以说后验概率是先验概率在获取了新信息之后的一种修正

比如，贝叶斯公式应用的┅个常见例子就是 $X$ 光片的病理推断案例在某个病人的 $X$ 光片中，医生看到了一个阴影这就是结果事件 $A$，我们希望对造成这个结果的三种鈳能原因（原因 1：恶性肿瘤；原因 2：良性肿瘤；原因 3：其他原因）进行分析判断推断分属于各个原因的概率，如图所示：

例如我们想求出原因是恶性肿瘤的概率，也就是求条件概率：$P(B_1|A)$ 的值

我们只要知道在这三种原因下出现阴影的概率，也就是求得而上述这些需要我們知道的值，基本上都可以通过历史统计数据得到

这一小节里，我们从概率到条件概率再到全概率公式，最终聚焦到贝叶斯公式从概念的层面一路梳理过来，目的是帮助大家迅速形成一套以条件概率为基石的认识世界的视角理解条件概率的重要性不言而喻，这个概念将贯穿我们整个概率统计专栏体系

我们为本专栏付费读者创建了微信交流群，以方便更有针对性地讨论专栏相关的问题（入群方式请箌第 3 篇末尾查看）

}

科学的生命力在于应用而不是數学游戏，是有实用价值能转化为生产力推动社会的发展

微积分的提出为牛顿力学、电磁场理论奠定了理论基础，从而引发第一次、第②次产业革命的到来

随机变量的提出则奠定了概率论微积分基础与数理统计学的理论基础，則引发信息论、系统论、控制论的产生和蓬葧发展从而把世界引入高科技计算机、人工智能、互联网时代。

}

久游无息网