现在 后 一 概率分布科学买法要怎么玩

数据科学不管它到底是什么,其影响力已不可忽视“数据科学家比任何软件工程师都更擅长统计学。”你可能在本地的技术聚会或者黑客松上无意中听到一个专家这麼说应用数学家大仇得报,毕竟从咆哮的二十年代起人们就不怎么谈论统计学了以前聊天的时候,像你这样的工程师会因为分析师從来没听说过Apache Bikeshed(口水仗)这个分布式评论格式编排项目而发出啧啧声。现在你却突然发现人们在聊置信区间的时候不带上你了。为了融叺聊天为了重新成为聚会的灵魂人物,你需要恶补下统计学不用学到正确理解的程度,只需学到让人们(基于基本的观测)觉得你可能理解了的程度


正如数据结构是计算机科学的基础,概率分布分布是统计学的基础如果你计划像一个数据科学家一样聊天,那么概率汾布分布就是你学习的起点有时候,不怎么理解概率分布分布的情况下使用R或scikit-learn就可以完成一些简单的分析,就像不理解哈希函数也可鉯编写Java程序一样然而,很快你就会碰到bug和虚假的结果并为此痛哭流涕,或者更糟:收获统计学专业人士的叹息和白眼

概率分布分布囿数百种,有些听起来像是中世纪传说中的怪兽比如Muth和Lomax。不过实践中经常出现的概率分布分布只有15种。这15种概率分布分布是什么关於它们你需要记忆哪些明智的洞见?请看下文

每时每刻都有各种事件正在发生:骰子掷出、雨滴落下、巴士到站。事件发生之后特定嘚结果便确定了:掷出3点加4点,今日的降雨量是半英寸巴士3分钟到站。在事件发生之前我们只能讨论结果的可能性。概率分布分布描述我们对每种结果出现概率分布的想法有些时候,我们更关心概率分布分布而不是最可能出现的单个结果。概率分布分布有各种形状但大小只有一种:概率分布分布的概率分布之和恒等于1.

例如,抛掷一枚匀质硬币有两种结果:正面、反面(假定硬币落地时不可能以邊缘立起,或者被空中的海鸥偷走)在扔硬币之前,我们相信有二分之一的几率扔到正面或者说,0.5的概率分布扔到反面的概率分布哃理。这是扔硬币的两种结果的概率分布分布实际上,如果你充分理解了上面的话那么你已经掌握了伯努利分布。

除了奇异的名字之外常见分布之间的关系直观而有趣,所以不管是记忆它们还是以权威的语气评论它们,都很容易例如,不少分布都能很自然地从伯努利分布导出是时候揭开概率分布分布的相互关系地图了。


上图中的每种分布都包含相应的概率分布质量函数或概率分布密度函数本攵只涉及结果为单个数字的分布,所以横轴均为可能的数值结果的集合纵轴描述了结果概率分布。有些分布是离散的例如,结果为0到5の间的整数其概率分布质量函数图形为稀疏的直线,每根线表示一种结果线高表示该结果的概率分布。有些分布是连续的例如,结果为-1.32到0.005之间的任意实数其概率分布密度函数为曲线,曲线下的面积表示概率分布概率分布质量函数的线高之和,概率分布密度函数的曲线下面积总是等于1.

把上面这张图打印出来放到钱包或坤包中。它能指引你厘清概率分布分布和它们之间的联系

你已经通过上面扔硬幣的例子接触过伯努利分布了。扔硬币有两个离散的结果——正面或反面不过,你可以把结果看成0(反面)或1(正面)这两种结果发苼的可能性都一样,如下图所示


伯努利分布可以表示可能性不同的结果,例如抛掷一枚不均匀的硬币那么,扔到正面的概率分布就不昰0.5而是不等于0.5的概率分布p,扔到反面的概率分布则是1-p. 和很多分布一样伯努利分布实际上是由参数定义的一系列分布(伯努利分布由p定義)。你可以将“伯努利”想象为“扔(可能不均匀的)硬币”


有多个结果,所有结果发生概率分布相等的分布则是均匀分布。想象拋掷一枚匀质骰子结果为1点到6点,出现每种点数的可能性相同均匀分布可以由任意数目n的结果定义,甚至可以是连续分布


看到均匀汾布,就联想“投掷一枚均质骰子”

二项分布可以看成遵循伯努利分布的事件的结果之和。抛掷一枚均质硬币扔20次,有多少次扔出正媔这一计数的结果遵循二项分布。它的参数是试验数n和“成功”(这里的“成功”指正面或1)的概率分布p。每次抛掷硬币得到的是一個遵循伯努利分布的结果也就是一次伯努利试验。累计类似抛掷硬币(每次抛掷硬币的结果相互独立成功的概率分布保持不变)的事件的成功次数时,想想二项分布


或者,你可以想像一个瓮其中放着数量相等的白球和黑球。闭上你的眼睛从瓮里抽一个球,并记录咜是不是黑球接着把这个球放回。重复这一过程你有多少次抽到黑球?这一计数同样遵循二项分布

想象这种奇怪的场景是有意义的,因为这让我们容易解释超几何分布在上面的场景中,如果我们不放回抽取的球那么结果计数就遵循超几何分布。毫无疑问超几何汾布是二项分布的表兄弟,但两者并不一样因为移除球后成功的概率分布改变了。如果球的总数相对抽取数很大那么这两个分布是类姒的,因为随着每次抽取成功的几率改变很小。

当人们谈论从瓮中抽取球而没有提到放回时插上一句“是的,超几何分布”几乎总是咹全的因为我在现实生活中从来没碰到任何人真用球装满一个瓮,接着从中抽球然后放回。(我甚至不知道谁拥有一个瓮)更宽泛嘚例子,是从种群中抽取显著的子集作为样本

累计每分钟呼叫热线的客户数?这听起来像是二项分布如果你把每一秒看成一次伯努利試验的话。然而电力公司知道,停电的时候同一秒可能有数百客户呼叫。将它看成60000次毫秒级试验仍然不能解决这个问题——分割的试驗数越多发生1次呼叫的概率分布就越低,更别说2次或更多呼叫了但是这个概率分布再低,技术上说始终不是伯努利试验。然而如果n趋向于无限,p趋向于0相当于在无穷多个无穷小的时间切片上,呼叫概率分布无穷小我们就得到了二项分布的极限,泊松分布

类似②项分布,泊松分布是计数的分布——某事件发生的计数泊松分布的参数不是概率分布p和试验次数n,而是平均发生率λ(相当于np)试圖累计连续事件发生率,统计一段时间内某事件的发生数时千万别忘了考虑泊松分布。


到达路由的包、到访商店的客户、在某种队列中等待的事物遇到类似这样的事情,想想“泊松”

从伯努利试验又可以引出另一种分布。在第一次出现正面向上之前扔出了多少次背媔向上的硬币?这一计数遵循几何分布类似伯努利分布,几何分布由参数p(成功概率分布)决定几何分布的参数不包括试验数n,因为結果本身是失败的试验数


如果说伯努利分布是“成功了多少次”,那么几何分布就是“在成功前失败了多少次”

负二项分布是几何分咘的简单推广。它是成功r次前失败的次数因此,负二项分布有一个额外的参数r。有时候负二项式分布指r次失败前成功的次数。我的囚生导师告诉我成功和失败取决于你的定义,所以这两种定义是等价的(前提是概率分布p与定义保持一致)

聊天时,如果你想活跃气氛那么可以说,显然二项分布和超几何分布是一对,但是几何分布和负二项分布也很类似接着提问:“我想说,谁起名字起得这么亂”

回到客户支持电话的例子:距下一个客户呼叫还有多久?这一等待时间的分布听起来像几何分布因为直到终于有客户呼叫的那一秒为止,无人呼叫的每一秒可以看成失败失败数可以视为无人呼叫的秒数,这几乎是下一次呼叫的等待时间但还不够接近。这次的问題在于这样计算出的等待时间总是以整秒为单位,没有计入客户最终呼叫的那一秒中的等待时间

和之前一样,对几何分布取极限趋姠无穷小的时间切片,可以奏效我们得到了指数分布。指数分布精确地描述了下一呼叫前的时间分布它是一个连续分布,因为结果不┅定是整秒类似泊松分布,指数分布由参数发生率λ决定。


和二项分布与几何分布之间的关系相呼应泊松分布是“给定时间内事件发苼了多少次”,指数分布则是“直到事件发生过了多少时间”给定一个某段时间内发生次数遵循泊松分布的事件,那么事件间隔时间遵循参数λ相同的指数分布。正是基于这两种分布之间的这一对应关系在谈论两者之一时提下另一种是很安全的。

涉及“到某事件发生前的時间”(也许是“无故障工作时间”)应该考虑指数分布。实际上无故障工作时间是如此重要,我们有一种更一般的分布对其加以描述威布尔分布。指数分布适用于发生率(例如损毁或故障概率分布)恒定的情况,威布尔分布则可以建模随着时间而增加(或减少)嘚发生率指数分布不过是威布尔分布的一个特例。

当聊天转向无故障工作时间时考虑“威布尔”。

正态分布、对数正态分布、t分布、鉲方分布

正态分布又称高斯分布,也许是最重要的概率分布分布它的钟形曲线极具辨识度。像自然对数e一样神奇的正态分布随处可見。从同一分布大量取样——任何分布——然后相加样本的和遵循(近似的)正态分布。取样数越大样本之和就约接近正态分布。(警告:必须是非病态分布必须是独立分布,仅仅趋向正态分布)无论原分布是何种分布,这一点均成立真是令人惊奇。

这称为中心極限定理你必须知道这个名词和它的含义,不然立遭哄笑


从这个意义上说,正态分布和所有分布相关不过,正态分布和累加尤为相關伯努利实验的和遵循二项分布,随着试验数的增加二项分布变得越来越接近正态分布。它的表兄弟超几何分布也是一样泊松分布——二项分布的极端形式——也随着发生率参数的增加而逼近正态分布。

如果对结果取对数所得遵循正态分布,那么我们就说结果遵循對数正态分布换句话说,正态分布值的对数遵循对数正态分布如果和遵循正态分布,那么相应的乘积遵循对数正态分布


学生t-分布是t檢验的基础,许多非统计学家在其他学科中接触过t检验它用于推断正态分布的均值,随着其参数的增加而更加接近正态分布学生t-分布嘚主要特点是,尾部比正态分布更厚(见下图所示红线为学生t-分布,蓝线为标准正态分布)


如果厚尾的说法不能引起邻居的惊叹,那鈳以讲讲比较有趣的和啤酒有关的背景故事一百年前,Guinness使用统计学酿制更好的烈性黑啤酒在Guinness,William Sealy Gosset研究出了一种新的统计学理论以种出更恏的大麦Gosset说服老板其他酿酒商无法搞明白如何利用这些想法,取得了发表成果的许可不过是以笔名“学生”发表。Gosset最出名的成果就是學生t-分布某种程度上而言是以他的名字命名的。

最后卡方分布是正态分布值的平方和的分布。它是卡方检验的基础卡方检验基于观測值和理论值的差(假定差遵循正态分布)的平方和。


如果都谈到卡方分布之类了那么谈话应该算是比较严肃的。你可能在和真正的统計学家聊天到了这个份上,你也许该致歉表示自己知道的不多,因为伽玛分布之类的名词会出现了伽玛分布是指数分布和卡方分布嘚推广。伽玛分布通常用作等待时间的复杂模型这一点上更像指数分布。例如伽玛分布可以用来建模接下来第n个事件发生前的时间。茬机器学习中伽玛分布是一些分布的“共轭先验”。


别在共轭先验的对话中插话不过如果你真的插话了,准备好谈论贝塔分布因为咜是上面提到过的大多数分布的共轭先验。就数据科学家而言贝塔分布的用途主要在此。不经意地提到这一点然后朝门口移动。


概率汾布分布的知识浩如烟海真正对概率分布分布感兴趣的可以从下面这张所有单元分布的地图开始。


希望本文能给你一点信心让自己看起来知识渊博,并且能融入今日的技术文化或者,至少能为你提供一种方法能够以很高的概率分布判断什么时候你应该找一个不那么書呆的鸡尾酒会。

本文来自云栖社区合作伙伴“”了解相关信息可以关注“”。

我要回帖

更多关于 概率 的文章

 

随机推荐