推导

第一种

 分布一般被用于建模伯努利试验事件成功的概率的概率分布. 什么叫做伯努利试验事件成功的概率? 我们来举个例子.

如果有一枚硬币, 分为正反两面 (不一定均匀) , 那么假设你抛了次, 正面有次, 那么抛这枚硬币是正面的概率是多少呢? 当然我们一般会说是, 但这只是最好的估计. 可能是吗? 当然可能, 但是可能性不高. 这里的,就是所谓伯努利试验事件成功的概率. 而其服从的分布就是伯努利试验事件成功的概率的概率分布.

二项分布相信大家高中就都已经接触过了

这是已知参数来估计, 我们同样可以将其等价地写为. 那如果我们知道了, 要如何估计呢? 也就是如何求出(省略了是为了方便写公式, 毕竟两个条件概率都是已知的) .

根据贝叶斯公式, 我们有

其中是常量 (因为我们已知) . 而是多少呢?被称为先验分布, 在我们对某一随机变量一无所知的时候, 一般可以认为它服从均匀分布. 那么, 就有

其中为随机变量的概率密度函数, 概率密度函数需要满足在定义域内积分为. 我们乘上常数, 使其满足这个性质.

, 也就是说

这个即为函数, 这即是函数的由来. 而分布的概率密度函数则为

第二种

假设你和我玩一个游戏, 我说

我有一个魔盒, 上面有一个按钮. 我每按下一次按钮, 就会均匀的产生一个之间的随机数. 现在我连按次, 那么你猜猜, 第大的数字是多少? 误差不超过就算赢.

用数学语言来描述就是

  • 把这个随机变量排序后得到顺序统计量
  • 的分布是什么

对上面的游戏而言,. 如果我们求出了的分布, 那么用概率密度的极值点去猜测是最好的策略.

我们尝试计算落在区间的概率.

区间分为段, 即. 假设在区间中, 我们先考虑一个简单情形:

  • 中只有一个点

不失一般性, 我们先考虑一个符合上述要求的事件.

则有

其中表示的高阶无穷小. 我们来计算一下与事件等价的事件有多少个. 首先, 在中的数一共有种取法, 然后在中的数有种取法, 而一旦给定前面的数所在的区间,区间中的数也就给定. 于是一共有种情况.

  • 中有两个点

那么就有

也就是说, 在中的数字超过个, 那么概率就是.

因此的概率密度函数为

, 上式可写为

下面我们会证明, 也就是说

 即为分布的概率密度函数.

看起来完全不同的两种问题, 居然能推导出完全相同的式子!

Beta 函数与 Gamma 函数的关系

假设向长度为的桌面丢一颗红球, 设红球与桌面最左边的距离为, 那么随意再丢一颗白球, 在红球左边的概率为. 那么丢次白球, 其中再红球左边的次数为次, 那么随机变量显然服从参数为的二项分布. 即. 那么有

根据贝叶斯公式, 有

由于是均匀分布. 那么求边缘概率有

现在我们换一种方式丢球, 等价的求出. 先把个球全部丢出, 然后任选一个球为红球, 那么此时任意一个球被选到的概率都是因此其左边球的数量为的概率也都为(每颗球的左边球数量都不同, 而且数量范围在) . 因此我们有

, 根据函数的定义, 有


Beta-Binomial 共轭

还记得上面的游戏吗? 为了降低难度, 我又说:

我再次按下次按钮, 然后得到之间的随机数, 然后我会告诉你这个数与之前第大的数字相比, 谁大谁小, 然后你继续猜第大的数字是多少.

假设这个数有个大于第大的数字,个小于.

实际上, 这个 “降低难度” 的游戏其实是同一个游戏, 把它重新表达一下, 其实和下面这个游戏是等价的:

我有一个魔盒, 上面有一个按钮. 我每按下一次按钮, 就会均匀的产生一个之间的随机数. 现在我连按次, 那么你猜猜, 第大的数字是多少? 误差不超过就算赢.

也就是说, 本来的分布是. 给定另外的数据(二项分布,是小于第大数字的个数,是大于), 那么的分布就会变成.

推广至一般情况, 即

  • , 排序后对应的顺序统计量为,
  • , 且有个比大,个比小,
  • , 求的分布

贝叶斯参数估计的基本过程是

上面第一点其实就是先验分布即, 第二点就是数据的知识,第三点就是后验分布即.

合起来就是

同样我们可以写为

这就是所谓共轭 .

Dirichlet 分布

 分布其实就是多维的分布. 继续上面的游戏, 我可以说:

我再按次按钮, 那么你猜猜, 第大的数字和第大的数字分别是多少?

按照上面的方式, 转换为数学语言即

  • 把这个随机变量排序后得到顺序统计量
  • 的联合分布是什么

同样推导过程, 有

因此的联合分布为

这里其实只有两个变量即, 而, 写成三个变量的形式只是为了对称.

Dirichlet-Multinomial 共轭

同样的推导, 这里就不细说了, 结果就是

其中(同样为了更对称) .

当然, 我们还可以继续提高维度, 得到更高维的分布以及共轭. 一般形式的分布定义如下

多项分布定义为

这两个分布是共轭关系.

Deta, Dirichlet 分布的期望

如果, 则

于是

对于分布的多维形式分布也有类似的结论, 即如果, 那么有

参考资料

网络资料