You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

13 KiB

35 | 精确推断:变量消除及其拓展

在前面的几讲中我和你分享了概率图模型中的一些代表性模型它们都属于表示representation的范畴将关系通过结点和有向边精确地表示出来。接下来我们将对概率图模型的推断任务加以介绍。

推断inference是利用图结构表示的联合分布来计算某个变量的概率得到关于目标问题的数字化结论。在概率图模型中因子分解与条件独立性这两大法宝可以大量节约概率运算给推断问题带来简洁高效的解法。

概率图中的推断可以分为两类:精确推断和近似推断。精确推断exact inference是精确计算变量的概率分布可以在结构比较简单的模型中实现近似推断approximate inference则是在不影响推理正确性的前提下通过适当降低精度来提高计算效率适用于结点数目多、网络结构复杂的模型。在这一讲中我们先来分析精确推断。

精确推断最基本的方法是变量消除variable elimination这种方法对“与待求解的条件概率无关的变量”进行边际化处理也就是将中间变量约掉从而计算出目标概率。变量消除的基本思想可以通过贝叶斯网络中所举的例子来解释问题对应的贝叶斯网络如下图所示所有的先验概率与条件概率都在图中给出。

贝叶斯网络实例

如果要用变量消除法计算变量hb的分布,就得把除hb之外的所有变量挨个消除。由于变量bp只和另一个变量do相关,所以以它作为突破口是个不错的选择。将所有和变量bp相关的因子相乘,再对变量bp求和,就可以算出一个新因子

 \\psi\_1 (fo, do) = \\sum\\limits\_{bp} p(bp) p(do | fo, bp) 

除了bp之外,另一个根结点是fo。它会同时直接影响lodo,所以在计算因子时需要将这两个变量都考虑进来。fodo的关系已经由上面计算出的新因子所定义,与lo的关系则是纯粹的条件概率,两者结合可以表示为另一个新因子

 \\psi\_2 (do, lo) = \\sum\\limits\_{fo} \\psi\_1 (fo, do) p(fo) p(lo | fo) 

变量lo只出现在新因子\\psi\_2中,消除这个变量的结果就是只和变量do有关的因子\\psi\_3(do) = \\sum\_{lo} \\psi\_2 (do, lo)求和。最后,根据dohb之间的关系可以将变量do消除掉,获得最终的结果

 p(hb) = \\sum\\limits\_{do} \\psi\_3(do) p(hb | do) = \\sum\\limits\_{do} p(hb | do) \\sum\\limits\_{lo} \\sum\\limits\_{fo} p(fo) p(lo | fo) \\sum\\limits\_{bp} p(bp) p(do | fo, bp) 

从上面的过程可以看出变量消除的过程就是不断对中间变量穷举并求和variable summation整个过程通过对因子的操作实现。因子factor的概念在马尔可夫随机场一讲中有过介绍在这里就不重复了。如果在目标变量\\bf X和单个中间变量Y上共同定义出因子函数\\phi ({\\bf X}, Y),那么对Y的穷举求和就可以表示为\\psi ({\\bf X}) = \\sum\_Y \\phi ({\\bf X}, Y)也就是对因子函数的边际化factor marginalization

如果随机变量Y在多个因子\\phi\_1 ({\\bf X}, Y), \\phi\_2 ({\\bf Z}, Y), \\cdots中都出现的话就需要综合考虑这个变量的整体作用也就是将所有包含这个公共变量的不同因子相乘factor multiplication。这样做相当于将单个变量“孤立”出来它产生的所有影响都体现在因子函数的乘积之中对所有因子函数的乘积统一进行边际化就可以彻底消除变量Y的所有影响。

将上面两个步骤结合起来,就可以得到变量消除的完整过程。变量的消除根据变量之间的依赖关系,按照从简单到复杂的顺序完成。

在选定一个待消除的变量后,首先要找到和这个变量有关的所有因子函数,将它们相乘以得到对变量影响方式的完整描述,再对这个变量在不同取值下的联合概率求和,以计算将它消除之后的边缘概率。按照这样的顺序将所有中间变量消除后,就可以计算出想要的边际概率了。

不难看出,这样的的求解方法建立在“因子乘积-变量求和”的步骤上,因而被称为和积变量消除sum-product variable elimination

前面介绍的都是利用变量消除来进行因果推断,也就是解决解释问题。那么这套方法能不能用来由果推因呢?当然可以!还是以上面的贝叶斯网络为例,在前面我曾直接给出结论,在灯亮但狗没叫时,家里有人和没人的概率是一半一半。那么这个概率究竟是怎么计算出来的呢?

这个问题实际上求解的是后验概率p(fo = 0 | lo = 0, hb = 1)。由于两个观察变量lo和hb并不存在子结点它们所定义的因子\\phi (fo, lo)\\phi (do, hb)就只包含和自身相关的条件概率。而贝叶斯网络中的其他3个变量共同构成了汇连结构要将它们和观察变量区分开来不妨用这三者共同定义出另一个因子\\phi (fo, bp, do)。由于两个观察变量具有确定的结果,因此在计算因子的关系时,只需要考虑lo = 0, hb = 1的情形。这样就可以将所有因子以列表形式表示出来。

可以看出上面的因子表格中的左侧3列涵盖了3个未知变量所有可能的取值第4列则给出了对应的因子函数值。在执行变量消除时首先要进行因子相乘也就是计算每一行里所有概率的乘积这相当于求解在这个贝叶斯网络中出现lo=0, hb=1的所有可能性。由于问题问的是查询变量fo的分布,在求和时就需要对中间变量bpdo进行求和,也就是边际化处理。

具体做法是将所有fo = 0所在行的因子乘积求和,得到联合概率p(fo = 0, lo = 0, hb = 1);再将所有fo = 1所在行的因子乘积求和,得到联合概率p(fo = 1, lo = 0, hb = 1)。利用贝叶斯定理进行归一化后就可以求出,后验概率p(fo = 0 | lo = 0, hb = 1) = 0.5006,这和贝叶斯网络一讲中计算出的结果是完全一致的。

在预测问题中,已知的lo=0hb=1被称为证据evidence。基于证据的推断本质上是计算非归一化的联合分布p(fo, lo = 0, hb = 1),利用贝叶斯网络的性质可以证明,这个分布其实是个吉布斯分布,起到归一化作用的常数p(lo = 0, hb = 1)则可以看成是约化因子reduced factor

基于和积的变量消去算法实际是利用了乘法对加法的分配律,将对多个变量的积的求和分解为对部分变量交替进行的求积与求和。如果图模型的规模较小,结点的数目较少,直接利用全概率公式进行求和或求积分,就可以计算出每个结点的边缘概率。但当结点数目增加时,和积变量消去的计算量会以指数形式增长。从运算效率的角度对变量消去加以改进,得到的就是置信传播算法。

置信传播belief propagation也是精确推断的算法它将图模型中每个节点的概率分布传递给相邻的节点以此影响相邻节点的概率分布状态经过一定次数的迭代每个节点的概率分布将收敛到一个平稳分布。这种算法适用于包括贝叶斯网络和马尔可夫随机场在内的所有概率图模型但今天我将以一种新的模型——因子图为例来说明它的原理。

因子图factor graph是一类二分图用来表示对函数的因子分解其中的结点分为变量结点variable node和因子结点factor node两种相关的结点之间则由无向边连接。假定一个因子图表示的是函数g(x\_1, x\_2, x\_3) = f\_1(x\_1)f\_2(x\_1, x\_2)f\_3(x\_1, x\_2)f\_4(x\_2, x\_3),那它的结构就如下图所示。因子图能够更加直观地刻画函数的可分解性,贝叶斯网络和马尔可夫随机场也都可以表示成因子图。

因子图示例(图片来自维基百科)

置信传播算法的核心概念是消息message它是结点之间信息流动的载体。在因子图中从变量v到因子a的消息是来自除a之外所有与v相邻因子的消息乘积,如果v没有除a之外其他的邻接因子,其消息就被设置为均匀分布。

反过来,从因子a到变量v的消息就复杂一些,它先要对除来自v外,进入a的所有变量消息相乘,再对乘积边际化掉所有除v之外和a邻接的所有变量,这在本质上和变量消除的和积算法是一致的。每个变量的置信度就是根据这样的准则在图结构中往返流动,不断更新。

如果经过多轮迭代后,图模型的因子收敛到稳态,这时就可以计算单个结点的边际概率。每个结点的边际概率都正比于和它相邻的所有因子传递给它的消息的乘积,归一化处理后就可以得到真正的概率。一个因子所包含的所有变量的联合边际分布则正比于因子函数本身和来自这些变量的消息的乘积,和单个结点一样,这个值也需要归一化处理。

置信传播算法在理论上并不保证对所有图结构都能收敛,但当图模型具有树结构时,计算出的概率分布一定会收敛到真实值,从而实现精确推断。无环图天然地具有树的特性,可即使原始的图中存在有向或者无向的环路结构,也可以通过让变量聚集成不同的团来生成类似树的结构,这种结构就是团树。

团树clique tree也叫联结树junction tree是一种通过变量连接的结构。其特点是如果一个变量出现在树结构的两个团中,那它就一定会出现在连接这两个团的路径上的所有团中

这样看来,每个相连的团都像是古时候的驿站,它们的公共变量则是信使。在传递消息时,首先要在团树中选出一个根结点,从这个根结点出发构造出一棵树。根节点通常是包含待查询的目标变量的团,以此作为消息传递的枢纽,生成的树则是传递消息的道路网。

马尔可夫随机场及其团树示例(图片来自维基百科)

消息的传递需要经过两个步骤第一个步骤是收集collection指的是所有叶结点向根结点传递消息直到根结点收到所有邻接结点的消息这是消息汇总的过程第二个步骤是分发distribution指的是根结点向叶结点传递消息直到所有叶结点均收到消息这是消息更新的过程。这样的一来一回之后团树的每条边上都有不同方向的两条消息基于这些消息就能计算出所有变量的边际概率。

和变量消除相比,置信传播的优势在于提升了计算效率。变量消去算法的缺点在于一次变量消去只能求出本次查询变量的条件分布,不同的查询将带来大量的重复计算。在团树中流动的每个消息都相当于对一组关联因子的封装,查询不同变量时只需调用相关的封装就可以了,从而避免了复杂的重复运算。

在pgmpy中团树被定义为models模块中的JunctionTree。利用BayesianModel类中的to_junction_tree函数可以将现有的贝叶斯网络转换成团树转换出的团树就可以使用inference模块中的BeliefPropagation类来求解。用团树和置信传播求解上面的例子可以得到与对贝叶斯网络进行变量消除一致的结果。

贝叶斯网络的团划分

今天我和你分享了对概率图模型的精确推断,包含以下四个要点:

  • 推断是利用图结构表示的概率分布计算查询变量的概率,可以分为精确推断和近似推断;

  • 变量消除通过对非查询变量的边际化处理实现精确推断,具体步骤包括因子乘积和变量求和;

  • 置信传播通过消息传递实现精确推断,具有较高的计算效率;

  • 将图模型改造成团树结构可以保证置信传播算法的收敛性。

在变量消除中,选取消除变量的顺序是个重要的问题,顺序选得好可以很大程度上简化运算。在文中的例子里,确定消除顺序的原则是最小邻居,也就是选择依赖变量最少的变量。那么除此之外,还有哪些确定消除顺序的原则呢?

你可以查阅相关资料,并在这里留下你的看法。