简介
能否利用美国的立法大数据来预测立法走向? 答案是肯定的。在美国的复杂立法过程中,每一项法案的命运都充满不确定性。但是,随着大数据和先进分析技术的迅猛发展,我们现在有可能揭开这些过程背后的神秘面纱。在本文中,我们将探索如何通过分析美国国会的大量立法数据,来预测法案的成败。从获取和处理官方数据到深入分析影响立法结果的关键因素,我们也将一步步展示如何利用数据驱动的方法预测立法走向,揭示政策制定背后的模式和趋势。我们的团队过去的经验已经证明,这些方法可以协助政策制定者、分析师和业界更有效地管理一些风险。本文旨在通过介绍这些方法的原理,激发更多人参与这类研究工作,为这个领域贡献更多力量。
立法的数据来源及处理
获取数据是进行分析和预测的基础。获取美国立法数据相对容易。在美国国会两院的官方网站上可以找到相关链接,此外,GovInfo网站还提供了近十几年的立法批量数据(bulk data)下载,这些数据包括了各种不同类型的xml格式立法文件。文件中的标签(tag)信息丰富,涵盖了法案文本、提案人(sponsor)、共同提案人(co-sponsor)、负责法案的委员会、不同阶段的投票情况、法案进程(stages/acts)和时间等关键信息。数据下载后,可以利用xml文件中的关键信息建立数据库(例如用下图所示结构),进行更深入的分析。法案文本也可以通过语言处理算法进行进一步的分类和标签提取。根据不同的研究目的,研究者可以设计不同的数据库结构和分析算法。本文将介绍一些分析涉及中国的立法的思路。

立法数据分析预测: 立法过程基础概率模型
在美国,新政策的制定需要经过一系列从立法到实施的步骤。这个立法流程通常是固定的:
- 首先,法案由参议院或众议院的议员在其所属的议院(chamber)中提出(introduction)。
- 接着,根据法案的政策领域,它会被推荐给特定的委员会(committee),在那里进行审议和修改(amendment)。
- 经过审议和修改后,法案会提交给全体议会(floor)再次审议和修改。
- 通过议会审议后,法案会转交给另一院(众议院或参议院),并经历类似的审议过程。
- 如果两院通过的法案版本存在差异,将组建相应的联合委员会来协商解决这些差异,并形成一个共识版本,然后返回两院进行再次投票通过。
- 之后,法案会提交给总统签署。在一定时间内,总统可以选择否决(veto)或签署成为法律(signed into law)。如果签署,该法案将在一段时间后生效。
- 如果法案被总统否决,则返回两院重新审议。但是,如果有67%的议员选择否决总统的否决权(veto veto),那么该法案将在一定时间后自动生效。否则,两院需要将修改后的版本再次提交给总统。
- 如果在国会休会前这一最后流程未完成,法案则无法成为法律。如果因为总统故意耽误签署流程而过期,则称为“口袋否决”(Pocket Veto)。
如下图所示,上述每个流程步骤都有其通过的时间和概率。分析和预测立法过程的关键在于对这种概率过程进行量化建模。

大多数法案会因为无法完成上述流程而过期,只有2.4%的法案能够成为立法。其中最容易被卡住的法案步骤是委员会审议,大约只有13%的提案能够被委员会正式审议,而被审议的1/3会被委员会搁置。最终的结果是只有9%的提案能够走出委员会。另一个重要的阻碍在另一院,因为即使一院通过,另一院仍有70%左右的概率搁置该立法。
上述仅仅是非常粗略的分析。实际上,法案从提案到完成立法可能经历近百种阶段(stages),更精确的实际预测方案需要统计不同阶段之间的互相转移概率和时间,利用贝叶斯概率和马尔可夫链来处理和预测。下图是我们团队对众议员立法状态转移的一般性统计,这是我们精确分析和预测立法进程的基础,也可以理解为一种贝叶斯先验概率。

实际情况中,进入下一步立法阶段的概率受到许多因素的影响,是一种基于条件的后验概率。例如,如果法案的提案人(Sponsor)自己是委员会的主席,那么法案顺利通过委员会的概率就会大大提高。因此,下一步完善模型的重点在于理解各种不同条件对不同立法进程的影响,并基于此计算多重条件同时出现时的后验概率问题。
立法数据分析预测: 影响因子
影响状态转移的因子众多,本文不会介绍所有可能对立法产生影响的因素,但我们将通过两个示例展示不同因素对立法概率的影响原理。在这里,我们主要探讨如何衡量这些因素,以便读者可以自行构建适合他们的建模方法。
| 因子 | 影响方式 |
| 党派席位 | 议院多数党的提案更容易通过,席位优势越大概率越高。 |
| 提案议员资历和党派地位 | 提案议员党内资历和地位越高,通过概率越高。 |
| 总统党派 | 总统所在党派议员的提案更容易通过总统签字这一步。 |
| 提案议员委员会任职 | 提案议员在提案相关委员会任职,提案通过委员会概率越高。 |
| 提案议员资金支持 | 提案议员收到政治献金越多,提案立法概率越高。 |
| 提案内容 | 提案内容越正式,越符合两党共识,提案立法概率越高。 |
| …… | …… |
首先,我们将讨论法案主题的热度和两党共识对立法概率的影响,这是一个相对有趣的方面。对于特定领域的立法,国会委员会可能会根据法案主题的热度来决定是否进一步在委员会内部进行讨论。而委员会内部的投票是否能够通过又进一步取决于两党之间的共识,因为通过需要获得大多数委员会成员的支持,包括来自两个党派的支持。热度可以通过特定议题的出现频率来衡量,而两党共识则可以通过投票和党派支持数据的平衡来衡量。下图展示了116-117届国会中涉及涉华议案的不同主题的热度和两党共识情况。图中明亮的部分分别代表了主题的流行度(左侧,颜色越明亮表示越流行)和主题的争议程度(右侧,颜色越明亮表示争议程度较高,缺乏共识)。可以看出,关于限制中国学术人员的法案具有较高的热度(主要受到共和党支持),但缺乏两党之间的共识。而关于限制对华投资的法案既有一定热度又有两党之间的共识。因此,我们可以推断,与限制对华投资相关的法案更有可能通过委员会并最终完成立法。从结果来看,这一推断是完全正确的。

其次,党内和议会内的社会关系也是一个重要的因素。举例来说,如果提案人在国会内有较高的社会地位,那么他们的法案通过的可能性也较高。另一方面,如果在特定议题上两党合作程度较高,那么相关法案通过的概率也会较高。通过分析议员的投票数据和共同支持(cosponsor)数据,我们可以推测议员之间的合作关系,并进一步创建议员合作的邻接矩阵(adjacency matrix),用于构建社交网络图和进行计算。下面的两张图展示了第116届和第117届众议院涉华提案的合作情况。其中最明显的变化是第117届众议院相对于第116届,涉华提案两党合作的减少。这是因为一些关键议员由于退休或其他原因离开国会,导致第117届国会的社交网络出现了“结构洞”(structural hole),即两党之间的联系仅由一两个议员维持。这些变化也在数据中有所反映,涉华提案两党共同支持的比例从第116届国会的44%下降到第117届国会的30%。这也导致了整体涉华提案通过比例的下降。另一个值得注意的推论是,处于社交网络关键位置的议员所提出或支持的议案在所在议会中有更高的通过概率。这个推论也得到了数据的支持。例如,在第117届的结构洞地位中的众议员Brian Fitzpatrick,他提出的涉华议案在众议院通过的概率高达24%,远远高于一般情况下的8.5%。而在众议院中更重要但无法获得两党共识的Brian Babin众议员在同一届的涉华议案通过众议院的概率只有9.8%。


分析立法大数据的作用不仅仅局限于单个立法的预测,我们还可以利用一些数据分析技术来帮助我们理解美国政策的全貌和趋势。例如,我们可以使用包括所有涉及涉华立法和政策的数据进行主题网络分析,以更好地理解美国对华政策的整体情况。下图是我们利用2020年至2021年的数据进行的主题网络分析示例,它显示了美国未来对华政策的核心关注点在于台海、印太地区和中俄合作,而经济政策的核心则集中在技术和设备制裁领域。这一分析结果与我们后来观察到的情况非常吻合。

(本文相关研究已在arXiv发表)
陶鑫
Leave a comment