量化跨语言叙事的相似性

讲座概要:

如何理解思想在文本数据中的传播?这是社会学研究中的一个关键测量问题,涉及多个领域,例如利益集团如何塑造媒体话语、政策如何在制度之间传播、组织结构乃至制度本身如何扩散等。要研究思想和叙事在文本中的扩散,首先必须开发一种方法,用以识别文本之间是否共享相同的信息和叙事,而不仅仅是相似的宏观主题或完全一致的文本特征。我们提出了一种新的方法来衡量这一核心概念,并将其称为“叙事相似性”(narrative similarity)。该方法利用大语言模型提炼文本的核心观点,进而比较文本中主张(claims)的相似性,而不是词语、短语或句子的相似性。与以往相关方法相比,我们的方法所得到的估计量更接近真正的叙事相似性。过去的替代方法包括精确文本复用检测(只能识别词汇层面相似的文档)、主题模型(只能识别主题相似的文档)以及其他多种方法。我们还设计了一套样本外(out-of-sample)性能评估方案(包括精确率、召回率和 F1 值),并展示了该方法在效果上显著优于相关替代方案。

讲者:

Hannah Waight 教授

社会学系助理教授

俄勒冈大学

Related Posts