量化跨語言敘事的相似性
講座概要:
如何理解思想在文本資料中的傳播?這是社會學研究中的一個關鍵測量問題,涉及多個領域,例如利益集團如何塑造媒體話語、政策如何在制度之間傳播、組織結構乃至制度本身如何擴散等。要研究思想和敘事在文本中的擴散,首先必須開發一種方法,用以識別文本之間是否共用相同的資訊和敘事,而不僅僅是相似的宏觀主題或完全一致的文本特徵。我們提出了一種新的方法來衡量這一核心概念,並將其稱為「敘事相似性」(narrative similarity)。該方法利用大語言模型提煉文本的核心觀點,進而比較文本中主張(claims)的相似性,而不是詞語、短語或句子的相似性。與以往相關方法相比,我們的方法所得到的估計量更接近真正的敘事相似性。過去的替代方法包括精確文本複用檢測(只能識別詞彙層面相似的文檔)、主題模型(只能識別主題相似的文檔)以及其他多種方法。我們還設計了一套樣本外(out-of-sample)性能評估方案(包括精確率、召回率和 F1 值),並展示了該方法在效果上顯著優於相關替代方案。
講者:
Hannah Waight 教授
社會學系助理教授
俄勒岡大學
