摘要 #
随着新型政治信息环境的日益复杂,其影响也随之扩大。但科学家们研究和理解这些影响的工具集与能力同样在增强。我们梳理了在政治传播领域运用计算方法与工具开发、整合及应用数据采集分析技术所面临的挑战与机遇,旨在解答理论驱动的实质性问题。重点探讨计算传播科学(CCS)在理论、实证及制度层面与政治传播社群相关的机遇与挑战。我们同时还评估了对CCS的认知现状,重点指出数据资源需求相关的挑战,以及数字信号理论与语义层面的难题。基于现有实践,我们阐述基础设施、学术机构、伦理规范及计算方法培训的关键作用。最后,本特刊通过六篇完整论文与两篇论坛投稿,展现方法论创新成果,并阐明计算方法在政治传播领域实现其潜能所面临的理论、实践与制度层面的关联性及挑战。
数字通信为社会和政治互动开辟了诸多新途径。这些途径对政治信息环境及其塑造的民主态度和行为产生了根本性影响(van Aelst et al., 2017)。公民不仅能够以二十年前难以想象的方式生产内容并发出声音,更重要的是,更广泛的媒体生态系统内部正发生着系统性变革——例如媒体环境中选择范围的扩大,以及社交网络平台作为政治信息来源日益重要的作用,这些都在改变传统政治信息的生产、传播与消费动态(Jungherr et al., 2020b)。诸如政治信息被娱乐内容大规模取代、媒体消费结构多元化、媒体环境碎片化以及虚假信息泛滥加剧等现象,不仅影响了政治传播过程,也为政治传播研究增添了新挑战。这些挑战的核心,始终是政治传播学者持续追问的问题:如何可靠地衡量特定媒体机构或政治行为者的传播范围,如何识别往往人们相互交织的媒体与信息,并估算信息的影响——尤其是在新的、嘈杂且极度混乱的信息环境中?
然而,尽管随着政治信息环境日益复杂,厘清政治传播过程及其影响的挑战性不断增加,但作为社会科学家,我们用于研究和理解这些过程的工具集与能力也在同步提升。计算能力的成本不断降低,数据科学工具包的广泛普及——这些工具曾仅限于高度专业化的群体或特定学科领域——使我们能够接触到包含政治信息的各类数据、新型数据采集实践,以及解读这些数据的持续涌现的新方法。这些发展常被统称为计算传播科学(CCS)(van Atteveldt & Peng, 2018)。我们所指的计算政治传播研究,是指主要依托计算方法与工具开发、整合并应用数据采集与分析技术,旨在解答政治传播领域实质性理论驱动型问题的研究范式。
对于希望运用入门级计算方法和工具研究政治传播过程的人而言,CCS系统具有很高的可操作性(详见Habel & Theocharis, 2020)。但关键问题随之浮现:我们获取的数据能否真正解答我们关注的实质性问题?仅凭教程中R代码的简单调整,是否足以得出可靠结论?仅凭Gephi生成的绚丽可视化,能否充分证明某话题标签下的推特讨论存在两极分化?纯粹描述性地呈现网络讨论中的社交联结模式,能解答哪些理论难题?此类洞见又具备何种理论建构能力?Botometer识别出的机器人账号,我们能多大程度确信其非人类身份?这些方法如何与开放科学、数据共享及可重复性发展的趋势相契合?
毫无疑问,新型数据与方法论为观察既有及新兴传播过程开辟了新视角。然而,尽管我们能够从前所未有的视角观察并描述政治传播过程本身具有启发性,但这是否意味着我们必然能就此提出新颖、有意义或理论上引人入胜的见解?而如今我们掌握了测量概念的新型替代方法,是否意味着这些方法不再受困于先前方法所面临的相同问题?
当前计算传播研究的多数成果不仅力求(且往往能实现)概念清晰、理论驱动,更致力于运用经过严格验证的复杂分析方法,并通过公开可访问的复现库确保透明度。然而,计算工具与方法的表面"魔力",以及将特定信息以看似深刻的方式轻松概括的能力,可能诱使毫无戒心的研究者过度解读其发现。在此背景下,计算方法看似便捷的使用反而威胁着有意义且有效的洞察力。更糟糕的是,尽管专家们竭力通过详尽文档和支持体系,向所有愿意投入时间培养相关技能、具备资源和能力的人开放工具,我们仍察觉到资源密集型科学领域中常见的鸿沟正在扩大:资源匮乏者与资源充沛者之间,能获取高质量数据(包括数字平台专有数据)者与无法获取者之间,机构支持微薄者与资源丰沛者之间,美国本土学者与海外学者之间。由此可见,对广泛计算方法和数据集日益增长的应用需求,正加剧社会科学领域(尤其是政治传播研究)中贡献机会的既有不平等。这一问题正受到包括本刊在内的众多期刊及领域内利益团体日益强烈的关注。
在此背景下,本文及本特刊旨在凸显计算政治传播(CCS)在理论、实证与制度层面所蕴含的机遇与挑战,这些议题与政治传播学界息息相关。我们认为,尽管计算政治传播潜力巨大,但迄今为止它对政治传播领域核心理论的影响仍显有限。新型计算方法与社会科学研究的传统路径尚未形成有效衔接,研究成果主要聚焦于孤立的单一国家案例。其一在于计算方法仍仅被少数政治传播学者采用(尽管这一状况正迅速改变——国际传播协会计算方法兴趣小组成立于2016年,短短数年内即升格为正式分会,便是明证)。虽然有人可能指出,更广泛的定量方法在相对较近时期也曾面临类似困境,但计算方法未必如此。技术知识曾主要存在于昂贵的方法论教科书中,如今则通过在线指南/教程和附有详细说明的代码库(例如用于贝叶斯推断和优化的语言Stan,其开源代码和500页手册均可免费获取)得以传播。这些资源的扩散速度更快,且能免费惠及更广泛的受众。
另一个重要障碍在于,许多CSS研究似乎缺乏与相关理论的联系,采用的测量方法存在争议,其揭示政治传播过程新维度的能力常被误解,且大多停留在描述层面;或相反,有时为彰显方法论严谨性而牺牲理论机制的清晰界定。这些都是跨学科领域尚未成熟的可理解症状,正如众多教科书所示,其他类型的社会科学研究或多或少也会遇到类似问题(Kellstedt & Whitten, 2018)。然而,鉴于社会科学研究者并非首次面临这些问题,我们有幸能从这些持久争议中汲取经验,从而缩短发展周期(自1950年代以来内容分析法的应用,以及逾六十年的民意调查研究,已为我们提供了丰富的理论检验与有效测量经验——参见Barbera, 2020)。最后,基于我们与相关兴趣小组的经验交流,CCS高度跨学科的特性使其在机构层面显得臃肿——这不仅导致实质性研究贡献者的失衡,更使具备跨学科专长的学者在学术市场定位上陷入困境。
本期特刊旨在为政治传播学界勾勒CCS的潜在价值,并展示其超越技术型研究者的广泛吸引力。我们将聚焦于既能彰显方法论创新,又能阐明其理论意义、实践价值与制度关联性的研究路径与视角,尤其着重揭示实现其潜能所面临的挑战。
计算传播科学的定义 #
我们将计算政治传播定位于计算传播学(CCS)的子领域,而计算传播学本身是计算社会科学(CSS)的一个分支(Lazer et al., 2009)。计算社会科学是一个正在发展的跨学科科学子领域,其边界尚未明确划定。我们定义计算社会科学为一门跨学科科学领域,其研究成果通过运用计算方法与实践,发展并检验理论,或对人类、组织及制度行为进行系统性描述。在最基础层面, 这既可指对结构化数据集应用标准化计算方法(例如运用现成词典统计数百篇政治演讲中特定词汇的出现频率),也可指开发或深度改造专用软件解决方案以解决高分析复杂度问题(例如从开发自动化采集处理大型非结构化数据集的专用软件,到编写执行模拟实验的程序代码)。因此,计算社会科学(CCS)及其延伸领域——计算政治传播学,处于计算社会科学与(政治)传播学的交叉点,其研究焦点集中于与传播渠道、传播对象、传播行为及传播效果相关的理论与现象。
该定义揭示了在精确区分CSS与其他社会科学领域时存在的重要张力点。当代社会科学研究几乎都依赖计算方法,包括数字数据(如文本、图像或音频文件)的存储与处理、借助计算手段的数据分析(如回归分析和模拟)、或通过数字传感器(如眼动追踪或物联网设备)进行的数据采集。在这些工作中,计算往往是必要前提。例如,虽然纸笔也能进行多重回归分析,但该方法在社会科学领域的成功实施,依赖于基础数据集的数字化呈现及可用的数据处理计算资源。根据我们定义最普遍的解读,任何数据处理与分析中采用计算方法的行为都可归入计算社会科学范畴,因此几乎所有当代社会科学形式都可被视为计算社会科学。显然,这种定义方式不利于厘清该领域的构成要素及其潜在机遇与挑战。
或许更值得关注的是那些不将计算方法和实践作为即插即用的解决方案,而是在数据收集、准备、分析或呈现方面需要不同程度定制的研究项目。这本质上是程度上的差异:一端是需编写代码调用预存或微调函数、进行数据管理的项目;另一端则是要求开发专用软件解决方案的研究项目,例如自动化持续采集数据、处理大型非结构化原始数据、构建定制化非标准化分析流程等。处于不同端点的项目虽都聚焦于社会行为、系统或现象,但其计算需求存在显著差异。采用标准化计算方法的项目,其本质可能与实证社会科学研究的其他领域并无二致;而另一端点的项目则可能面临与计算机科学软件开发无异的挑战。
通常,CSS的讨论聚焦于数字技术所催生的新型数据集。其中最著名的当属记录数字环境中用户行为的数据——即所谓的数字痕迹数据(Freelon, 2014; Golder & Macy, 2014; Howison et al., 2011; Jungherr, 2015)。然而,与政治传播研究相关的大型数据集正日益通过数字化渠道开放获取,例如涵盖多元领域的文本语料库:包括新闻报道(Barberá et al., 2020)、文学作品(Piper, 2018; 安德伍德,2019),历史或当代议会演讲(劳与施瓦尔巴赫,2020),以及图像(威廉姆斯等人,2020)。所有这些数据集都是计算传播学的正当研究对象,因此将计算传播研究(CSS)的定义局限于特定类型数据集的做法实属不必要地限制了研究范畴。
相应地,我们将CSS的定义局限于某个特定主题子领域的做法认为毫无意义。诚然,CSS早期研究大多聚焦于数字传播环境,但这不过是早期可获取的数据集记录了社交媒体(尤其是Facebook和Twitter)用户行为的产物,而非CSS的本质特征。因此,我们对CSS的理解并不受特定方法、数据集或研究兴趣的束缚。在我们看来,CSS区别于其他社会科学方法(尤其是政治传播学)的本质特征,在于研究项目在整个过程中对计算方法的整合与发展的要求程度。同时,CSS作为计算机科学研究中的特定分支,其核心在于聚焦社会系统与现象。因此,相关方法论必须适应该研究领域的特殊条件(Flyvbjerk, 2001)。通过聚焦CSS的两大构成特征——基于计算方法考察社会系统、现象及过程——我们得以识别并探讨该领域面临的机遇与挑战。
承诺, 承诺 #
关于计算机支持的定性研究(CSS)的论述,通常伴随着对其在社会与人类行为研究领域所蕴含潜力的高度期待。这种期待同样适用于政治传播研究领域。这类期待通常呈现两种形态:其一侧重于通过数字痕迹数据与数字传感器实现对社会现象及人类行为覆盖面的拓展;其二则更进一步,期许社会科学本质的变革。
在最根本的层面上,CSS的支持者们一致认为,数字化转型使社会科学家可用的数据来源和类型大幅增加。这不仅体现在原本就存在的数据(如报纸语料库)如今以更庞大的规模呈现,更体现在全新数据源的涌现。其一,用户与在线服务的交互行为会产生数据痕迹。这类数字痕迹数据原则上能全面记录用户通过数字服务进行的媒介化行为,同时还能提供以往无法获取的环境细节。正因如此,这类数据对政治传播研究者极具价值——它们为探究当代最具活力的政治信息环境中的行为过程提供了切入点(Golder & Macy, 2014; Howison et al., 2011; Jungherr, 2015; Salganik, 2018)。
然而在实践中,大多数政治传播研究者仅能获取高度有限的数字痕迹数据快照,且在数据访问方面仍受制于数字平台(Freelon, 2018)。其积极意义在于:这种有限的访问权限仍优于完全无法接触平台数据流——当今诸多激动人心的传播活动与政治行为正发生于此。但与此同时,这种获取方式也为数据推演设置了严苛壁垒——既难以精准解读这些快照的真实内涵,更难以从海量数据集中提炼出真正有价值的信息(Grimmer & Steward, 2013),使得数字痕迹数据的全部潜力远未如预期般得以释放。此外,数字传感器还提供了全新的数据来源。这类数据可能作为其他服务的副产品产生,例如卫星影像(Weidmann & Schutte, 2017),或是研究人员专门设计的传感器输出(Pentland, 2008; Stopczynski et al., 2014)。随着物联网设备的普及与广泛部署,此类数据类型必将持续增长。
这些新增的数据来源共同作用,使得社会现象与人类行为的覆盖面不断扩大,呈现方式日益丰富。尤其当结合其他社会科学研究方法时,它还能以更高的时序分辨率、行为分辨率和过程分辨率来考察已知现象。这或许还能为社会与人类行为提供更系统层面的视角(Golder & Macy, 2014; Lazer et al., 2009; Salganik, 2018)。例如,过去研究虚假信息现象主要依赖问卷调查和实验(如Kuklinski et al., 2000),而如今通过整合并匹配数字痕迹与个体数据,能更深入地剖析接触虚假信息的机制(Grinberg et al., 2019; Guess等人,2019),这种深度是单纯使用调查数据无法实现的。当前研究者不仅运用了比以往更多样化的数据,更在数据生成与分析流程中实施高度定制化操作以达成研究目标。
更雄心勃勃的是,随着记录人类与数字服务交互行为——或被数字传感器覆盖——的海量数据集日益普及,人们开始期待社会科学能够超越其软科学的地位,发展为一门真正的科学学科,其模型能够对未来进行可靠预测。在此视角下,数据量的增长不仅意味着社会进程或人类行为覆盖面的扩大,更将推动社会科学领域的"测量革命"(Watts, 2011),使其摆脱事后解释的局限,发展为具备真正预测能力的科学(Hofman et al., 2017)。这种希望建立在对社会的认知之上:社会是由潜在的、独立于具体情境的规律所塑造的,由于缺乏获取数据的机会,这些规律对科学家而言大多处于隐蔽状态,而如今这些数据已可被获取(González-Bailón, 2017)。
尽管我们日益看到诸多研究揭示了基于社会现象广泛覆盖的CSS理论的首要承诺,但将社会科学转变为更严格预测科学的第二项承诺仍未实现——尤其在政治传播研究领域。虽然有人可能将此视为单纯需要更多数据的信号,但我们认为更合理的解释是:社会科学的本质在于考察依赖情境的现象(Elster, 2015; 弗莱夫贝克,2001;格林,2012),因此社会科学中的预测更像是检验理论的工具,而非工程学或物理学中那种规划设计的工具。
总体而言,尽管这些承诺阐述得十分清晰且被大肆宣传,但实现它们所面临的挑战仍主要埋藏在实证论文的讨论部分。然而,回顾十余年的研究历程,我们至少能识别出三个问题领域:
- 1、计算机社会学研究在将研究设计与发现关联至社会科学领域既有的理论、概念、机制及讨论方面仍显薄弱(Jungherr & Theocharis, 2017)。
- 2、 尽管数据问题——尤其是社交媒体数据——在计算机社会学中引发了广泛讨论(Japec et al., 2015; Sen et al., 2019; Stier et al., 2019),但数据生成过程及其对现有数据集信号构成、覆盖范围和解释意义的影响(Jungherr, 2019)往往被视为次要问题。
- 3、 作为跨学科研究领域,气候科学在建立实践方面面临困境:既需强化其与传统社会科学的衔接,又需制定数据采集、预处理、标准化及分析过程的透明度标准,同时需揭示并处理研究者、产业界与媒体间的利益冲突(Jungherr et al., 2020a)。针对最后一项议题所采取的应对措施(King & Persily, 2019)已遭遇质疑(Bruns, 2019)。
要使CSS(计算政治传播)蓬勃发展,并超越其目前在计算爱好者、社会科学家及对社会问题感兴趣的计算机科学家群体中的小众地位,这些挑战必须得到解决。
挑战 #
数据与资源需求 #
计算传播学面临的挑战与计算机社会学颇为相似。计算机社会学最显著的特征或许是数据集规模的惊人庞大(Salganik, 2018)。这一发展催生了"大数据"这一术语,用于探讨相关研究潜力(Lazer & Radford, 2017; Schroeder, 2016, 2019),但近期随着人们对其概念模糊性的日益关注,该术语已逐渐失去部分热度。
从根本上说,数据集规模的扩大带来了存储与处理方面的实际难题。尽管计算机的处理能力确实在提升,但这无法弥补新型数据集对其日益增长的需求。文本数据已然如此,而对于高分辨率图像或视频数据集而言更是如此——这些数据正日益成为政治传播学者的重要研究工具,尤其当研究焦点转向Instagram、YouTube和TikTok等平台时。收集和使用此类数据集的研究项目,正日益面临远超社会科学常规项目范畴的复杂数据准备与处理任务。
在处理包含多种数据类型的大型数据集时,除了这些基本问题外,还存在另一个问题:政治传播研究项目往往使用通过社交媒体平台提供的公共接口收集的社交媒体数据。直到最近,通过所谓的应用程序接口(API)获取这些数据还相当容易,并为研究人员提供了相对丰富的数据。然而,当部分平台逐步采取措施便利学术研究者获取和使用数据时,另一些平台却开始限制通过API获取公开数据,从而削弱了收集高质量数据集的可能性。部分学者主张与社交媒体公司建立合作关系,既可缓解当前数据可靠性与可重复性受限的风险,又能通过获取研究级数据保障用户隐私(Puschmann, 2019);另一些学者则提倡开发独立于平台访问权限的专用数据采集方案(Freelon, 2018)。这些案例表明,此类数据不仅蕴含潜力,更伴随重大挑战。这使得该领域日益需要计算机科学家与社会科学家组成的跨学科团队来应对这些需求(King, 2011)。
大规模数据集也引发了诸多隐私问题、数据所有权争议,以及随之而来的研究透明度与可重复性等悬而未决的难题。实际上,多数在线服务用户可能并未意识到,他们的公开贡献与互动行为——连同相关元数据——可能被他人所见,并成为研究项目的素材。这些数据常被用于推断用户的偏好、特质或特征。对于数字化传感器或物联网设备产生的数据——这些日益受到关注的数据源——情况尤为如此。此外,当单个数据点包含大量个人数据时,如何确保无法识别个人身份成为重大挑战。这使得企业难以向研究人员开放数据访问权限(King & Persily, 2019; Levi & Rajala, 2020),并在项目完成后引发后续问题。尽管科学界日益重视透明研究实践及开放研究项目基础数据(Christensen et al., 2019),但隐私顾虑与基础数据的专有属性使得建立类似标准困难重重。相较于社会科学领域日益完善的透明度标准(Jungherr et al., 2020a),这往往导致学术论文仍存在信息不透明问题。
链接:理论与数字信号的语义学 #
CSS领域中一个更隐蔽的挑战——进而延伸至计算传播学领域——在于将数据与结果关联到研究现象及相关理论(Jungherr等,2020a)。社会科学领域的研究结论高度依赖具体情境,使得宏大理论化难以成立(Flyvbjerk, 2001)。然而,将研究与已证实作用于特定过程、现象或行为的现有理论机制相联系,能帮助研究者构建合理的探究框架,并建立与既有知识体系的关联。这使得我们能够评估现实认知中哪些部分得到了新发现的支持,哪些部分被新发现所反驳。唯有将成熟理论思想与新型研究环境、现象及方法积极结合,方能形成累积性证据体系,而非支离破碎的孤立发现叠加(Schroeder, 2019)。
理论驱动的计算传播研究具有强大影响力,这可通过一项近期研究得到印证,该研究同时展现了我们先前讨论的研究设计与分析定制化特征。当前关于社交媒体弊端的诸多争论,主要集中于其可能形成"回音室"效应,导致人们无法充分接触与既有信念相悖的信息。关注回音室效应的学者认为,与"对立阵营"人士的交流能增强多元观点的接触,从而缓解极化现象。Bail等人(2018)在近期研究中不仅验证了该假说,更进一步理论化了其反向机制——即此类互动可能引发反效果。为破解这一难题,研究者采用创新实验设计,融合问卷调查、机器人技术与推特数据。结果揭示了党派立场对反效果的显著差异,尤其在共和党群体中引发的反效果机制尚未被本研究阐明,为后续探索开辟了新路径。尽管存在局限(作者已详尽讨论),这项理论驱动的研究通过精巧运用计算方法深化了对特定传播过程的理解。此类实验研究在计算方法驱动的政治传播研究领域极具前景——研究者能在真实环境中对前所未有的庞大样本实施干预(Bail et al., 2018; Leeper, 2020; Salganik & Watts, 2009; Siegel & Badaan, 2020)。然而,尽管这种方法能实现高度实验控制并识别微小效应量,但当可用观测数据量增加时,研究者也必须调整结果解读标准(Japec et al., 2015)。Bond等人(2012)的研究便为这种必要性提供了例证。该研究采用高度创新的实验设计,在6100万Facebook用户中开展实验:当用户好友标记参与美国大选投票时,部分用户会收到相关信息提示。作者发现该信息干预方式的特定变体仅产生微弱影响。尽管他们在论文正文中谨慎地将此列为研究局限,但在摘要和结论部分却着重强调了通过Facebook信息影响公众的成功案例。正是这种表述——而非更严谨的效应量分析——主导了该论文在学术界与公众讨论中的引用。在此背景下,作者自身的警示被彻底忽视,该研究主要被作为Facebook在政治传播与选举中拥有巨大操纵力的证据。大众认知中,庞大的样本量可能被视为研究结论重要性的凭证,但实际上,大样本量反而稀释了报告中统计显著性的实际意义。这项备受瞩目的研究表明,研究者必须根据大数据时代的新条件调整其报告实践。
除了理论层面,当前CSS领域还存在另一种被普遍忽视的关联——数据中信号与研究关注现象之间的联系,即数字信号的语义(Jungherr, 2019)。以下案例对政治传播学者而言应不陌生。任何从事社交媒体研究者都清楚,每个数据点都是符号化的呈现。它可能代表直接明确的含义——例如用户在Facebook上为朋友支持"黑人的命也是命"运动的声明点赞;但也可能具有更间接的象征意义。例如,脸书上的"点赞"可能是在回应其他用户的发声表达支持,可能代表对事实陈述或观点的认同,可能是对其他用户的同情表达,也可能是纯粹为维护社交资本而采取的行为——与被点赞内容毫无直接关联。尽管有人认为调查研究也常面临类似问题,但在社交媒体环境中将信号与行为关联起来的风险要高得多。这不仅源于各平台架构差异及嵌入功能所提供的多重社交线索,更因特定行为所赋予的意义存在难以量化的谬差。信号与所代表对象的语义不仅随时间变化,更因内容类型(如文本、图像或视频)及服务平台而异——尤其考虑到平台功能差异性(Jungherr & Jürgens, 2013)。这使得研究者必须明确阐述信号与表征对象间关系的解读逻辑,以凸显其潜在假设。当前研究中,数字痕迹直接呈现的现象常被刻意忽略。学者们倾向于将研究兴趣投射到数字痕迹数据中的信号上,却鲜少关注所选信号与目标现象之间的关联性(Jungherr et al., 2017)。
标签:能否根据数字痕迹推断人的特质? #
CSS中的标签实践与数据信号及其所代表现象之间建立语义关联所引发的问题紧密相连。CSS的一个显著特征是根据个体在数字痕迹中展现的行为,为其本人或数字化身赋予标签。此类实例比比皆是。社交媒体活动已被用于根据用户政治理念(Barberá, 2015)、心理特征(Azucar et al., 2018)、心理健康状况(Chancellor & Choudhury, 2020)或账号真实性(Rauchfleisch & Kaiser, 2020)进行标签化。标签在CSS中是强大的工具,它允许根据用户感知到的特征或偏好,大规模自动分配干预措施。这与其他领域的评分程序相似(Citron & Pasquale, 2014)。毫不意外,这引发了诸多关切,并要求研究者在提供标签提案与解决方案时承担相应责任。学术研究者完全有权识别数字痕迹中的信号与记录个体特征、偏好或预期行为的其他指标之间的关联。但若这些标签解决方案成为商业模式或政策干预的依据,则性质截然不同。正如剑桥分析事件有力证明的那样,此类应用亟需更严格的审查与公众监督。首先,关于标签化的讨论往往聚焦于其惊人的便捷性。一旦某些看似成功的案例在公众想象中确立,即便学术讨论已从早期热情转向更批判的立场,这些案例仍难以被撼动。以所谓(半)自动化账户——公共话语中所谓的机器人账号——的普遍性讨论为例(Schneier, 2020)。公众与政治想象似乎痴迷于这样的场景:网络空间的公共辩论被操纵性虚假账号淹没,这些账号不断推送挑战政治现状的叙事。尽管标记社交媒体账号为机器人的方法层出不穷(Varol et al., 2017),但研究结果却参差不齐(Keller et al., 2020)。最初的热情正逐渐被怀疑所取代。细致研究表明,标记账号为机器人的方法尚未证明其可靠性,存在将真实合法账号误标为机器人(误报)以及预测精度随时间显著衰减(样本外预测)的问题(Rauchfleisch & Kaiser, 2020)。标签化无疑具有重要意义(Pasquale, 2015),而自动将社交媒体用户标记为机器人或特定政治候选人的支持者更蕴含风险。当标签化工作仅限于学术论文时,这些风险尚可管控;但一旦未经审核的无监督标签解决方案被广泛部署于在线平台,并成为自动化干预措施的依据,风险便呈指数级增长。在当前政治氛围紧张且平台治理不透明的背景下,学术界应格外审慎对待标签的赋予方式、审核机制及其作为干预依据的合理性。特定情境下封禁自动化账户或许正当,但因各种原因被贴上"机器人"标签的用户遭封禁则明显缺乏正当性。目前,CSS实践尚未充分体现这种伦理责任。总体而言,机器人检测案例揭示了CSS亟需对拟议标签程序实施更严密的可靠性、有效性和稳健性检验——过度热衷的原型系统可能催生难以控制的社会效应,一旦集体想象力接管这些效应,其影响便将难以遏制。
新事物的冲击:理论驱动型工作作为稳定器 #
数字技术拓展了每个人的影响力范围,并改变了社会系统的构成与运作机制。尽管某些政治传播过程与现象仍可通过现有科学理论进行有效解析——例如关于数字媒体与政治极化的丰富理论文献——但另一些现象在动态、传播范围或影响层面具有本质创新性或显著差异性,亟需建立全新概念框架,甚至可能催生新理论体系(Neuman, 2016; Schroeder, 2018)。典型案例包括虚假信息研究(Lazer et al., 2018)以及网络空间中不文明言论的本质与效应探讨(Munger, 2017; Theocharis et al., 2020, 2016)。在流动性强、选择多元且复杂的政治信息环境中,政治传播学者尤其需要运用前文所述的理论驱动型设计,既将研究发现与既有话语体系相衔接,又推动理论创新,使该领域能够阐释人类行为、制度及社会结构正在经历的变革。
本文撰写之际,学者们正积极研究新冠疫情的影响。这场具有重大意义的事件将科学传播与公共传播推向新高度,同时也引发诸多议题的关注:人们如何调整信息摄取模式应对危机?网络对话中的种族主义与排外情绪如何影响公共辩论健康?虚假信息泛滥程度及其对公共卫生的潜在危害?在社交隔离时期,各类媒体消费必然激增。这场疫情无疑将成为未来数年激动人心的研究对象——尤其因其史无前例地以单一且危及生命的事件形态,长期主导着媒体传播领域。计算方法将在相关研究中发挥重要作用已毋庸置疑。
然而,尽管新冠疫情具有重大意义,我们对重大事件期间政治传播过程的现有认知(尤其当其仅涉及推特上的公众行为时)并未真正提出重大的理论难题。例如,我们对推特上的对话动态和信息传播已有预期和扎实的认知。我们同样清楚:为何社交媒体能成为群体和个人组织社区互助与集体行动的关键平台;为何特定类型的不实信息可能加剧某些年龄段的分化却对其他群体影响甚微;为何社交媒体的特性使某些人能借助虚假信息获得支持而非在民意调查中彻底溃败。本文无意预判研究优劣,亦不主张限定研究方向。更非要求选择特定研究方向或理论工具。我们的目标在于揭示某些日益普遍的研究方法可能存在的陷阱,阐明我们认为当前值得加强的研究特质,这些特质能帮助该领域以更具启发性的方式应对重要课题。理论化研究的另一面——尤其在新兴陌生领域——需要广泛而严谨的描述性工作,以系统全面地映射新现象(Swedberg, 2014)。过去数十年社会科学领域固有的成熟进程,在某些方向上却催生了对描述性工作的忽视乃至主动排斥。虽然在记者、律师或历史学家等已承担描述性重任的领域,这种态度或许情有可原,但在CSS领域采取这种态度则实属谬误。在不同领域、不同文化背景、不同时间维度或不同国家语境中,绘制数字化转型影响图景的任务绝非易事,且对公众认知及该领域未来发展至关重要。
理论化进程的另一面——尤其在新兴陌生环境中——需要广泛而严谨的描述性研究,方能系统全面地描绘新现象(Swedberg, 2014)。过去数十年间社会科学领域固有的成熟发展进程,在某些领域却催生了对描述性工作的忽视乃至主动排斥。虽然在记者、律师或历史学家等已承担描述性重任的领域,这种态度或许情有可原,但在CSS领域采取这种态度则实属谬误。在不同领域及跨文化、跨时空或跨国境的背景下,梳理数字化转型所产生的影响绝非易事,这对公众理解及该领域的进一步发展至关重要。
实践:基础设施、制度、伦理与培训的关键作用 #
CSS作为一门横跨社会科学、计算机科学乃至部分自然科学的跨学科领域,正对社会科学研究实践产生深远影响,尤其在政治传播领域。尽管不同学科背景的研究者在边界地带存在交流,但实践中每个人都将原有领域的规范与标准带入CSS的新探索。因此,CSS领域既无统一的理论传统,也缺乏特定方法论或数据集体系,这并不令人意外。相反,我们看到无数方法与标准并存。这使得建立统一的学术语言体系变得困难,也阻碍了构建框架以整合不同传统下遵循不同标准的实证发现,从而形成累积性的研究叙事(Schroeder, 2019)。
尽管CSS领域的主流综述清晰地反映了其跨学科特性,但在实践中,研究团队却难以实现这种跨学科性(Gilardi等,2020)。虽然存在若干知名CSS研究团队——主要分布于美国——能够组建跨学科团队,但在多数学术环境中,特定领域的招聘惯例使得这种模式难以推行。现实中常见两种模式:要么形成松散的跨学科研究联盟,其内部仍保持高度同质性;要么由单一学科团队临时拼凑跨领域技能。三种路径中,建立专业化跨学科研究团队的模式最具潜力——既能推动CSS发展为系统性学科,又能攻克重大挑战。然而,博士生和博士后加入此类团队存在风险:当前尚不明确此类团队能否形成足够规模以提供后续就业机会,且传统招聘渠道是否认可其跨学科团队经验的价值。第二种方案——由内部结构同质的研究团队建立松散的跨学科联盟——虽因协作脆弱性存在一定风险,但仍能促进跨学科对话并推动CSS领域的潜在标准化进程。该模式对博士生和博士后风险较小,因其虽参与跨学科项目,仍可保留所属专业领域内明确可识别的单位归属。第三种方案——由同质化团队按需获取其他领域技能——可能是最脆弱的选择,同时几乎无法推动CSS作为跨学科领域的标准化进程。
我们在此强调,真正的跨学科研究与教学不仅在实践中难以实现,更需要机构层面的开放胸襟与资源支持——抛开修辞不谈,鲜有机构愿意或能够提供这些条件。众所周知,跨学科研究不仅需要着眼未来的果敢决策,还需为可能高风险的实验性项目提供资金支持——而这两方面,某些学术体系相较于其他体系更具优势(且具备持续的资金保障能力)。计算传播学的发展轨迹始于美国并不令人意外:该国公共与私人资金共同催生并培育了一系列顶尖实验室与研究中心,持续产出前沿成果。而这种发展轨迹鲜少延伸至欧洲及其他地区——不仅因相关项目更难获得资助,更因现有少数中心或实验室多集中于少数顶尖且资金雄厚的机构。以2018年10月Sage Ocean发表的多元化研究为例¹,在"39位从事计算社会科学卓越研究的女性学者"中,28人来自美国,其余6人分别就职于牛津大学、剑桥大学、伦敦政治经济学院以及新成立的英国国家数据科学与人工智能权威机构——艾伦·图灵研究所。
令人不安的是,CSS领域最受公众关注的研究成果始终基于专有数据——这些数据是研究人员通过与数字平台建立特权合作关系才得以获取的。这种现象因多重原因令人忧虑,将影响该领域的未来发展。首先,依赖专有数据开展研究加剧了现有的权力失衡。加州大学伯克利分校、斯坦福大学或麻省理工学院的研究人员可依托强大的校友网络,在数字平台企业内部获得准入权与信任(明斯基,2016),而欧洲及其他地区的研究者无法获得此类资源,因此始终处于劣势地位。这种状况与绝大多数国际平台用户的文化背景及身份认同形成鲜明反差。亚洲及印度等地区研究者的严重缺席,必然导致研究焦点偏向西方民主国家(尤其是美国)的平台应用。随着美国持续推行其独特而连贯的政策路线,这一问题日益凸显——计算机安全研究(CSS)正面临沦为该国特定即时议题的风险。
更令人担忧的是,基于专有数据的研究无法被外部复现。这存在严重问题。首先,CSS作为新兴领域,其标准可能随时间演变。因此即便研究初衷最纯粹、设计最严谨,在标准变更或数据采集分析潜在偏见意识增强后,发表数年后仍需重新审视。若缺乏透明的复现机制,这将难以实现。对专有数据的依赖可能危及该领域的方法论进步,当前关于解决方案的讨论值得大力鼓励。与此同时,基础数据及其筛选过程的不透明性,使得信任研究结论本质上成为一种信仰抉择。鉴于提供数据访问权限的企业本身就是利益相关方,人们认为这种信任标准薄弱也是情有可原的。更广泛而言,CSS领域深陷研究者、企业与政府间的利益冲突泥潭——其数据获取依赖于企业提供的渠道,而这些企业的治理流程与商业模式恰恰是研究者关注的对象。迄今该领域既未正视这些冲突,也未制定透明化或规避冲突的标准(Jungherr et al., 2020a)。这对CSS后续发展构成根本性挑战。 该领域的跨学科特性也给评审流程带来难题。来自传播学背景的研究者会依据本领域标准评审计算机科学家的论文,因而可能认为该论文未达标;而计算机科学背景的评审者则可能认为其已具备发表条件。本特刊的审稿实践已印证:当审稿人几乎全部来自政治学与传播学而非计算机科学领域时,CSS短期内难以形成统一的理论、方法与实践核心体系。我们认为,编辑和审稿人必须正视这些挑战,以比审阅本领域核心论文更为开放的思维进行评审。 最后,这一挑战同样体现在CSS教育领域:如何避免将社会科学家培养成平庸的编程人员,又如何避免将计算机科学家培养成平庸的社会科学家?在构建CSS共同核心时,如何把握恰当平衡?既要使从业者能使用共同语言、对基础挑战达成共识,又要允许他们在理论、研究设计和方法论领域发展必要的专业分化?这些问题目前尚无统一答案,却关乎该领域成熟进程的根本性发展。
提出更佳问题:CSS在政治传播中的潜力 #
新型数据的涌现以及解读这些数据的计算工具与方法的发展,使得众多政治传播过程得以从前所未有的视角进行探究。通过将个体层面的数据与通过网络浏览器或社交媒体追踪器收集的数据进行匹配,可以获取关于人们新闻消费和媒体饮食的更详细、更准确的信息。这为我们提供了新的视角,得以探究不同类型内容的接触如何影响各类行为——例如政治参与度,以及诸如媒体信任度等态度——并能以更细致的新视角检验诸多经典媒体效应理论,如框架效应、启动效应或议程设置理论(Jungherr et al., 2019)。这将使学者们能够更深入地理解传统媒体和专业记者在日益丰富且竞争激烈的媒体生态中守门人角色的变化。
结合不同类型的数据,还能更深入地理解政治信息与内容如何对个体产生差异化影响(Popa et al., 2020; Scharkow et al., 2020; Wells & Thorson, 2017),这可能加剧了高质量政治信息领域本已存在的不平等现象。采用数字痕迹与个体层面数据的设计同样能解答选举期间政治传播的诸多新问题。这些问题涵盖民众如何战略性地运用传播策略与语言动员他人,以及民众在观看政治辩论和集会时如何受到影响。通过分析信息在网络中的扩散模式(Mercea & Bastos, 2016),社会运动传播策略研究也获得深化。借助数字痕迹数据,如今能更精准捕捉脱口秀或社交媒体梗图衍生的幽默政治内容传播新模式,从而深化对政治幽默影响力的认知。尤为重要的是,由于网络政治讨论更易追踪的文本与视觉特征,政治传播学者如今借助各类(自动化)文本分析工具与方法,能够深入研究政治分歧及其不仅对两极分化、更对不文明行为产生的影响。人类交流中表现出的不宽容现象——如种族主义、厌女症、恐同症等——通过传统调查难以量化,如今却能在社交媒体上被观测到。借助现已普及的数据挖掘方法及多种精密的文本与网络分析技术,学者们得以深入解析这些现象的影响(Benoit, 2020)。
基于这一丰富的成果积累,本期特刊旨在征集能阐明计算方法如何助力政治传播学者解决各类问题、推动理论发展的投稿。我们同样关注那些展示计算方法如何应用于解决多个不同主题重大问题的研究成果。最后,我们期待汇聚计算方法领域学者的洞见,探讨他们在跨学科挑战中的实践经验。我们收到了大量高质量投稿,并荣幸呈现六篇完整研究论文与两篇论坛文章。尤其值得欣慰的是,本合辑成功规避了前文所述CSS领域中某些文化与资源驱动的偏见。
在为本期特刊撰写的论文中,卢和潘提出理论:随着中国公众对社交媒体使用的日益普及,政府亟需拓展宣传传播策略,其方式应与传统宣传传播截然不同。这项研究是首批证明将民族志方法与计算方法相结合具有显著优势的学术成果之一,揭示了数据指标在中国宣传工作者中的核心地位,并就实现传播覆盖所采用的不同内容类型提供了诸多新颖见解。
政治传播研究领域最令人振奋的进展之一,是图像作为分析对象的逐步引入。本特刊中的两项研究有力地展示了图像分析的潜力——同时也揭示了在验证过程中需注意的局限性与额外谨慎之处。首篇研究中,Haim与Jungblut运用覆盖欧盟28个成员国候选人的比较数据集,剖析了2019年欧洲议会选举期间的候选人视觉形象。他们首次开展大规模描述性分析,探索候选人在不同平台的视觉传播差异,既印证了前文讨论的CSS(视觉传播分析)中描述性分析的价值,又揭示了非语言行为在视觉传播中的多重维度。尽管该研究采用的第三方工具不仅存在诸多争议(van Atteveldt & Peng, 2018),且与本文阐述的CSS理论认知存在差异,但它成功展示了现成视觉分析工具在视觉传播研究中的应用潜力,并有力论证了使用经过严格验证工具的必要性。
Boussalis与Coan的研究探讨电视辩论中候选人的非语言信号对选民支持度形成的影响程度。基于候选人形态特征及政治人物面部信号效应的文献,他们提出理论:电视辩论中特定的情绪展现/面部表情可能影响选民支持度。通过整合美国政治候选人的帧级面部表现数据与观众对辩论参与者反应的秒级连续响应测量,他们发现电视辩论中参与者的情绪面部信号可能影响观众对候选人表现的评价。
亚尔奇、巴登和克利格勒-维伦奇克探讨了社交媒体平台上政治两极分化的重要问题。作者通过分析以色列某政治争议在三大在线平台上的讨论模式发现:三平台呈现显著差异——推特在三项指标中均显示最强烈的极化迹象,WhatsApp互动随时间推移呈现去极化趋势,而脸书的极化证据最为薄弱。本文严正警示:切勿仅凭单一平台研究(尤其是基于推特的研究)就断言数字媒体助长政治极化。
邓、索罗卡与维兹恩,以及尼科尔斯与卡尔佩珀的研究成果,更应理解为针对本特刊应用部分的论述。邓、索罗卡与维兹恩的研究立足于经典政治传播学范式,采用媒体报道内容分析法,具体研究对象为美国国防开支。他们依托1980至2018年间约200万篇报道组成的庞大纵向语料库,运用其命名的"词典+监督学习"方法。研究结果引发了关于机器学习引入是否带来充分效益的新思考,但作者提出两种方法无需相互竞争,并提供了融合两者的路径。
研究政治文本最突出的方法之一是框架分析。在此领域,尼科尔斯与卡尔佩珀的贡献提供了引人入胜的新视角。框架的自动发现是文本分析中的棘手难题。研究者常将不同方法进行比较。尼科尔斯与卡尔佩珀通过测试三种自动识别框架的程序性能,揭示了这种做法的弊端。他们指出,不同方法的质量会因语料库特性及框架概念维度的差异而变化,有力地提醒我们:计算方法并非即插即用的工具,必须根据具体情况进行调整才能有效应用。
我们很高兴收到两篇论坛投稿,分别探讨了跨学科研究中不同的挑战性方面。温莎的论坛报告重点阐述了建立跨学科实验室的复杂性,以及如何与计算机科学学者建立共同语言,并通过讨论不同学科如何解读和实践"凝聚力"的概念,在实践中进行了具体说明。范·阿特维尔德、阿尔特豪斯和韦斯勒则探讨了协作项目中因数据共享需求而涌现的诸多问题。由于CSS领域数据共享常受版权法及服务条款约束,如何构建既可持续又符合伦理的解决方案以促进比较研究极具挑战性。他们对短期策略的实践经验,为有意开展此类研究并希望缓解相关问题的学者提供了宝贵参考。
计算工具和方法能够为政治传播研究开辟如此多的新途径,显然对政治传播学者具有广泛吸引力。然而,尽管广受欢迎,计算社会科学不仅仍存在局限,更呈现出日益加剧的严重不平等现象。原因何在?我们认为有两点: 其一,尽管看似门槛较低,但要掌握超越现成解决方案的计算方法能力,其学习曲线实则陡峭。其二,社会科学领域缺乏系统性的计算方法培训,而这种缺失本身又部分源于跨学科专业人才的聘用不足。
我们希望本期特刊能迈出第一步,不仅展示计算方法面临的挑战,更展现其在政治传播学界广泛而多维的应用前景——由此彰显其吸引力。计算方法使我们能够从不同角度和多样化途径,应对这个深受数字媒体塑造的时代所特有的诸多现有问题与研究难题。正如我们所展示的,计算政治传播、计算传播研究(CCS)与计算传播科学(CSS)虽因讨论议题的广度存在差异,但它们在构建社会科学、计算机科学与自然科学边界处跨学科领域的核心挑战上并无二致。尽管细分领域再细分的诱惑极强,该领域仍需审慎考量此类发展。当前在此交叉领域工作的学者本就寥寥无几。若将这少数研究者进一步分割成各自为政的领域,可能导致跨学科标准制定进程受阻,转而催生各子领域特有的计算方法实践。这种发展虽能加速计算方法在特定社会科学子领域的应用,却可能使社会科学家、计算机科学家与自然科学家建立跨学科实践的艰巨课题被边缘化。我们担忧这种趋势可能阻碍创新方法论的诞生,并强化现成计算解决方案在社会科学领域的应用倾向。
我们视本期特刊为一场对话的开端,旨在探讨计算方法为何能对传播学者产生更广泛的吸引力,而不仅限于技术能力极强的研究者领域。我们认为,要实现这一目标,不仅需要认识到跨学科研究的必要性,更要保持清醒的认知——区分哪些是真正的新颖之处,哪些并非如此。同时,依赖计算方法的计算传播研究所面临的陷阱与边界,与更广阔的传播研究领域(CSS)所遭遇的困境并无二致。
最后一次修改于 2026-03-12