论文
Lee, N. Y., Edelblum, A., Park, K., & Zablah, A. R. (2026). Rethinking social media strategy: Crafting digital sensory appeals to maximize customer engagement. Journal of the Academy of Marketing Science.
查看笔记要点
- 针对的问题: 依然是图像和文本两个模态的配合问题,出发于一个很简单的效果研究问题,即一张独立的图像能否产生比配有图像的文本更高的互动率。
- 综述脉络: 线下营销环境中的感官诉求到数字营销环境中通过模态内容设计感官诉求——考虑沉浸感理论和认知负荷理论的模态,对现行社媒中存有的多模态营销提出质疑
- 理论框架: 沉浸感理论,感官诉求的关键不是提供更多信息,而是让用户更容易沉浸搭配图片所展示的消费场景中,单纯的模态会减少模态整合的认知负荷。更容易把心理字义安用户感官想象。
- 方法: 一个是线上二手数据检验,分析美国中西部一家咖啡店2011 至 2024 年的 1041 条Instagram 帖子,很经典的跑回归看变量,看影响。实验部分通过操纵内容模态和诉求类型,比较感官内容与非感官内容在不同呈现方式下的用户参与差异。
- 结论: 于数字感官诉求,单独图片比多模态更能提升用户参与;在真实 Instagram 数据中,单独图片感官帖最高可比图文帖带来 124% 更多参与。这个效果主要通过 transportation 实现,即单独图片让用户更容易沉浸到感官场景中,从而提高参与意愿。对于非感官诉求,单独图片没有同样优势,甚至可能比图文内容更弱。文章最后强调,社交媒体内容不是模态越多越好;当内容依赖用户的感官想象时,少即是多,尤其适用于面向有相关消费经验或忠诚用户的食品、饮品、香水、服饰等内容。
Liu, X., Lu, Y., Peng, Q., Qian, S., Peng, Y., & Shen, C. (2026). Seeing the Surreal: Mapping Surrealism in Photorealistic AI-Generated Images Using Large Language Models. Computational Communication Research, 8(2), 1.
查看笔记要点
- 研究问题: 从关注AI的图像生产能力、用户对AI图像的辨别能力。转向到这些AI生成图像中,超现实主义如何出现?具有何种类型?通过什么视觉元素表达?又如何体现出生成式AI时代的视觉逻辑。
- 综述脉络: AI生成图像研究的gap——超现实主义——算法超现实主义——将超现实主义视作算法中介视觉传播中的一种有意义的内容特征——提出问题,如何描述、分类此类内容?如何使用传统的监督/无监督路径和大语言模型理解路径进行分析。
- 理论框架: 偏向艺术理论的超现实主义(通过想象、梦境潜意识等来打破理性秩序的表达)。或者说应该说这篇文章有一个理论框架吗?或许只是通过一个理论抓手对现象进行拓展阐释?
- 方法: 从Instagram上47个AI图像创作者账号收集了28,290张图像,人工清洗后保留26,771张照片级真实AI生成图像。方法上采用大型语言模型辅助的混合研究框架,先通过人工标注和质性分析建立三类超现实编码本(分为:物理超现实主义、行为超现实主义、语境超现实主义),再用 GPT-4o 对大规模样本进行分类标注。之后,作者让GPT-4o为图像生成文字摘要,并将这些摘要用于LDA主题模型和主题网络分析,从而识别超现实图像中反复出现的视觉元素及其共现关系。
- 结论: 研究发现,超现实主义可以作为AI真实图像的显著特征,约66.9%的样本包含超现实主义,其中物理超现实最为常见。进一步分析显示,这些图像尝呈现混合型超现实,集中表现为诸多的视觉元素。在讨论中,作者认为算法超现实主义虽然拓展了视觉想象,但也有可能带来视觉同质化、刻板印象再生产、技术缺陷美化和政治误导问题,倒是比较老生常谈。
Peng, Y. (2021). What Makes Politicians’ Instagram Posts Popular? Analyzing Social Media Strategies of Candidates and Office Holders with Computer Vision. The International Journal of Press/Politics, 26(1), 143-166.
查看笔记要点
- 针对的问题: 依旧是彭老师的文章,实证脉络在于政治人物在社交媒体上的表达,视觉属性如何影响点赞和评论等受众互动行为?不同的政治信息如何有效地影响受众?方法脉络在于“视觉主题的识别”
- 综述脉络: 政客的个性化展演——由此派生的社交媒体互动和其政治意涵——个性化如何通过视觉媒介表达?——自我披露、拟社会互动——提出假设——方法
- 方法: 因变量是每条帖子的点赞数和评论数。使用计算机视觉识别并定类自变量,包括迁移学习加聚类来识别图片类型,K均值聚类后人工收束成四个类别。后再用使用 Face++ 进行人脸识别、面部大小测量和表情识别(情绪)。控制变量设置为了图像的美学特征、发布时间、政客人士特征、账号特征。统计上使用多层回归模型,检验视觉类别、是否出现政治人物本人面孔、面孔大小、积极/消极表情等变量对用户参与的影响。
- 理论框架: 个性化或自我个性化策略。其将个性化具体拆成私人化、露脸、情绪表达等视觉层面的操作方式,文章同时借了社交媒体病毒传播研究,认为情绪唤起、社会临场感和亲密感会提升用户互动。
- 研究结论: 研究发现,政治人物的大量 Instagram 内容仍然属于传统的“政治照常”类型,即会议、演讲、政府活动等专业/政治场景。相比之下,私人或非政治场景、出现政治人物本人面孔、面孔占比更大,以及表达情绪的图片,通常能获得更多点赞或评论。最重要的启发是:在视觉社交媒体上,政治传播的有效性不仅来自议题和立场,也来自政治人物如何通过图像制造亲近感、识别度和情绪连接。
Lu, Y., & Pan, J. (2024). Capturing clicks: How the Chinese government uses clickbait to compete for visibility. In Computational Political Communication (pp. 23-54). Routledge.
Deng, Z., Tang, Y., Wu, M., & Zhang, X. (2025). Investigating the effects of clickbait on user engagement in health communication: A mixed-method study. Information & Management, 104231.
查看笔记要点
- 针对的问题: 对于clickbait的作用效果是否被高估了?向前研究聚焦于对文本点击诱饵的句法分析,以及其直接对用户参与度的影响,因健康内容通常与个人利益相关联,因而进入到通过揭露其心理作用机制,即标题clickbait如何与用户点击及分享行为相关联。
- 综述逻辑: 在社交媒体平台上的点击诱饵现象——先前标题党如何研究对用户行为(点击和分享)及其结果——出理论(衔接比较差)——混合方法设计(比传播学的刊物综述逻辑要短一些)
- 理论框架: 自我意识理论,将用户反应区分为主观自我意识和客观自我意识两条路径。信息缺口会把用户注意力引向外部信息,激发好奇心和错失恐惧,从而促进点击。情绪强度则会让用户转向自我关注,担心他人如何评价自己的分享行为,从而产生预期负面评价恐惧并抑制分享。
- 方法: 设计非常复杂,一共四个研究,两个二手数据,一个半结构访谈,一个在线实验。第一个是收集了4500文章,用机器学习识别clickbait后直接跑回归;第二个是通过访谈提炼出clickbait具备的信息缺口和情绪强度特征。第三个是在在线实验,最后用二手数据再验证一遍信息缺口与情绪强度对电机和分享的直接影响。在操作化上好像比较在最开始的机器学习识别部分好像比较粗糙,就只要“标题明显夸张、诱导、非客观”就算。但在过了访谈后明显细化。
- 研究最终结论: 研究发现,健康传播中的clickbait具有明显的双刃剑效应。其能提高点击,但会降低分享。具体而言,信息缺口通过激发好奇心和错失恐惧促进点击,而高情绪强度通过激发预期负面评价恐惧抑制分享。文章还发现,数字素养会削弱信息缺口对好奇心和错失恐惧的影响,而信源可信度会强化信息缺口的点击促进作用,并缓解情绪强度对分享的负面影响。
Ceylan, G., Diehl, K., & Proserpio, D. (2024). Words Meet Photos: When and Why Photos Increase Review Helpfulness. Journal of Marketing Research.
查看笔记要点
- 针对的问题: 开门见山:附带照片的评论更有参考价值吗?如果是这样,当照片和文字传达的信息相似或不同时,消费者会觉得评论更有参考价值吗?其问题围绕人们在文字与照片中传达的信息之间的相互作用,以及这种相互作用对评论实用性的影响,即照片和文字内容之间的相似性如何影响信息处理的便捷性及其后续影响。
- 综述逻辑: 评论的价值,奠定研究的合法性——强调评论中图片的存在——基于理论,图片和文字的协调会影响其取效
- 理论框架: 更有用的评论更可能影响消费者的态度和行为,由此视为评论的有效性。因评论的多模态性质,综合考虑文本和图片如何共同作用以提高有效性,但首先考虑的是两种模态如何配合以促进取效,加工流畅会促进情绪愉悦,进而投射正向反馈到评论置上。
- 方法设计: 文章采用多方法设计,结合大规模二手数据、机器学习、人类判断验证和实验研究。首先使用Yelp上740万条餐厅评论和350万张图片,先用Google Vision API提取图片标签,再用Doc2Vec将评论文本和图片标签转化为向量,并用余弦相似度衡量图文内容相似性。再次让人工评审判断图文相似性,以验证算法测量是否与人类感知一致。之后作者又做了五个实验,检验图文相似性对评论有用性的因果影响、流畅处理的中介机制,以及文字难度和图片质量带来的边界条件。
- 最终结论: 研究发现,评论中加入图片总体上会提高评论有用性,但更关键的是,图片和文字内容越相似,评论越容易被认为有帮助。其心理机制为,图文相似提高了读者的信息处理容易度,而处理越顺畅,评论越容易被评价为有用。文章还发现,当评论文字更难读、图片质量更低时,图文相似性的正向作用会被削弱。也就是说,视觉和文本不是简单地越多越好,而是需要在内容上形成清晰一致且易处理的多模态组合。
Donati, D., & Fong, H. (2025). The cost of banning TikTok: Implications for the digital advertising market. Proceedings of the National Academy of Sciences, 122(38), e2512043122.
查看笔记要点
- Research Question: How a TikTok ban would affect the digital advertising market, especially whether advertisers would shift their budgets to other familiar platforms?
- Methodology: The two-week temporary suspension provided a natural experiment and a great sample for applying Difference-in-Differences (DID), comparing advertising activity in the United States with that in 32 unaffected countries. (This work serves as a perfect example to study and reproduce DID.)
- Theoretical Framework: There isn’t an explicit theoretical framework mentioned. However, based on the logic of platform competition or basic demand-supply theory, the authors aim to test whether TikTok and Meta function as substitutable advertising channels, and whether this substitutability varies by advertiser size.
- Core Findings: On the day of the TikTok outage, ad volume on Meta increased by 6.3% and ad spending increased by 22.4%, but ad impressions did not increase correspondingly. As a result, CPM ad prices rose by 12.1%. The substitution effect was stronger among large advertisers: their Meta ad spending increased by about 67%, compared with about 22% among smaller advertisers. This suggests that large advertisers were better able to shift their TikTok budgets to Meta. The authors therefore argue that a TikTok ban could further strengthen the market power of platforms such as Meta and impose higher switching costs on resource-constrained small businesses.
Al-Ali, M. N., & Hamzeh, M. S. M. (2024). Extra cues extra views: A multimodal detection of Arabic clickbait thumbnail verbo-visual cues. Discourse & Communication, 18(1), 3-27.
查看笔记要点
- 针对的问题: 哪些阿拉伯语 YouTube 缩略图会让人更想点进去,以及这些缩略图如何通过图文诱导制造虚假吸引力?如何识别识别缩略图点击诱饵中的视觉线索、语言线索和图文协同策略?
- 方法: 作者选取了 5 个阿拉伯语 YouTube 频道中的 100 张典型 clickbait 缩略图,并与视频内容进行对照,确认其是否存在误导或过度承诺。分析方法结合 Kress 和 Van Leeuwen 的多模态分析框架,以及 Hyland 的元话语框架,对视觉过程、构图、互动关系和标题语言策略进行编码分析。(其实不太算计算哈,不过综述有介绍此类方法和计算美学的分野)
- 理论框架: 理论上主要使用 Kress 和 Van Leeuwen 的视觉语法,分析缩略图中的再现意义、互动意义和构图意义。文本部分则使用 Hyland 的元话语理论,分析自我提及、态度标记、参与标记、前指线索、连接词等如何诱导用户点击。(具体见Reading Images:The Grammar of Visual Design)
- 核心结论: 具备点击诱饵性质的缩略图通常依靠负面动作、震惊表情、亲密视角、正面凝视、夸张符号、连续感叹号、连续省略号、emoji 和前指表达来制造悬念。点击诱饵缩略图并非单一的文字标题党,而是由图像、文字、构图和互动线索共同协作形成的多模态诱导机制。
Biyani, P., Tsioutsiouliklis, K., & Blackmer, J. (2016, February). " 8 amazing secrets for getting more clicks": detecting clickbaits in news streams using article informality. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 30, No. 1).
查看笔记要点
- 关于clickbait的一个机器学习模型,因此,文章的核心目标是构建一个机器学习模型,自动判断新闻流中的网页是否属于 clickbait。
- 对clickbait的概念化: 作者认为,其并不完全等同于垃圾网页、虚假网站或假新闻。常见的形式为:标题极具吸引力,甚至带有夸张、悬念、煽动或误导色彩,但用户点进去之后,正文内容质量较低,或者并没有兑现标题所承诺的信息。由于新闻推荐系统往往依赖点击率进行排序,clickbait 很容易因为高点击率而获得更多曝光,进而损害用户体验。
- clickbait的类型化: 将其分为八类:夸张型、悬念型、煽动型、格式型、猎奇型、诱导跳转型、模糊型和事实错误型。其具备不同的标题策略。例如,有些标题通过“你绝对想不到”“接下来发生的事”制造信息缺口;有些通过感叹号、大写字母、问号等格式制造强烈刺激;还有些则通过模糊表达或与正文不匹配的承诺诱导用户点击。
- 方法: 作者使用来自 Yahoo 新闻流的数据,构建了包含 1349 篇 clickbait 和 2724 篇 non-clickbait 的样本。模型采用 Gradient Boosted Decision Trees,并提取了多类特征:第一是内容特征,如标题长度、感叹号、问号、大写词、数字、积极/消极词、标题中的诱导性短语等;第二是标题与正文的相似度,因为 clickbait 往往标题承诺很多,但正文并不真正回应标题;第三是语言非正式程度,如可读性指标、正式度分数、俚语、脏话、重复字符等;第四是前指特征,如 this、that、he、she、the 等,这些词会把关键信息延后,制造好奇心;第五是 URL 特征,如符号、层级深度、大写字母等。
- 模型效果: 研究结果表明,模型在测试集上的加权 F1 达到 0.749,说明这些文本和结构特征确实能较好地区分 clickbait 与普通新闻。最重要的发现是:语言非正式程度是判断 clickbait 的关键指标之一,尤其是正式度分数、可读性等级、俚语、标题长度、大写、问号、感叹号等特征都具有较强解释力。相比之下,标题与正文相似度也有帮助,但单独使用效果较弱。不同类型 clickbait 的检测难度也不一样:夸张型和格式型较容易识别,因为它们常伴随明显的语言和符号特征;猎奇型、诱导跳转型和事实错误型较难检测,因为它们可能依赖图片、视频或事实核查,仅靠文本特征不足。
- 总结: 总体来看,这篇文章的贡献在于较早地把clickbait从概念讨论推进到自动检测层面,并提出了可操作的类型划分和特征体系。它对后续研究的启发是:如果研究视频封面或视觉标题党,不能只看标题本身,还应考虑标题与正文/视频内容之间的匹配度,以及文本是否通过非正式化、前指、夸张格式和信息缺口来诱导点击。不过,它的局限也很明显:研究主要基于英文新闻网页,且特征集中在文本和 URL,无法充分处理图像、视频和多模态线索,因此对于 YouTube 缩略图、短视频封面等视觉型 clickbait,还需要结合图像分析和多模态方法。
Cui, G., Chung, Y., Peng, L., & Wang, Q. (2024). Clicks for money: Predicting video views through a sentiment analysis of titles and thumbnails. Journal of Business Research, 183, 114849.
查看笔记要点
- 针对的问题: 现如今,越来越多创作者使用情绪化、标题党式视频封面来争夺点击量的现象,比如使用饱含情绪的图像作为封面。然而这些情绪化线索到底会增加观看量,还是因为太像点击诱饵而引发用户反感?
- 方法: 作者收集了 16,215 个 YouTube 视频封面,并在视频发布一周后抓取观看量作为因变量。方法上结合 OCR、YOLOv3、Emonet、VADER、CLIP 和负二项式回归,提取并检验文本结构、图像情感和图文匹配度作为自变量。
- 理论框架: 使用了认知图式理论、图像图式理论、两阶段视觉处理框架,以及好奇心缺口理论。其认为用户会先快速识别封面的显著视觉线索,再进一步处理情感意义和图文一致性。据此提出假设:情感倾向会影响观看量,情感强度会影响观看量(倒U函数),图文匹配度越高观看量越高。
- 核心结论: 缩略图中的强烈情绪会提高观看量,尤其是面部表情带来的积极或消极情感都可能吸引注意。相反,图中文字的强烈情绪、问句式标题和过度标题党化表达可能降低观看量,而图文匹配度越高,观看量越高。
论文
Shen, C. (2025). From Metrics to Insights: Computational Analysis of Visual Data in the Age of AI. Visual Communication Quarterly, 32(1), 83-84.
查看笔记要点
- A brief introduction that discusses some of the challenges in visual communication—particularly those related to computation and quantification—and how to address them
- First, we need to find meaningful benchmarks against which to compare and contrast thesevisual metrics.construct a baseline for compare the visual metrics
- We need to condense and combine low-level visual metrics into meaningful latent clusters and condense these metrics into a suitable dimension and create an appropriate encoding to run the regression.
- I have found it quite challenging to link existing quantitative metrics with traditional, purely theoretical approaches. How can we use these metrics to inform and advance theoretical frameworks? Which visual metrics and features extracted from images and videos can help us understand specific aspects of visual perception and narrative?
- This is very thought-provoking. With so many visual variables, it’s difficult to approach topic selection from a variable-based perspective; instead, we need to start from a theoretical foundation and consider which metrics can be effectively utilized.
Mustafa, H., Luczak-Roesch, M., & Johnstone, D. (2025). Conceptualizing the evolving nature of computational propaganda: a systematic literature review. Annals of the International Communication Association, 49(1), 45-60.
查看笔记要点