项目记录 #
2025年春季,开始上手第一个项目,即《建国以来主流媒体环境传播话语分析》,主要工作是对《人民日报》七十五周年以来的所有环境新闻报道进行内容分析并以此进行话语分析——类似于费尔克劳的三维话语批评方法。
讲一句老实话,在此之前的量化方法研究经验几近为零。但查阅导师所发送的几篇论文之后结合类似文章,发现其要求其实还行,只需要进行简单的描述性分析、历时性比较和交叉分析。于是就开干了,但在此之前,首先是数据的收集和处理。
原定数据于《人民日报》图文数据库(1946-至今)进行收集,使用了多种爬虫平台和手段,有些困难,最后在github上找到了1946-2003年的资源。(感谢大佬开源),但2003-2024的部分还是缺失了。在互联网世界晃荡了很久,最后在万能的淘宝上找到了数据内容,数据缺失很全面,唯一的缺点是内容部分还带一些所谓“数据库的水印”。
按关键词批量检索把“马克数据”、“马克小镇”巴拉巴拉诸如此类的关键词删除后,开始洗数据——使用的方法是按照环境传播的相关涉词汇——诸如“自然”、“环境”、“环保”、“绿色”等词汇,进行检索,在78年之后的报道中,文中少于7个词的直接打死,大于7个的算作环境新闻报道——最后看起来准确率还行。 但实际上在学理上来讲这是较为不科学的——更科学的做法是选取环境传播经典数据集,然后通过机器学习进行筛,但实在是不会,于是勉强使用前一种方法进行处理。
内容分析部分确实是困难大头,在这里卡了一个星期左右的时间——之前处理出的新闻数据有一万余篇。如按照传统检索进行泪目分析,简直逆天。
适逢同尚飞学习计算社会科学(CSS)的相关内容,开始在互联网上到处找寻相关的书籍、博客、网站、论文,啥都看,但是啥都没有看精,稀里糊涂到处乱转。 (感谢技术发展) 但还是突发奇想——哎卧槽deepseek这么牛逼,api这么便宜,能不能写个程序,然后接入api对每一行的新闻文本内容进行判定内容分析么。想出来之后感觉自己简直是是个天才。(但实际上,程萧潇,吴栎骞两位老师早就在2024年《全球传播学刊》发布过《生成式人工智能在内容分析中的应用及测量效度评估》,对人工智能进行内容进行了信度和效度的检验)
未完待续~
#Project records最后一次修改于 2025-03-17