YouTube留言分析看美国大选

作 者

赵一横 雷诺兹新闻研究院 研究助理

李金璞 统计学专家

王逸清 机器学习工程师

李昨非 密苏里大学新闻学院 研究生

编者按

美国大选即将开票,选情依然扑朔迷离,多位在美国的学者跨学科合作研究,通过数据分析容易被国内忽视的美国社交媒体上的选情,并投稿给中国研究院微信公众号,特此刊发,以供参考。

“沉默的大多数将会投票给特朗普,因为特朗普讲的是真话。”(silent majority will vote trump, trump speaking truth.)”
这是今年首场美国总统辩论时,出现在YouTube直播聊天版中的一条留言。2020大选期间,这样无关事实只站立场的留言,在YouTube上逐渐成为主流。他们代表着美国的日益分裂,同时也向我们揭示了一个日益庞大且无法忽视的特殊群体:“YouTube 右翼”。
目前来看,这个群体的增长超出了很多人的想象。首场大选辩论期间,我们在YouTube开启实时聊天功能的直播中,抓取了27个观看人数最多的频道。这其中,有25个是支持特朗普的声音占据了主导位置,仅有一个偏向拜登,另一个基本保持中立。
当下的大选辩论,电视收看仍是主角,但流媒体观众比例正在不断上升。这其中,YouTube便是流媒体播放的主力军。从数量上看,YouTube是美国用户最多的社交媒体,有73%的成年人使用;从分布上看,YouTube的用户年龄分布、城乡分布都更平均,其用户画像最接近美国民众现实情况(注1、注2)
实时聊天板功能,英文名叫Live Chat,是YouTube在2014年上线的一个功能。内容上有点像国内视频平台的弹幕,但不会直接显示在视频上,而是在直播源右侧有一个单独的聊天窗口,方便观众随时互动。
在抓取到的114549(11万余)用户中,有63550(6万余)名用户(有效用户)在发言中提及特朗普或拜登。其中36864(3万余)名用户支持特朗普,占有效用户58%,占总用户数32.18%。支持拜登的用户有11239(1万余)名,占有效用户的17.69%,占总用户的9.81%。8737名用户同时反对两人,剩余6710名用户发言无法判断明显的支持对象。

 

详细结果见下表(根据平均观看人数排序):
 

YouTube留言分析看美国大选

红色为偏向特朗普的频道,蓝色为偏向拜登的频道,紫色为较两边支持者差不多的频道,灰色为平均观看人数不足一千的频道。

在2016年大选辩论中,各大主流媒体,例如纽约时报,CNN等都在辩论直播过程中开放了实时聊天这一新颖的功能。但我们注意到,这些主流媒体和左翼自由派媒体,在今年2020年选举中,从民主党初选辩论,到总统辩论的直播,都禁用了实时聊天板功能。这导致今年选举中,像特朗普自己的竞选账号,以及保守派自媒体占据了实时聊天榜单的前列。

 

当下的美国主流媒体中,为自由派发声的左翼媒体占据了多数。即便是其中偏向保守的福克斯新闻,在有些议题上也会持不同立场,时常引来包括特朗普本人的推特攻击。而很多保守派的支持者,他们便成了特朗普口中的沉默的大多数,迫切需要属于自己的发声平台,大量自媒体、播客应运而生,YouTube成为其中重要的平台之一。(注3)

 

与此同时,在主流媒体上占据压倒性优势的自由派政客们,在社交媒体上却是相对沉默的。2020年民主党初选四强:拜登、桑德斯、沃伦和布隆伯格,从宣布参选到4月8日桑德斯退选,初选选战期间,四位候选人共在其YouTube频道上发布了1406个宣传视频,其中拜登202个,桑德斯789个,沃伦297个,布隆博格118个。但除了桑德斯,其他三位候选人都选择禁用了视频的评论功能,布隆伯格更是连点赞、点踩的功能都禁用了。

 

即使在拜登正式被提名为民主党的候选人后所发布的广告里,允许评论的依旧凤毛麟角。“我就是来看评论的。”(I'm just here for the comments.)和“还有谁是进来看评论的?”(Who else are here for the comments?)成为拜登宣传视频中最多的评论。

 

从信息传递的角度来看,候选人在社交媒体上和民众互动,对选民的最终决策,乃至民主选举本身,或将有着重要的影响。以往的辩论直播,两党候选人是绝对的主角,信息自上而下单方面传播。即便算上媒体对其铺天盖地的报道,信息的传播也基本停留在单向维度。而社交媒体评论和实时天板等功能的出现,使信息传递的维度变得更加多元。选民之间也可以有充分的公开的交流。

 

研究过程中我们发现,大多数聊天都很简短,基本上就是一些单词和短语。高频评论包括“Trump 2020”、“4 more years”、“vote him out”。由于刷屏过快,观众甚至很难看清每条留言的内容,更不用说进行理性的讨论。但就是这些有别于传统表达的简短的表述,是选民情绪上的宣泄,寻求身份上的认同,这本身就是会对选民的选择产生影响。

 

辩论直播间里的一边倒只是一个缩影。此前,美国联邦调查局将支持特朗普的“匿名者Q”组织列为“国内恐怖主义的潜在对象”。该组织成员长期坚信,一个“深层国家势力”(Deep State)集团正在统治着美国,而特朗普是唯一能拯救美国的总统。一周前,YouTube以此为理由删除了大量支持特朗普的频道,其中包括我们本次研究中统计过的两个频道:拥有627万粉的RedPill78和21万粉丝的TRUreporting。在9月底的第一次大选辩论直播过程中,这两个频道的实时聊天板上,分别有5371人和1742人发表了留言。

 

“YouTube右翼”频道和支持者们仍在扩散,这也表明了,极端保守主义在美国仍然拥有着庞大的拥趸。

 

2016年,潜伏在黑暗中的“沉默的大多数”,让很多民调机构大跌眼镜,令人意外地送特朗普成功当选。本次对于YouTube实时聊天内容的研究,再度反映了特朗普仍然强势的基本盘,也一定程度上弥补了主流媒体调研中对亲特朗普群体的遗漏。

 

 

参考文献

注1:2020年第三季度,美国各年龄段网络用户,使用YouTube的比例。

YouTube留言分析看美国大选

注2:皮尤研究所2019年调研:YouTube用户城乡分布

YouTube留言分析看美国大选

注3:纽约时报:YouTube成为新极右派的广播中心

For the New Far Right, YouTube Has Become the New Talk Radio(Herrman, 2017)

附录:数据分析方法和分析过程

一.数据集

数据包含27个YouTube频道中,114549 名用户的550217 条实时聊天板发言信息。在研究过程中,所有用户均使用匿名化(De-identified)处理,隐去用户id。仅统计文本信息(text messages),不统计表情符号、图像等发言信息。

二.数据处理

1.大小写

所有文本信息转换为小写

2.标记(Tokenization)

将发言信息分组为信息元组:单词、数字等。使用R数据包 “tidytext” 去除英语非表意连接词,如 the、a等。

3.整合(Arrgegations)

(1)为修正拼写错误,所有起始字符为“trump”或“donald”的,分别记为 “trump”或“donald”。同样,所有起始字符“joe”或“biden”的记为“joe”或“biden”。

(2)“donald”和“joe”替换为“trump”和“biden”,以避免重复计数。

4.情感分析(Sentiment Analysis)

本研究使用情感分析法研究对候选人的负面情绪词。使用R数据包“tidytext”中的“bing”数据库作为负面词字典。此外,高频词中一些明显负向的词、或网络流行的候选人相关负向词也添加进了负面词典。

5.分组(Group Settings)

本次研究的目的是分辨出数据集中的用户,分别支持两位候选人的人数。因此我们将所有用户分为四组:

第一组:支持特朗普

第二组:支持拜登

第三组:反对特朗普

第四组:反对拜登

用户发表了对候选人的负面评价,将被标记为第三、四组:“反对特朗普”和“反对拜登”。用户发表了对候选人的非负面评价,将被标记为第一、二组:“支持特朗普”,“支持拜登”

6.数据校准(Corrections)

考虑到一些无法预计的错误,例如:拼写错误、无法辨识的网络流行词,我们使用随机抽样数据来校准可能产生的偏差。我们在完成分组的四组研究用户中,各随即抽选了50个名用户,审阅其发言并确认其分组是否正确。分组错误率最终计入最后的统计数据用来校准每组最后的人数。

7.最终支持者数据:

特朗普支持者=第一组+第四组;拜登支持者=第二组+第三组。

THE END
分享
二维码
海报
YouTube留言分析看美国大选
作 者 赵一横 雷诺兹新闻研究院 研究助理 李金璞 统计学专家 王逸清 机器学习工程师 李昨非 密苏里大学新闻学院 研究生 编者按 ……
<<上一篇
下一篇>>