扫码打开虎嗅APP
以下文章来源于Giao数据。本文来自微信公众号: Giao数据(ID:GiaoData),作者: YaJie,题图来自:视觉中国
最近在知乎刷到几个蛮有趣的问题,诸如“网易云音乐里有哪些打动你的评论”之类,于是一时兴起,写了一个爬虫爬取热门评论来看看它们都传递了什么内容。
一、Top30热评列示
将热评按照点赞数由高到低进行排序,取前30条热评,这些热评点赞数均在50万以上,列示如下:
其实遍览这30条热评,笔者的心情也是跌宕起伏,刚刚还感动于人世间的美好与温情,下一秒就被玩梗的评论逗笑。整体来看,上述热评大致可以分为五类:
第一类是各种意外(将要)面临与亲人朋友的永别,这类故事最直击人心,不忍细读不敢琢磨;
第二类是歌曲原唱发表的评论,自带主角光环所以点赞数较高;
第三类是各种玩梗、抖机灵、神反转,让人觉得有趣;
第四类讲人生感悟、讲正能量、讲好消息,这类评论点赞数较多的话意味着大家都不吝啬赞美、为他人感到高兴、态度积极向上;
第五类专门给爱情分一类,暗恋、被拒、恋爱、分手、劈腿、结婚、离婚、终老,这些爱情里亘古不变、反复发生的话题与歌曲结合起来,经常带给你初恋般的愉悦,又能让你体会失恋时的悲伤。
二、热评都在讲什么?内容分析
词云分析
将点赞数大于500的评论进行分词,去除掉常见停用词[3],画出词云如下图所示。不难发现,单从词云看,热评内容可以分为如下几类:
第一类是情感的表达,如“喜欢”、“大哭”、“希望”、“爱”、“孤独”等,它们寄托了我们恋爱的感言、亲情的感动、伤心的感慨、成功的感激;
第二类关于歌曲本身,如“好听”、“歌词”、“一首”、“网易”、“音乐”、“声音”、“歌”等,表达了对歌曲的评价与喜欢;
第三类是回忆,如“想起”、“曾经”、“回来”、“记得”、“已经”等,共鸣的旋律、同感的歌词打开听者的心扉,尘封已久的记忆如同洪水猛兽袭来:过去的美好好像说不在就不在了。
特定词词频分析
我们对热评中某些特定词出现的频次进行了统计。
在亲属称谓方面,“妈妈”出现的频次最高,达到3929次;而“妹妹”出现的频次最低,为1118次。
这说明对于多数人而言,无论是人生中的挫折,亦或是日常的小欢喜,妈妈在自己人生中扮演着最重要的角色。
值得注意的是,“爸爸”出现次数排在“女朋友”和“哥哥”之后,这可能是由于传统的父爱表达方式与母爱不同,往往是低调地、无声地付出,更为含蓄和内敛[4],
因此父亲与子女间的感情更多在于相互体会、感受,在热评中的出现频率相对较少。
另外,“女朋友”出现的次数比“男朋友”更多,这是否在一定程度上表明广大男性同胞对于女朋友的呼唤和渴望强烈于女性同胞呢?
在心情方面,“开心”和“快乐”出现的频次大于“难过”、“哀伤”等代表消极情绪的词语,说明人们遇到快乐的事情更倾向于与他人分享。
在教育相关特定词中,“大学”可能给我们更多深刻的回忆,“高中”、“初中”也因为中学时代的纯真、美好让更多人提及。
在每个人的重要成长节点上,“高考”和“考研”被提及次数最多,备考的压力和焦灼的情绪让我们借助音乐得以释放和慰藉。
感情状况方面,“结婚”和“分手”作为“恋爱”的两个截然不同的结果,分别占据榜一榜二。
至于“结婚”出现的次数为啥高于“分手”,笔者抽了两支棒棒糖也没想明白为啥,可能是由于恋爱成功的先结婚,恋爱失败的先分手再恋爱再结婚吧(滑稽脸)。
“单身”作为“恋爱”的前奏、“分手”的结果,也经常被提及。“离婚”在现实生活中出现的比例本来就不高,出现的次数较少也符合常理。
另外,不得不说,这几个词汇之间错综的联系竟然和两性关系一样复杂难懂,笔者分析时也是不由自主地瞟了一眼窗外护眼的绿·叶。
热评情感分析
接下来对热评的情感进行分析并画出密度图。
图中评论分布的数量越多,密度图颜色越深,热评的情感评分越接近1,说明评论的情感越正向;热评的情感评分越接近0,说明评论的情感越负向。
从图中可以看出,大部分的评论情感正向积极,但也有一部分的评论情感倾向为消极。
这种现象可能是由于,首先,用户更愿意将自己快乐、积极的情绪进行分享;其次,人们更加愿意点赞一些正能量的评论,导致负向评论被淹没;另外,出于一些平台政策和相关规定,一部分消极的评论也不会被显示。
因此,可以认为热评的整体情感为正向,内容表达积极。
三、一条评论成为热评的影响因素分析
时间的作用
按照不同的年份将点赞数大于40w的热评进行统计得到下图所示小提琴图。
小提琴图结合了箱型图和密度图的特征,黑色盒型的范围是下四分位点到上四分位点,中间白点表示中位数,外部形状即为核密度估计。
从中位数来看,2014至2019年热评点赞数基本呈现下降趋势,这可能是由于评论发表时间越早,越有机会被更多人看到和点赞。
从分布上来看,2014年和2019年热评点赞数分布较为集中,而2015~2018年热评点赞数分布较为离散,特别是2017年,有着点赞数超高的离群值,点赞数接近157万的top1热评确实花落于此。
此外,网易云音乐也在2015-2018年进入了用户扩张期,这也可能是这几年内热评分布较为分散的成因之一,而2019年分布又相对扁平化了,这可能在某种程度上与网易近两年艰难的运营环境有关,特别是版权资源被打压的背景下,活跃用户数增长不容乐观[5]。
再看热评在不同年份和月份之间的分布热力图,颜色较深的部分代表热评分布的数量越多。
2013和2014年是网易上线的前两年[6],用户数量还没有起来,因此可能点赞数较高的热评总体上而言也较少。
从分布月份角度来看,每年7月到11月热力图颜色较浅,说明夏秋两季产生的热评数量相对较少,其中原因较为复杂,这里给出几点猜测:
一是用户层面,由于夏天人们较为懒散、秋天凉爽生活相对惬意,可能愿意点点赞的小手不愿意动了(滑稽脸);
二是季节层面,可能万物生长的春天和寒风凛冽的冬天更容易让人感性;
三是歌曲创作者层面,还需要数据去分析是不是歌曲走红的时间段有着季节性;
四是近期短视频等具有超高流量的移动端很容易带红一些歌曲,这种某种意义上给歌曲的引流时常成为热评诞生的不确定因素。
所在歌曲的热度
本文将所在歌曲评论数作为歌曲热度的度量指标,刻画出所在歌曲评论数与热评点赞数之间的关系,以探究所在歌曲的热度对热评点赞数产生的影响。
如下图散点拟合图所示:热评点赞数与所在歌曲评论数呈正相关关系,即在平均意义上而言,所在歌曲热度越高,热评获得的点赞数也越高,这是由于歌曲热度带来的流量会增加评论的曝光度,进而增加评论被点赞的几率。
评论者身份
大致浏览榜单可以看到,有一定比例的热评是出自歌曲创作者本人之手。因此,本文将不同区间热评中评论者为歌曲创作者本人的比例列示于下图。
可以看到,在点赞数大于80w的热评中,有15.8%的热评评论者是歌曲创作者本人。
之后,评论者为歌曲作者本人的比例随着热评点赞数区间的下降而减少,这可能是由于随着区间的下降,区间里热评的数量增多,导致分母变大,因此所占比例数值变小。
虽然从这一角度可以反映出热评点赞数呈现出金字塔形状,即点赞数高(大几十万)的还是少数,但总体而言,有相当一部分热评来自创作者本人,说明评论的“出生”也是很重要的呀。
四、结论
本文爬取了百万条评论数据分析了热评的内容以及一条普通评论成为热评的原因,得出如下结论:
第一,评论是听者情感的表达媒介,人们的经历在这里共鸣、悲欢在这里相通。
第二,一般意义上而言,所有的关系中“妈妈”对自己最重要、心情最重要的是“开心”、“大学”是很多人最美好的回忆、“高考”是多数人的人生重要节点、“结婚”在感情状况中最值得被提及。
第三,大部分的热评都是正向积极的情感表达。
第四,一个评论的命运啊,自身的内容有东西固然很重要,但也要考虑发表的时间进程、还要借助歌曲流量的助推,当然,有创作者本人的钦定是坠吼(最好)的!
参考资料:
[1] 数据爬取时间截止2020年5月3日。
[2] 23个歌单风格是指,流行、摇滚、民谣、电子、舞曲、说唱、轻音乐、爵士、乡村、R&B/Soul、古典、民族、英伦、金属、朋克、蓝调、雷鬼、世界音乐、拉丁、New Age、古风、后摇、Bossa Nova。
[3] 常见停用词表,来源于:
https://gitee.com/JohnRain/stopwords
[4] 父爱的含义,来源于:
https://baike.baidu.com/item/%E7%88%B6%E7%88%B1/4968023?fr=aladdin
[5] 网易云音乐8亿用户的背后,危机四伏!来源于:
https://www.sohu.com/a/333058829_115386
[6] 网易云音乐发展历程,来源于:
https://baike.baidu.com/item/%E7%BD%91%E6%98%93%E4%BA%91%E9%9F%B3%E4%B9%90/4453795?fr=aladdin
来自微信公众号: Giao数据(ID:GiaoData),作者: YaJie