扫码打开虎嗅APP
本文来自微信公众号:赛先生(ID:mrscience100),作者:Dana Mackenzie,翻译:严如风,责编:岭桐,题图来自:unsplash
一些企业和研究人员正在试图用计算机来读懂文字背后的情感:虽然情感分析产品还远非完美,但已经能够从大数据中提炼出一些东西,甚至在未来的某一天可以监控人类的心理健康。
很多人认为2020年是有史以来最糟糕的一年,虽然这样的描述可能过于主观,但有一份数据可以支持这个结论。
Hedonometer(译者注:Hedono是一个词根,意为愉悦)是一种计算机化的评估方法,检测我们的幸福与失落。它在佛蒙特大学的电脑上日复一日地运行,每天从推特上收集约5000万条推文,然后对公众的情感进行快速、粗略的解读。根据Hedonometer的数据,2020年是它自2008年开始记录以来最糟糕的一年。
情感分析已经有了多种使用场景。图片来源:pexels
50多年来,计算机科学家一直在研究如何使用计算机来评估单词的情感基调,Hedonometer是他们取得的比较新的进展。为了建立Hedonometer,佛蒙特大学的计算机科学家克里斯-丹佛斯需要教机器去理解这些推文背后的情感,毕竟人类不可能一一解读所有推文。这一过程被称为情感分析,已经在近年来取得了重大进展,并有了多种使用场景。
除了用来感知Twitter用户的情绪状况外,研究人员还利用情感分析来研究人们对气候变化的看法以及验证一般常识,比如在音乐中小和弦是否比大和弦更悲伤(以及悲伤的程度)等等。而一些觊觎客户情感信息的企业正在利用情感分析来评估Yelp(美国最大点评网站)等平台上的评论,也有一些企业正在利用它来感知工作中员工在内部社交网络上的情绪。这种技术也可能在医学上得到应用,例如识别需要帮助的抑郁症患者。
丹佛斯表示,情绪分析可以帮助研究人员分析大量的数据,而这些数据在以前很难被收集,过程也很费时:“在社会科学中,我们倾向于测量那些容易的东西,如国内生产总值,而幸福本身是一个很重要但很难衡量的东西。”
一、如何读懂你的话
你可能认为情感分析的第一步是教计算机理解人类在说什么,但这是计算机科学家无法做到的,理解语言是人工智能中最臭名昭著的难题之一。其实书面文字背后有大量的情感线索,即使不理解文字的含义,计算机也能识别情感。
最早的情感分析方法是单词计数,这个想法很简单,就是计算正面词的数量和负面词的数量。更好的办法是根据单词的含义进行加权,例如“优秀(Excellent)”比“良好(Good)”表达了更强烈的情感,这些权重通常是由专家配置的:将一部分情感分析中经常使用的词对应到情感的字典中,这一方法被称为词库法(lexicons)。
最简单的情感分析办法是词库法。图片来源:pixabay
但仅仅计算字数有其固有的问题,其一是忽略了语序,只是把句子当成了词的集合。此外计词法可能会遗漏一些来自特定语境的线索,比如这个产品评论:“I’m so happy that my iPhone is nothing like my old ugly Droid. (我很高兴,我的iPhone和我老旧丑陋的Android手机完全不一样。)”这句话有三个负面的词(“完全不一样”、“老”、“丑”),只有一个正面的词(“高兴”);虽然人类能立即意识到“老旧”和“丑”指的是不同的手机,但对计算机来说,这都是负面的。同时,比较的语境会带来更多的困难。“完全不一样”是什么意思?说话者到底想不想把两者做对比?语言在有些时候是令人困惑的。
为了解决这些问题,计算机科学家已经越来越多地转向更加复杂的方法,将人类劳动完全排除在这个过程之外。他们正在使用机器学习教应用程序来识别一些范例,比如单词之间的意义关系。例如计算机可以学习当“bank”和 “river”这两个词经常出现在一起时,“bank”会代表“河流”的意思,而当 “bank”和“money”出现在同一个句子中,那么它的意思可能就会是“银行”。
2013年机器学习在这方面取得了重要的进展,Google Brain的研究员托马斯-米科罗夫构建了一个叫做单词嵌入(word embeddings)的工具,这个工具将每个词映射到50到300个数字的列表,称为一个向量。这些数字就像描述一个词的指纹,可以描述它和其他词语出现在一起时的特征。
为了获得这些描述符,米克罗夫的程序整理了报纸文章中的数百万个词,并试图在给定前面一个词的情况下预测下一个词。米克罗夫的嵌入法可以识别同义词:像“钱”和“现金”这样的词有非常相似的映射。更巧妙的是,尽管这个工具实际上无法认清这些单词的含义,但它可以捕捉到一些基本的类推:例如国王之于女王就像男孩之于女孩一样。鉴于这种类推是美国高考(SAT)的考察范围,能够做到这样已经是一个了不起的成就了。
米克罗夫的单词嵌入是由一个具有隐藏层(译者注:将输入数据的特征通过一定的神经元结构转换至另一个维度空间,使之可以被合理分类。)的神经网络生成的。近年来,以人脑为松散模型的神经网络使机器学习取得了惊人的进展,其杰出代表就是AlphaGo。米克罗夫的网络是一个专门设计的浅层网络,可以用于翻译和话题分析等多种场景。
更深层的神经网络,有更多的“皮层”,可以在一个特定的句子或文件的背景下提取个别词语的情感信息。一个常见的参考任务是让计算机阅读互联网电影数据库(IMDb)上的影评,并预测评论者是给的好评还是差评。词库法最早达到了大约74%的准确率,往后更复杂的也只达到了87%的准确率;而最早的神经网络方法在2011年就取得了89%的得分,如今它们的准确率高达94%以上,这已经接近于人类的水平。然而幽默和讽刺仍然是很大的绊脚石,此时语言表达可能会与预期情绪相反。
尽管神经网络有诸多好处,但基于词库的方法仍然很受欢迎,丹佛斯也无意改变他的Hedonometer词库。神经网络在一些问题的结果上可能更准确,但它们也是有代价的,单单是机器学习的训练期就已经是电脑能运行最复杂的任务之一了。
“基本上,受限于你有多少电,”沃顿商学院的罗伯特·斯蒂恩说,他在《2019年度统计及其应用年度回顾》中介绍了情感分析的演变。“谷歌用了多少电来训练AlphaGo?我听到的笑话是,这些电足以煮沸海洋。”
除了电力需求外,神经网络还需要昂贵的硬件和一定的专业技术,而且机器学习的过程缺乏透明度,计算机是在自己摸索如何处理任务,而不是按部就班遵循程序员的指示。作为情感分析领域先驱,来自伊利诺伊大学芝加哥分校的刘兵教授也表示,用词库法更容易修正错误。
二、衡量心理健康
虽然情感分析通常属于计算机科学家的职权范围,但它在心理学中有着深厚的根基。1962年哈佛大学心理学家菲利普·斯通开发了General Inquirer,这是第一个用于心理学的计算机通用文本分析程序。20世纪90年代,社会心理学家詹姆斯·彭贝克开发了一个运用语言学调查和单词计数的早期情感分析程序,用于观察人们的心理世界。
这些早期的评估揭示并证实了专家们长期的观察,即抑郁症患者有独特的写作风格:例如他们会更经常地使用代词“I”和“me”,更多使用有消极影响的词语,言语里还会提及更多与死亡相关的词语。
抑郁症患者有着独特的写作风格。图片来源:Pexels
通过分析社交媒体帖子,研究人员正在探究言论和写作中表达的心理健康状况。丹佛斯和哈佛大学心理学家安德鲁-里斯分析了抑郁症或创伤后应激障碍患者在被诊断之前的Twitter帖子,他发现:抑郁症的迹象早在九个月前就开始出现了。Facebook有一个专门的算法来检测那些有疑似自杀风险的用户,并由人工专家来审查这些案例,如果有必要会向用户发送提示或提供热线号码。
然而,社交网络数据距离用于病人的护理还有很长一段路要走。隐私是一个明显的问题,此外还需要更多工作来证实有效性。西北大学的人本计算(译者注:一种结合计算机科学和社会科学的系统工程方法论)专家史蒂夫·钱斯勒,她是一份针对75篇此类研究审查报告的共同作者,认为许多评估心理健康的研究未能正确定义他们的术语,或者没有提供足够的信息来重复结果。但她仍然认为情感分析对医疗是有帮助的,比如可以对新病人进行分流。而且即使没有个人数据,情感分析也能识别出一些趋势,如新冠期间大学生的总体压力水平,或引发反复性饮食不规律的社交媒体互动类型。
三、读懂情绪
情感分析也在用于解决一些轻松的问题,2016年柏林马克斯·普朗克人类发展研究所的尼克·奥布拉多维奇分析了Facebook上约20亿条推文和Twitter的10亿条推文,研究了天气对情绪的影响。25毫米的降雨使人们的幸福感降低了约1%,而零度以下的温度使其降低了大约2%的幸福度。在一项后续的研究中,奥布拉多维奇及其同事通过Twitter来了解人们对气候变化的感受,发现了一些令人沮丧的结果。他们发现在连续五年全球变暖后,推特用户的一般意识发生了变化:他们不再在推特上谈论气候变暖。尽管如此,数据显示用户的幸福感仍然受之影响。“这就像温水煮青蛙,”奥布拉多维奇说,“这是我所做过所有论文中最令人不安的经验性发现之一。”
周一作为每个星期最糟糕的一天已然臭名昭著。尽管如此,丹佛斯的Hedonometer对推文的早期分析发现,星期二实际上才是人们情绪最低落的一天。当然,周五和周六是最快乐的日子,这自然无需多谈。然而在2016年美国大选之后,每星期的情绪模式发生了变化。虽然每周的情绪循环依然保留,但人们的注意力在此之外被其他事情所吸引,话题度甚至超过了生活的一般要素。丹佛斯表示:“在Twitter上,政治话题永不停歇,一周中任何一天都可能是最失意的一天。”
另一个受到验证的理论是,在音乐中,大和弦被认为比小和弦更欢快。印第安纳大学的计算社会科学专家安永烨通过分析12.3万首歌曲中每个和弦所伴随歌词的情感来测试这一理论,结果发现大和弦确实与快乐的歌词密切相关,在9分制中得分6.3分,超过小和弦的6.2分,虽然这个差异看上去微不足道,但在Hedonometer的计量维度上,是圣诞节和正常工作日之间情绪差异的也仅有0.2分。安永烨还比较了不同的音乐流派,发现1960年代的摇滚乐是在情绪上是最快乐的,而重金属相比是最消极的。
四、商业敏锐度
商业世界也在广泛使用情感分析,但许多公司并不会公开讨论,所以准确衡量其受众程度很难。刘兵介绍道:“微软、谷歌、亚马逊......每个公司都在做,有些公司还有多个研究小组。”一个容易获得的衡量标准是目前公开的商业和学术情感分析程序的数量。2018年的一项基准比较分析详细地介绍了28个此类程序。
一些公司使用情感分析来了解他们的用户在社交媒体上说些什么。有一个看起来天方夜谭的例子:加拿大航司Expedia Canada在2013年开展了一次营销活动,但反响事与愿违,人们讨厌广告中刺耳的小提琴背景音乐。Expedia很快就发布了一个新视频对旧广告进行自嘲,他们邀请了一位不满的推特用户砸碎了小提琴。人们认为Expedia是通过情绪分析获得社交媒体反响的。虽然这很难被证实,但这肯定是情感分析可以做到的。
其他有一些公司通过监测公司内部的社交网络,使用情感分析来跟踪员工的满意度。IBM开发了一个名为Social Pulse的程序来监控公司的内部网络,以了解员工在抱怨什么。由于隐私原因,该软件只查看了在整个公司公开的帖子。即便如此,这种趋势仍然困扰着丹佛斯:“我担心的是公司的底线逾越员工的隐私,这在道德上不是无可指摘的。”
随着情感分析变得越来越普遍,道德问题可能会成为下一个隐忧。企业、心理健康专家和任何其他考虑使用情感分析的主体都应该牢记,即便情感分析前途无量,但实现这一理想仍然是充满风险的。分析依托的数学知识是相对容易的部分,困难的实际上还是理解人类。正如刘兵所说,“我们甚至不明白什么是真正的理解”。
本文授权翻译自Annual Reviews 旗下杂志 Knowable Magazine,原文标题“How algorithms discern our mood from what we write online”,作者Dana Mackenzie,发布于2020.09.14。
本文来自微信公众号:赛先生(ID:mrscience100),作者:Dana Mackenzie