扫码打开虎嗅APP
本文头图经海洛创意授权,未经允许,不得转载。
仔细分析腾讯财经发布的那篇由机器人写的文章“8月CPI涨2% 创12个月新高”,你会发现,它只是数据的罗列与预测,而没有更多的分析。
其实这是机器人最基本的写作能力,这种自动写作机器人早在几年前就诞生了,而自动写作最可怕的并不是这种基于大数据的算法而罗列的数字,而是有一天机器人真的具有了分析能力,而人类正在开发机器的这种能力。
以下文章全面描述和分析了国际上那些顶级新闻媒体应用自动写作机器技术的例子,这些应用实例告诉着人们“写作既是科学,也是艺术,似乎是最不能用自动化完成的事情之一。但它还是实现了自动化,而且程序算法还在迅速提高。”,文章摘自《机器人时代》一书,作者马丁•福特
2009年10月11日,洛杉矶天使队在美国职业棒球大联盟季后赛的较量中战胜了波士顿红袜队,将与纽约扬基队争夺联赛冠军,并获得进入世界系列冠军赛的机会。这场胜利让天使队格外激动,因为仅仅在6个月前,他们当中最有前途的球员和投手——尼克·亚登哈特(Nick Adenhart)被一名酒驾司机撞死。一位体育记者在文章开头这样描述了这场比赛:
天使队第九局一度落后2分,形势十分不妙,但弗拉迪米尔·格雷罗(Vladimir Guerrero)关键的一记安打使洛杉矶看到了希望,最终在星期天于芬威公园以7∶6战胜波士顿红袜队。
格雷罗为天使队拿下2分,4次击球,打出3个安打。
格雷罗在接受采访时说:“如果要纪念尼克·亚登哈特,还有阿纳海姆4月发生的一切,我可能会用(我的职业生涯中)这最漂亮的一击,因为我要将它献给我的前队友,那个去世的家伙。”
格雷罗在整个赛季的本垒表现都很出色,尤其是白天的比赛。在白天的比赛中,格雷罗的攻击指数达到0.794。他在白天的26场比赛中,打出了5个本垒打,拿下13分。
该文的作者可能不会马上就得到任何写作的奖项,但文章却仍是个了不起的成就:不是因为它可读性强、语法正确,或是对棒球比赛有着准确的描述,而是因为作者是一项计算机程序。
提到的这款软件叫作“StatsMonkey”,由西北大学智能信息实验室的学生和研究人员创建。StatsMonkey通过将一场特定比赛的客观数据进行加工,能自动编写出一篇体育报道文章。该系统不只是简单地罗列事实,它还融入体育记者同样会加入的各种关键要素。StatsMonkey通过统计分析,识别出比赛期间发生的显著事件,然后它会生成一篇自然的文章,总结出整场比赛的动态,同时还关注比赛的关键点和关键球员。
顶级新闻媒体都已采用自动写作技术
2010年,西北大学负责监管StatsMonkey计算机科学和新闻专业学生开发团队的研究人员筹集到了风险投资,并成立了一家新公司“自动写作技术公司”,欲将这项技术商业化。公司聘请了一批顶尖的计算机科学家和工程师,然后抛弃了原来的StatsMonkey计算机代码,建立了更强大、更全面的人工智能引擎,命名“鹅毛笔”(Quill)。
自动写作技术已被包括《福布斯》在内的顶级新闻媒体所使用,其自动生成文章涵盖各个领域,包括体育、商业和政治等。该公司的软件大约每30秒钟生成一篇新闻故事,其中很多发表在不想承认使用过该服务的知名网站上。在2011年的行业大会上,《连线》杂志作家史蒂芬·列维希望自动写作技术公司联合创始人克里斯蒂安·哈蒙德预测一下未来15年由程序写出的新闻文章的比例,他的答案是:90%以上。
自动写作技术公司将目光远远投向新闻行业之外。“鹅毛笔”被设计成一个通用的分析和叙述写作引擎,能够创作出一系列行业内外所需的高质量报告。“鹅毛笔”首先通过各种渠道搜集数据,包括交易数据库、财务和销售报告系统、网站,甚至是社交媒体等。然后开始分析,梳理出最重要、最有趣的事实和观点。最后,它将所有信息汇总成一篇连贯文章,声称能赶得上最好的人工分析师。
“鹅毛笔”系统一旦配置成功,能几乎在瞬间生成业务报告并能不间断提供,完全不需要人工干预。公司最早的支持者之一是中央情报局的风险投资商In–Q–Tel。公司的软件可能会被用来把美国情报机构搜集的原始数据流自动转换成容易理解的语言格式。
“鹅毛笔”技术向我们证明,曾经只有受过大学教育的熟练专业技术人员才能驾驭的领域在自动化面前是何等脆弱。当然,知识型工作通常需要各方面的能力。除此之外,分析师可能还需要知道如何从各个系统中获取信息,进行统计或财务建模,然后写成人们看得懂的报告和介绍。毕竟,写作既是科学,也是艺术,似乎是最不能用自动化完成的事情之一。但它还是实现了自动化,而且程序算法还在迅速提高。事实上,因为知识型工作仅仅使用软件就能实现自动化,所以在很多情况下,这些工作职位比需要体力操作的低技能工作更容易受到影响。
还有,写作也恰好是雇主们总是抱怨大学生能力不足的领域。最近对雇主所做的一项调查显示,约有一半新雇用的两年制大学毕业生和超过1/4的四年制学位毕业生写作能力较差,有的甚至阅读技能也很糟糕。如果智能软件真能如自动写作技术公司所说,比得上最有能力的人工分析师,那未来所有大学毕业生要实现知识型就业增长就更令人怀疑了,尤其对那些根本没有做好准备的人来说。
“鹅毛笔”只是众多新应用软件中的一种
“鹅毛笔”写作引擎是正在开发的众多新的应用软件中的一种,用以利用全球企业、机构和政府采集和储存的庞大数据。据估计,全球存储的数据总量现在要以上万艾字节测量(1艾字节=10亿千兆字节),而该数据还有自己摩尔定律似的加速增长,大约每三年加倍一次。几乎所有数据现在都以数字格式储存,因此可由计算机直接操作访问。仅Google的服务器每天就要处理大约24拍字节(1拍字节=100万千兆字节)的信息量,主要是数百万用户每天在搜索的信息。
所有这些数据都有多种不同的来源。单就互联网来说,来源就包括网站访问、搜索查询、电子邮件、社交媒体互动和广告点击等。企业来源包括交易、客户联系、内部沟通,还有财务、会计和销售系统的数据等。在现实世界中,传感器还会不断捕捉工厂、医院、汽车、飞机以及无数其他消费电子设备和工业设备的实时运行数据。
这些数据的绝大多数都是计算机科学家所称的“非结构化”数据。换言之,捕捉的数据以各种格式存在,往往难以匹配或比较。这与传统的关系型数据库系统有很大的不同,传统系统的信息行列一致,整齐排列在一起,使搜索与检索快速、可靠和精准。大数据的非结构化性质引领了专门用于理解各种渠道搜集的信息的新工具开发。
这个领域的迅速发展,至少在有限意义上,只是计算机开始染指人类独有能力的一个例子。毕竟,能够连续处理我们环境资源中的大量信息是人类特别擅长的事情之一。当然,不同之处在于,在大数据领域计算机能够规模化处理信息,而这对一个人来说是不可能的。大数据正对包括商业、政治、医学和几乎每一个自然与社会科学领域都产生着革命性的影响。
这一切的幕后操手都是大数据
无论对现在还是将来而言,日益增长的数据大山正越来越被人们视为具有开采价值的资源。正如石油和天然气等采掘行业从技术进步中不断获益,我们可以相信,计算能力的加速发展和软件分析技术的不断改进将使公司发掘出新的策略,带来利润的直接增加。事实上,大概是投资者对此的预期使得像Facebook这样的数据密集型公司产生了巨大的市场估值。
机器学习是计算机对数据进行摸索,然后将它发现的统计关系写成自己程序的一种技术,它是获得数据价值最有效的手段之一。机器学习一般包括两个步骤:首先对已知数据进行算法训练,然后用新信息来解决相似的问题。机器学习的一个普遍应用是垃圾邮件过滤器。Google的在线语言翻译工具最能证明机器学习能力,当它问世时也最为激动人心。它是通过分析和比较几百万页已被翻译成多国语言的文本,并采用一种可能叫作“罗塞塔石碑”(Rosetta Stone)的方法来工作的。虽然机器学习的方法有很多种,但其中最强大也最吸引人的方法之一是使用人工神经网络的技术,或是与人的大脑基本操作原理相同的系统。
大数据及伴随它的智能算法正对工作场所和老板们产生直接的影响,尤其是大公司,越来越多地对雇员的工作和他们的社会交往进行大量的评估和统计。公司比以往更依靠所谓的“人员分析”来雇用、解雇、评估和晋升员工,搜集到的个人及其所从事工作的数据量是惊人的。有些公司捕捉了每个员工键盘敲击的每个字。在无论员工知情与否的情况下,还可能搜集到他们的电子邮件、通话记录、网络搜索、数据库查询、文件存取、设备进出,以及无数其他类型的数据信息。虽然所有的这些数据搜集和分析最初一般是为了实现更有效的管理和员工绩效考核,但它最终可能被用作其他用途,其中包括开发软件将大多正在执行的工作自动化。
大数据革命可能会对知识型职业产生两个特别重要的影响。首先,在很多情况下,捕捉的数据会直接带来特定任务和工作的自动化。正如一个人可能会学习历史记录,然后通过具体任务的练习来了解新的工作,智能算法通过相同的方法基本也能做得到。例如,2013年11月,Google为其能自动生成个性化电子邮件和社交媒体回复的系统申请了专利。该系统的工作原理是首先分析一个人过去的电子邮件和社交媒体互动。在这个分析的基础上,系统会对未来的邮件、推特或博客自动编写回复,并且会带有这个人一贯的写作风格和语气。很容易想象,该系统最终会用于实现大量日常交流的自动化。
对知识型工作的第二点影响,可能也是更显著的影响是,大数据会改变公司及其管理方式。大数据和预测算法有潜力改变所有组织和行业的知识型工作的性质与数量。基于数据总结的预测将越来越多地替代人的经验和判断力。随着高层管理者更多地依靠自动工具产生的数据来做决策,因而对人员分析与管理部门的需求将不断萎缩。虽然今天有一批知识工作者为多个领导层搜集信息、做出分析,但可能最终只剩下一个经理和一个强大的算法程序就能完成了。各个机构组织可能都会压缩精简。中层管理将蒸发,而现在文职人员和技术分析师等很多岗位将会直接消失。
本文编辑整理自《机器人时代》。转载请联系微信公众号布谷传声(booggoo)。