2019-02-02 21:34

脑波直接转语音，史上最强读心术

量子位

本文来自微信公众号：量子位（ID：QbitAI），作者：晓查、安妮

不动口也不动手，该怎样与人交流？

靠眼神吧略显暧昧，靠第六感吧又不太靠谱，这道题有解么？

有，用万能的AI啊。最近，Nature子刊Scientific Reports上报道了一项新技术进展：监测一下脑电波，AI就能还原你听到的声音。

来，我们戳链接听效果展示。

你一定听出来了。没错，音频内容就是用英语从0念到9。研究披露，普通人理解并重复这些声音的准确率达到了75％，效果远超以往同类研究。

把大脑活动直接转化成语音，这项研究潜力炸了。

目前，系统只能恢复人类听觉区信号的简单词汇，但研究者最终想找到脑电波与语音的关联，让失去语言能力的人重新开口说话。

想象一下，失语的渐冻人或中风患者只要头戴脑机接口设备，就能将所思所想直接转化为文字语音。

不过，所有秘密也会随之暴露，谁让这是当代版最强“读心术”呢。

AI“读心”

这项研究来自哥伦比亚大学电气工程学院副教授Nima Mesgarani团队。他们在一系列实验的基础上，完成了这一研究。

△ Nima Mesgarani本人

实验开始前，研究人员选择了五名接受癫痫治疗的患者作为实验对象。研究人员采用植入性脑皮层电图（ECoG）方法进行测试。所以实验第一步就是，保证每个人脑中都已嵌入电极。

随后，5位受试者开启了听音测试状态，如同大学英语考试，两位女考官开始读单个数字。

这份“听力材料”的难度不大，内容范围就是从0~9这10个数字。女考官随机读出，前后共读了40个数。

受试者只需要坐在那里，通过脑机接口用模型重建语言信息，最后由电脑读出来。

那么问题就是，整个重建流程是怎样的？

在这个过程中，受试者接受到声音，经过耳蜗时声波信号被转化成了神经电信号，经过前庭神经传递给大脑处理。

大脑听觉皮层的神经网络此时开始活跃，神经电信号同时也被电极所接收。

研究人员收集这些不断变化的信号，提取其中的有效信息，也就是高γ包络（HG）+低频（LF）信号。随后，就该根据这些信号重建声音了。

研究人员用两种回归方法与两种重建的语音表示，探究两两组合情况下哪种重建方法效果最好。这样一来，整个重建过程就分成了四种不同的方法，分别是：

（浅蓝）线性回归+听觉图谱（Aud Spec），简称LAS
（紫色）线性回归+声码器，简称LV
（粉色）非线性深度神经网络（DNN）+（Aud Spec），简称DAS
（红色）非线性深度神经网络（DNN）+声码器，简称DV

这里的DNN架构由两个模块构成，即特征提取网络和特征求和网络。前者由全连接神经网络（FCN）与局部连接网络（LCN）构成，后者为一个双层全连接神经网络（FCN）。

△ DNN架构示意图

在评估测试结果时，研究人员找来了11位听力正常的志愿者，随机收听用四种模型组合重建的音频效果。如同大学英语4级听力一样，每个句子只读一遍。

最后，志愿者理解与复述所听内容，研究人员统计平均结果及平均意见得分（MOS）。

结果显示，非线性深度神经网络（DNN）+声码器组合（红色，DV）的还原度最高，志愿者的正确还原率达到了75%，且MOS得分最高，达到了3.4分。

此外，在志愿者对受试者语言性别判断中，DV的准确识别率也是组合中效果最好的，性别正确识别率达到了80%。

如果你对研究的详细内容感兴趣，可以看下他们团队已经发表的论文：

Towards reconstructing intelligible speech from the human auditory cortex

传送门：https://www.nature.com/articles/s41598-018-37359-z

困难亦重重

以上种种，都不是件容易的事。

“我们尝试搞清楚神经元在不同时间点打开和关闭的模式，并推断出语音。”Nima说：“这种映射关系并不是那么直接。”

脑电波转换成语音的模式因人而异，所以模型需要针对每个人单独训练。而且只有极其精准的信号才能得到最佳结果。怎么才能获得最精确的脑电波？

目前答案只有一个：开颅。

但是，能够打开头骨进行研究的机会非常之少。

要么是在切除脑肿瘤期间，外科医生需要读取脑电波帮助定位，避免术中伤及语音和运动区域；要么就是癫痫患者手术前几天，开颅并植入电极以确定引发癫痫的部位。

“留给我们的时间最多只有20、30分钟。”来自瑞士日内瓦大学的Stephanie Martin表示，收集数据的时间非常、非常之有限。

但，还有比开颅更困难的事情。

目前的进展，其实只是还原了一个人听到了什么，想更进一步怎么办？比如一个失语者想说点什么，这套算法还管用么？

加州神经学家Stephanie Riès表示，当一个人默默“说话”时，脑电波肯定与聆听时不同。没有与大脑活动相匹配的声音发出，计算机甚至很难理解大脑内部一段话开始和结束的时间。

而人类目前的技术水平，可能根本不知道如何才能做到这一点。

荷兰马斯特里赫特大学的Christian Herff提供了一个思路：

当你听到一个声音时，在大脑里迅速默念出来，只要对人类和神经网络充分的训练，或许AI最终能具备完完整整的“读心术”。

从大脑打字到大脑发音

自从计算机发明以来，人类一直希望实现脑机交互，也就是“脑后插管”。

在两年前的F8开发者大会上，Facebook现场演示了如何让一位渐冻症患者用大脑打字，速度可以达到每分钟8词。速度虽然不及手打，但对于残障人士来说是巨大福音。Facebook未来的目标是实现每分钟100词的速度。

国内也有神经科学团队在从事这项研究，去年量子位就现场体验了清华大学实验室的“意念打字”，控制屏幕软键盘上的26个字母就能打出任何语句。

去年，京都大学的科学家再大脑控制键盘的基础上再进一步，恢复了人脑中的图像。不仅仅是简单的符号，而是拥有多种颜色和结构的照片。

有了这项技术，以后就可以轻易地知道一个人曾经发生过什么事，去过哪些地方，甚至连白日做梦的场景都可以被读取出来。

但语音才是人类与外界沟通最主要的方式。哥大的研究如果真的迈向实用化，前途不可限量。

One More Thing

研究之外还有福利~

放出这项研究的同时，研究人员还开放了神经声学处理库Nap Lib，可用于表征语言神经网络表示的各种属性。

Nap Lib同时适用于植入性和非植入性设备，是脑电图（EEG）、脑皮层电图（ECoG）和脑磁图（MEG）研究中的通用工具。

Nap Lib简介:http://naplab.ee.columbia.edu/naplib.html

GitHub地址：https://github.com/Naplib/Naplib

本文来自微信公众号：量子位（ID：QbitAI），作者：晓查、安妮

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

AI原生产品日报

频道：前沿科技