首页 科技 正文

即使戴着口罩,AI也知道你在说什么,EMNLP 2020最好的论文。

萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

吃饭的时刻,想要和对面聊聊天,然则方圆闹热强烈热烈繁华的声音,让你根蒂不知道ta在说甚么?

又或,想与听障人士互换,然则对方听不见你的声音?

而今,检测脸部肌肉转变的AI来了,只要你动了嘴,哪怕没作声,它也能知道你在说甚么。

这是EMNLP 2020的最好论文,来自UC伯克利的两位作者,用AI和电极做了个“缄默语音”的检测模子,可以检测到你想说、但没说作声的话。

个中的道理事实是甚么,我们来一探事实。

用电极搜集你小声哔哔的证据

“无声语音”的素质,是人在措辞时脸部、颈部肌肉的转变。

说白了,你在对口型时当然没有作声,但你的脸和脖子“出卖”了你。

而可以或许检测“无声语音”的AI,也正是这么被做出来的。

在搜集数据时,研究者会先在尝试者的脸上等部位贴8个贴片,每一个贴片都是一个“看管肌肉转变”的传感器,像如许:

在这今后,需要录制一段尝试者的有声语音,并与肌电图进行对应,以下图(会录制两种语音数据,一种每句话4个词阁下,别的一种每句话16个词阁下):

这类方式可以或许将肌肉的转变环境、和语音的类型对应起来。

在纪录数据的历程当中,还要再录制一段“对口型”的肌电图,但不需要发声,也就是“缄默语音”。

之所以要搜集两份肌电图,是由于人在无声措辞时,肌肉的转变与发声措辞时的转变有些区分,例如部分发音部位的肌肉震颤幅度会变小,语速也有所转变。

但假如要在无声环境下,按照肌肉转变辨认出想说的语音,就只能用对口型时的无声肌电图。

明显,这些缘由使得AI的演习变得异常坚苦。

为了尽量将辨认正确率放大年夜,研究人员额外接纳了一种布局来下降模子损失落。

不到20小时的语音集,后果还不错

那末,颠末这类方式演习出来的模子,后果怎样?

研究人员划分在封锁词集(Closed Vocabulary Condition)和开放词集 (Open Vocabulary Condition)上,对这类模子进行了测试。

个中,封锁词集主要指介词、限制词、连词等辞汇(如of、and),这类词堆积合少,轻易演习,AI也轻易构成“肌肉记忆”。

而开放词集的局限,就要普遍很多了,包孕名词、形容词等等辞汇,今朝的词语可以说是不成胜数,想要让AI会认这些辞汇,难度就要高很多。

剖断的体式格局,是WER,具体的较量争论体式格局是如许的(道理近似于较量争论原句的失足率):

今朝,这个AI在封锁词集上的演习程度已到达了3.6%的WER(越小越好):

至于开放词集的检测,AI颠末演习后,WER也从高达88%的程度下落到了68%。

当然在开放词集上的检测,看起来后果其实不完善,但别忘了,这个模子所用的数据集其实不大年夜。

封锁检测数据集,一共只有不到1小时的语音数据;开放检测数据集,也只有18.6个小时的语音集。

而且,这些语音集照样无声、有声数据的合集。

不到20个小时的语音数据,演习后果就已到达了这类程度。

假如能获得更大年夜的数据样本,模子的后果还会进一步晋升。

作者介绍

一作David Gaddy,来自UC伯克利的NLP组。平常平凡的研究标的目标是无看管进修、语法申明和无声演讲。

Daniel Klein,一作的导师,研究标的目标首假如无看管进修、语法申明、信息提取和机械翻译。

One More Thing

这届EMNLP的各类NLP研究,切实其实不留生路:

来自北京中科院、北京信息工程学院的研究者,还发清楚明晰一种嘲笑检测模子。

这类AI模子会颠末历程同时检测文本和图象,进行多模态语义理解,从而检测出一小我在社交媒体上发出的动态,是不是有嘲笑的意思。

就像这句话:“这可真是场济济一堂的角逐,而且我们居然还抢到了位置。”

外面上,这是句再正常不外的话,然则在配上图片后,画风马上变得诡异了起来:

又例如这句话:“看起来就好吃极了。”

然则当看到散落在盒子边缘的芝士和馅料时,明显这又是一句布满嘲笑意味的语句。

而今,这些语义信息都已被拿来喂给了AI,并演习出了一个“晓得听嘲笑话”的模子。

今朝这个模子,已在推特如许的社交媒体上进行了验证,获得了84.33%的好后果。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.lcvip.net/kj/1852.html