对口型机器人离穿越恐怖谷又近了一步©卡尔·斯特拉森

对口型机器人离穿越恐怖谷又近了一步

研究人员结合了语音合成、机器学习和3d打印技术,创造了一个能够精确模拟人类下巴、嘴唇和舌头自然运动的机器人。

博士卡尔Strathearn,爱丁堡纳皮尔大学计算学院的一名研究员对BBC《科学聚焦》的委托编辑Jason Goodyer讲述了他对现实类人机器人的研究。

广告

什么是恐怖谷理论?

“恐怖谷”指的是类人机器人和CGI角色开始给我们一种诡异的感觉。原因是它们并不是人类的完美代表——它们从来没有完全达到人类的标准。因此,它们会释放出恐惧、不安和不友好的感觉。

从出生起,我们就能检测和分析人脸。而脸在我们的交流中扮演着如此重要的角色。当我们开始看到不应该在那里的东西,不应该在那里的东西,我们会有排斥的感觉。不仅是外观,功能也很重要。比如机器人移动的方式。如果一个机器人没有按照我们期望的方式移动,这又会给人一种不自然和不安的感觉。

机器人头是用CAD设计的,然后3d打印©Carl Strathearn
机器人头是用CAD设计的,然后3d打印©Carl Strathearn

你的工作重点是将面部动作与语言相匹配。为什么这在其中扮演了如此重要的角色?

恐怖谷理论的两个关键领域是眼睛和嘴巴。当我们交流时,我们的注意力在眼睛和嘴巴之间。我们通过看眼睛来获得注意力,我们通过看嘴巴来进行阅读和理解。特别是对于机器人来说,任何超出自然嘴唇运动范围的东西,都会让我们感到困惑和迷失方向。特别是如果
你们在一定的时间内相互作用。

这个项目是如何开始的?

当我第一次做这个项目的时候,我实际上是在动画系帮忙教学,因为我之前的大学没有机器人系。这就是这些想法开始汇聚的地方。他们使用一种叫做Oculus的程序,这种程序主要接收语音,并通过嘴唇的位置将其转换成CGI的嘴巴。

因此,它可以自动阅读语音,并提取出嘴唇的visemes(一种用来形成特定声音的唇形)。我想用这个机器人来做这件事。所以,我以人类的嘴为模型创造了一个机器人嘴。

但在此之前,我研究了以前的机器人口腔系统,看看缺少了什么。这是非常重要的,能够看到哪些肌肉是关键的,哪些肌肉是协同工作的,还有哪些可以从嘴巴里出来。

显然,这是一个非常小的区域,你只能把什么东西放进机器人的嘴里。我发现其中一个关键的东西是缺失的颊肌,这是嘴角的肌肉,不是脸颊的肌肉,当我们发出元音和辅音时,它们是用来噘起和拉伸嘴唇的。所以,我复制了这些肌肉,创造了一个机器人嘴的原型。

阅读更多关于机器人的信息:

软件部分从何而来?

我想,“好吧,下一步就是开发一种应用程序,可以把这些唇形放进机器人的嘴里。”所以,我们使用了viseme图表。这是在游戏设计中经常用于CGI的东西——基本上它是一个声音列表和匹配的嘴巴形状——我让我的机器人做出这些形状。对于每一个音——Ahs, Rs和Oos——我都有这些机械的口型。我把它们收集起来,保存在一个配置文件中,这样我以后就可以把它们拿出来使用了。

下一步是创建一个能够处理语音(而不仅仅是简单的声音)的系统。但我想现场直播,所以没有处理时间的空间,因为如果你使用处理时间,演讲就会变得不自然,因为对话中有很多巨大的停顿。所以,我创造了一种机器学习算法来进行语音合成,这是一种像你在Siri上听到的机器人语音,从笔记本电脑到一个微处理器,把音频数据转换成数字数据。它的一部分也进入了一个处理系统,所以我可以看到声波,就像你在录音棚看到的那样。

你能告诉我更多关于这个系统是如何运作的吗?

我发明了一种机器学习算法,可以识别传入语音中的模式。这不是通过监控讲话本身,而是通过波形中的模式来实现的。所以,你要观察像素大小,每个单词和每个声音的长度,然后给系统输入一堆样本。

这样它就知道自己在找什么了。当它遇到(它熟悉的声音)时,它能改变机器人的口型系统,使之与我在图表上匹配的位置相匹配。这种方法出奇地有效。

下一件事是我所说的声音模式系统,它与音节一起工作。显然,当你说话的时候,你的下巴随着音节上下移动。这就是创建这个模式系统的下一个阶段,这意味着如果没有声音,嘴就会闭上,声音越大,嘴就越宽。

卡尔·斯特拉森博士和机器人头©卡尔·斯特拉森
卡尔·斯特拉森博士和机器人头©卡尔·斯特拉森

你是如何选择机器人的外观的?

实际上,实验中有两个机器人,一个看起来比较老,一个看起来比较年轻。年轻的机器人没有得到那么多的关注,因为我认为老的机器人看起来更真实。但我制作它们的想法是,一个是另一个的年轻版本。所以,你有相同的机器人。

我想比较人们是如何与一个看起来较老的机器人和一个看起来较年轻的机器人互动的。我发现,年轻人更喜欢与年轻的机器人互动,而老年人则更喜欢与另一个看起来更老的机器人互动。

我还赋予了他们个性。我想,好吧,我还很年轻,所以我会把年轻的性格建立在我自己身上。我很了解我爸爸,他有点老了,所以我以他为榜样。我让年轻的机器人对我感兴趣的东西感兴趣而年长的机器人对斯诺克和约翰·史密斯感兴趣。

那么,这种工作的潜在应用是什么呢?

我总是用《星际迷航》中的数据作为一个完美的例子,因为他表现得像一个非常人性化的界面在很多不同的事物之间:人和外星人——显然外星人不会说英语,所以他充当翻译。但他也充当了船上电脑和人之间的接口。

所以,对人类来说非常困难的事情,比如计算,他能够翻译这些信息,并以一种简化的方式,人性化的方式,带着情感,带着面部表情。我认为这就是这项技术最终的发展方向。

广告

我们必须记住,不是每个人都能有效地与技术互动。我认为,我们很荣幸,在科技的陪伴下成长,并能够使用它。但世界上有很多人没有这种能力,所以创造一个像人形机器人这样的东西会让他们更自然地与科技融合。