播客:为什么现有的人体机器人需要学习润唇同步©Carl Strathearn

Podcast抄本:Carl Strapearn博士在现实的人形机器人上

阅读我们的文字记录科学关注的播客和卡尔·斯特拉森医生一起——往下滚动来听这一集。

杰森·古迪:您好,欢迎来到科学焦点播客。我是Jason Goodyer,BBC科学焦点杂志调试编辑。

广告

在本周的剧集中科学关注的播客,我和爱丁堡纳皮尔大学计算研究员博士博士博士。他目前正在对现实的人形机器人进行研究,特别是在更现实地同步他们的言语和嘴巴运动。

所以,是的,只是通过背景,一种大的谈话点或甚至可能在现实人体机器人的研究背后的驱动因素是这种所谓的不可思议的谷效果。

卡尔Strathearn是的。“恐怖谷”指的是机器人、类人机器人和CGI角色开始给我们一种可怕的感觉。原因是它们并不是人类的完美代表。因为他们从来没有真正做到。它们散发出恐惧、不安和不友好的感觉。这就是恐怖谷理论。

这是一种感知的下降,我们称之为活着和死亡之间的一点。从根本上说,这是一个僵尸在这两个和人形机器人和CGI角色之间的想法,因为他们具有僵尸的某些特性落入了恐怖谷。

杰森古蒂是的。那么现在心理学上的想法是什么,为什么人们会发现这些类人机器人而不是完全类人机器人。有点,有点可疑。有点令人毛骨悚然。

卡尔Strathearn我认为这是因为来自出生的东西,我们能够检测和分析面孔。并且面临在我们的沟通中起到这么重要的部分。当我们开始看到不应该出现的事情时,我们确实得到了屈服的感觉,我称之为负面反馈,就像它是不自然的反馈。

最近的一个争论是这也开始出现在面部增强手术中。所以人们的嘴唇会被增强。这可以被看作是恐怖谷理论的高级领域。如果我要制造一个机器人,它有这些增强功能,然后我说,‘我想让它尽可能真实’,人们可能会说,‘好吧,它看起来不完全真实,因为你增加了这些增强功能’。

还有。还有其他类型的恐怖谷。这不仅仅是外表。它的功能也是如此。物体运动的方式,机器人运动的方式,等等。如果一个机器人没有按照我们期望的方式移动。这又给人一种不自然和不安的感觉。

杰森古蒂我用地图集机器人看到过。我只是认为这真的很迷人。但是,研究人员有一个视频推翻他让他恢复平衡。而且,你知道,有些人在写评论,“哦,你知道,那件事将打开你。

卡尔Strathearn这纯粹是因为它看起来和行为都像人类。如果我们看到某个东西的外表和行为或任何类似人类的东西,我们就会自动开始假设它一定能够像人类一样感觉和思考,并拥有与人类一样的情感,而实际上它并没有。所以这是一种又一种驱动力。

杰森古蒂所以继续你在这方面发挥的角色。你专注于匹配面部运动来演讲。那为什么这很重要?为什么这在这种效果中发挥了如此重要的作用?

卡尔Strathearn这一切都始于恐怖谷理论恐怖谷理论的两个关键领域是眼睛和嘴巴。当我们交流时,我们的注意力在眼睛和嘴巴之间。我们通过看眼睛来获得注意力,我们通过看嘴巴来进行阅读和理解。

随着机器人,特别是,任何在自然唇部运动范围之外的东西,它们都可能会令人困惑和迷失方向。特别是如果你在一定时间内互动。显而易见的是最近的一个星球大战电影当他们做了一个CGI角色时,唇部同步有点关。但这就是这个项目开始的地方。

它从如何将在游戏中使用CGI动画的系统转换成一种叫做visemes的语言开始,也就是嘴唇的位置。我怎么能把这个软件应用到机器人上呢?这就是我开始的地方,真的。

所以当我第一次做这个项目的时候,我实际上是在动画系帮忙教学,因为我之前的大学没有机器人系。

这就是这些想法开始聚集在一起的地方,因为他们使用了一种叫做Oculus的程序,它基本上是把语言转换成一个CGI的嘴巴和嘴唇的位置。它会自动读取语音并提取口型我想用机器人做这个。

所以要开始,我创造了一个机器人嘴,机器人嘴在人口上被建模。但在我这样做之前,我看过以前的机器人口感,看看缺少的东西。这就是为了能够看到关键的肌肉,肌肉在一起的工作,可以遗漏什么,这是一个真正重要的。

并且显然这是一个非常小的区域,你被局限于你实际放入机器人的嘴里。失踪的关键事情之一是叫做Buccinator肌肉的东西,这是口腔角落的肌肉,而不是脸颊肌肉,它们用于在营造元音和辅音声音时追求和拉伸嘴唇。

所以我复制了这些肌肉,创造了机器人嘴的原型。然后我想,好吧,下一步就是创造一个应用程序,可以把这些唇形放进这个机器人嘴里。所以我们使用了viseme图表。这是CGI中经常用到的东西,在游戏设计中,基本上就是一系列声音,单词,声音和匹配的嘴型。

我让我的机器人做了这些形状。所以对于每一个Ahs, Rs和Oos——所有这些机械的口型。我把它们收集起来,保存到一个配置文件中,以便以后可以把它们拿出来使用。接下来的部分是如何创建一个可以处理语音的系统。

在之前的应用中,演讲是次要的。然后你把它放到应用程序中,它会读取文件。我想现场直播。没有足够的处理时间,因为如果你使用了处理时间,那么演讲就会变得不自然。你知道,在谈话中有很多停顿,这是不自然的。

所以我就这么做了。我发明了一种机器学习算法,我能够进行语音合成,这是一种像Siri和其他各种应用程序一样的机器人语音。把语音合成功能从笔记本电脑里拿出来,把它的一端放进一个叫微处理器的东西里,把音频数据转换成数字数据。其中一部分还回到了处理系统中。所以我可以看到声波就像你在录音棚里看到的一样。

然后我做的是我创造了一个机器学习算法,可以在传入的语音中识别模式。这不是通过监控讲话本身,而是通过波形中的模式来实现的。所以你要观察每个单词和每个声音的像素大小和长度,然后基本上给系统输入一堆样本。所以它知道自己在找什么。

当它碰到它的时候,它能够改变机器人的嘴系统使之与我在图表上匹配的位置相匹配,效果惊人地好。接下来就是我所说的声音模式系统也就是音节。所以很明显,当你说话的时候,你的下巴会上下移动音节。

这是创建这个图案系统的下一个阶段。如果没有声音,那张嘴就闭上,声音越大,机器人的嘴就越宽然后还有舌头的位置。所以我要把舌头的位置包括进去,然后我把它们都放在一起。看到工作真是太棒了。

当我们谈到恐怖谷。我想那是我第一次和机器人坐在一起。这很奇怪,因为,你知道,你看到所有这些奇怪的部分一起工作。一旦设定好系统经过训练,在唇形同步的某些方面是相当准确的。它非常准确。在其他一些地方则不然。但与现有机器人相比,它在评估中表现得相当不错。

杰森古蒂是的。所以对于那些没有看到他们的人,看到你的工作,你的机器人,我会说这是一个非常现实的头脑。还有一个老绅士的负责人,你是如何选择选择你房间的角色的?我只是发现真的很有趣。

卡尔Strathearn嗯,实际上有两个机器人在实验中。有一个老看一个和一个年轻的机器人,寻找的机器人并没有得到尽可能多的关注,因为我认为旧机器人看起来更加现实。但是他们有点像一个是一个是较年轻的旧版本。所以你有点同样的机器人。

当我正在进行测试时,因为口腔测试是更广泛的测试的一部分,这涉及许多不同的东西,如眼睛和人格。所以我想比较人们如何与年长的机器人和年轻的寻找机器人互动。我有两个样本组。我有一个老年人和年轻人的样本组。我发现的是,年轻人更喜欢与年轻机器人互动,老年人彼此互动与其他寻找的机器人互动。

还有个性。所以我设计了一个较老的人格,然后是一个较年轻的人格。所以我想,好吧,我还很年轻,所以我要在自己身上塑造更年轻的个性。这是我的兴趣,我想,我很了解我的父亲,他有点老了,所以我以他为榜样。所以我让小的那个对我感兴趣的东西感兴趣而大的那个对斯诺克和约翰·史密斯感兴趣。

杰森古蒂已经有任何类似的大学研究,这些大学是关于与这些机器人互动的公众或人会喜欢它们的样子。

卡尔Strathearn我对机器人不太确定。当然是在CGI角色中,但我实际上在这个主题上写了一篇关于设计机器人的纸张,我称之为人工智能,这是机器人的个性。它真的很迷人。实际上,还有一个名为Bina 48的机器人,它在某人身上被建模,它应该像船只一样表现出来。所以这就像一系列记忆和生活经历。

但就实际的学术研究而言,很少有无法继续。我现在开始真正意识到的一个有趣的事情是远离学术界进入私营部门。所以我们喜欢汉森机器人和索菲亚和索菲亚,甚至在英格兰,我们拥有工程艺术,他们有自己的机器人,人形机器人。在日本,他们拥有Geminiod系列和俄罗斯有一个名为Promobot的新一个,这再次是桌面助理和接待员和这样的东西的现实人形机器人。

杰森古蒂所以要进入你工作的具体细节。它有嘴唇牙齿,舌头,下颚骨,不同的面部驱动肌肉。那么它到底是由什么构成的呢?

卡尔Strathearn它都是3D打印的,因为它是一个快速的原型,它有很多不同的版本,整个系统都是3D打印的。但它的某些部分无法承受嘴巴一直工作的压力。我必须让它们在特殊的铝复合材料中CNCd,这是一种非常薄,非常轻的材料。

我想我最终希望做的是能够在网上发布所有这些开源的东西让人们知道,创造他们自己的原型并扩展这个系统因为,你知道,它它有很高的准确性,但它不是完全准确的。还有很多工作要做,因为我已经转移到其他事情上了。你知道,我有点被遗弃了。我想把它留给公众。工程师和机器人专家对这种扩展很感兴趣。

杰森古蒂是的。那么那样的设计过程是什么?喜欢你的起点和你的初步目标是什么?

卡尔Strathearn我的初步目标是,是尽可能地重复人口。并且语音合成很难处理,因为我们没有准确的语音合成。我不认为这是真的要真正的人,因为人类的言论是如此的变化。我认为这就是为什么我的系统很好地工作,因为在语音综合时,你可以控制但是用人类演讲,你不能。所以,如果我要说我的机器学习应用程序并尝试让机器人复制它,它就不会这样做。

语音合成是非常可控的。它不是完全受控的。但这是有限制的你可以在这些参数范围内工作以得到很好的结果。其中一个有趣的地方以及为什么我这样设计它的原因是因为我从我的经验中知道,以前的类人机器人,比如索菲亚,他们不会使用这种技术。它们只是随机的下颚运动来发出声音,有时它们做得很好,而且往往很快。

所以很难看清楚。所以当你做事情很快,演讲也保持正常的节奏时,就会有一点余地几乎可以欺骗人类的大脑。如果嘴唇的运动速度变慢,你就能看到,但是如果嘴唇的运动速度变快,你就不会太注意到。

我真的很想看看我能不能在这方面有所改进,所以。从我的研究中,我可以确定使用机器学习这样的东西更准确,而且绝对是做这些事情的方法,而不是随机的嘴唇动作和位置等等。

杰森古蒂你知道,真的。然后回到你所说的电子游戏中的CGI。我最近注意到我不知道你是否熟悉这款游戏,但我真的很喜欢《恶魔之魂》和《黑暗之魂》这两款游戏。他们最近对《恶魔之魂》进行了改进,这款游戏对于PlayStation 5来说已经很老了。

而且大大改善的事情之一是随着他们用嘴巴说话的同步。当它有点像它时,它们看起来比以前更自然。但我们没有,你知道,80年代电影或其他东西。所以不是我可以把它寄给我以前正在努力的东西。

卡尔Strathearn是啊是啊。这就是那个镜头上的钉子。但我还说我想在你在玩他们视频时,视频游戏第一次来看,你可能没有注意到,如果你确实注意到你有点思想,那就好了。这仍然很好。还是很好。但随着人形机器人,它是不同的,因为他们在你面前,他们在那里。

CGI的角色可以逃脱很多惩罚,因为当你面前的房间里有一个机器人时,它们就不存在了,这些东西藏起来的地方很少。这样你就能辨别出哪些是错误的哪些是不自然的。

这就是我学习中真正出现的事情之一是人们如何拥有这种内置的能力来识别不太正确的事情。And what you might think is a tiny thing can actually give the whole game away, especially when we’re considering another kind of model, an idea called the Multimodal Turing Test, which is also known the Westworld test, which is basically when you when you create a robot and it gets to the point where you can no longer tell the difference between the robot and the human, you know, things like that and what goes into that as well.

所以这是一种模型,表现为一个三角形,一个层级。你越接近顶端,当然,就越难得到这些细微的差别,这些东西,比如嘴唇同步,瞳孔扩张是我研究的另一个领域,机器人的瞳孔扩张。正是这些微小的细微差别在其中发挥了巨大的作用,因为这些细微差别泄露了游戏的秘密,比如面部抽搐之类的。就是这些细微的差别,我们甚至都没有意识到它们在谈话中很重要,而且突然变得至关重要。

杰森古蒂那种这种工作的潜在应用是什么?你知道,最终目标是什么。我们想用它做什么?

卡尔Strathearn我总是用Data from的例子星际迷航作为这一点的完美榜样,因为他的行为在很多不同的东西之间的这种非常人性化的界面,人与外星人之间的界面。显然外星人不会说英语,他充当翻译。但不仅如此,他也充当了计算机和一个人这样的事情的界面。

所以那些非常困难的事情,那些非常困难的计算,他能够转换这些信息并以一种非常简单的方式给出。而是一种人性化的方式,带着情感,带着面部表情,这就是为什么我认为这项技术最终会走向我的意思是,我们必须记住,没有人能够有效地与技术互动。

我认为,我们非常特权,以技术成长并能够使用技术。但是,世界上没有很多人,没有那个人,并创造像人形机器人这样的东西会让他们更自然地与技术融合。所以这是另一种使用。我总是认为数据示例是一个非常好的而不是终结者的东西。

杰森古蒂我只知道我知道我们看到的日本有一些工作。但是在这种类型的东西中不同语言之间有什么样的差异吗?

卡尔Strathearn是的,当然有。发音,甚至地区方言,比如我的约克郡口音,都是一个很大的因素。再说一次,我认为这就是为什么使用机器学习算法是可行的,因为这些是你可以训练系统的东西。所以,是的,非常有趣。这是一些,我想我以后会很有兴趣去研究的东西看看语言,方言,口音和其他东西的影响。

杰森古蒂那么你觉得,做这种事需要多长时间,做长远打算?当什么时候我们将会看到,就像你说的,一个接口说当我要有一个在我家里,可以说,我不知道,也许我老年人或残疾人,东西你知道,我不想说机器人管家,但你知道我的意思吗?

卡尔Strathearn好吧,你可能会运气,因为汉森机器人几周前宣布,他们是大众推出索菲亚机器人。所以这是他们的目标是2021/2022,开始推出这个索菲亚的模型,但我认为如何有用,这是争论的一种争议,因为索菲亚实际上是半自动,而不是完全自主的。

所以这将是她不能做的一定的事情。你要去为我思考。开始甚至考虑将这些人形机器人放在大规模规模的情况下,最早可能太早了,至少在他们自己和没有任何人类的援助之前直到他们开始做事。甚至那么,你仍然必须越过所有的伦理主义者。在AI伦理和机器人伦理方面有很多真正的工作。

所以,是的,这真的很难说。我认为这是很长的路。但与此同时,目前还有很多好的研究,这也在推动它。所以很难为你答案。

杰森古蒂是啊是啊。所以是的,这很棒。所以你刚刚提到之前,现在你继续前进到新项目。所以我只是想问你,你知道,你希望下一步工作的是什么?您未来三年的计划是什么?

卡尔Strathearn好吧,我现在就致力于我们称之为增强的常识语言模型,这基本上允许机器人使用某种程度的人类常识。所以一个例子是如果我有一个机器人和高效的系统,我会问它找到一支笔或桌子。它可以做到这一点,没有问题,因为对象识别,它可以识别一支笔。但是如果你如果笔在一个抽屉里,说,在厨房里,你要求它找到一支笔,它会花在寻找某些东西,但不会打开抽屉。

所以这种常识知识的概念会给机器人一些能力,让它们知道那些被关在衣橱里的东西,那些被关在衣橱里的东西,以及那些被遗漏的东西。所以它就像是语言和视觉的交叉。

这就像是我们的常识的交叉,我们称之为常识知识。这就是我现在工作的原因。我们目前正在开发一种机器人来帮助人们完成烹饪任务。它就像一个在厨房里使用的机器人厨师,但你可以问它一些事情,做一些你通常用亚马逊Echo做不到的事情。

如果你让它给你一个食谱或者帮你做饭,它会给你一个完整的块,把所有的东西都读出来。这更直观。它更像是一个信息提供信息跟踪者的构造,但也有很多常识知识库嵌入其中。所以你可以问很多问题比如我没有某种原料我可以用它来代替这个。


广告

无论你在哪里收听播客,都可以通过评论或评论让我们知道你对这一集的看法。