当我们的机器第一次开始对我们说话时,它是用儿童的简单语言。其中一些声音甚至是为孩子们设计的 - 我的Speak&Spell是一个带有手柄的盒子和一个小小的绿色屏幕,用刺耳的音调测试我的技能,但我仍然在梦中听到这种声音。 Teddy Ruxpin用盒式录音带弹奏的话语突然出现在他的背后,但是他的嘴巴正好以正确的韵律移动,这让他感觉几乎还活着。至少对一个孩子。

然而,对于成年人来说,20世纪80年代,90年代和早期的笨拙的计算机化声音远非真实。当火车的声音宣布下一站是切斯特港用两个词而不是“porchester”时 - 我们知道:*那是一台机器。*我们不知道纽约人将这个地方称为一个单词,而不是两个单词。这很简单:一个响起人类的声音就是一个人;听起来像机器的声音是一台机器。

当我们所需要的只是基本短语的公告时,这很好。但如果火车发生火灾,我们本能地希望听到人声引导我们 - 而不仅仅是因为它能平息我们的神经。这是因为,正如[研究表明] [],机械化的声音很难让我们理解任何比短句更长的声音。我们已经演变为阅读非语言的语音提示,同时我们倾听我们的同胞,当他们失踪时我们会分心 - 这种分心是让计算机化声音难以理解的原因。

如果要用Google智能助理取代助手(或我们自己),或者如果我们想与未来的Alexa进行真正的对话,它必须像人类一样交谈 - 回应口头提示并遵循节奏,音乐,并经常随心所欲的人类对话流程。换句话说,要对我们真正有用,我们需要计算机来发声。这非常困难。

什么阻碍了?韵律。这就是语调,语调,压力和节奏,使我们的声音成为他们独特的印记。这不是我们说的话 - 这就是我们说的方式。 “人声的秘诀在于旋律,”巴塞罗那庞培法布拉大学传播系教授艾玛·罗德罗说。罗德罗对非人类的声音进行了广泛的研究,并表示除了我们使用的实际词汇之外,还有很多内容,所以很难教一台计算机。

“语调是四种特质的结合:音调(最重要的),语速,强度和响度。我说话的时候可以做多种组合。 Siri不能,“罗德罗说,谁说她与语音工程师合作,并为他们提供了一系列与情绪相关的语调,包括快乐,悲伤和其中的一切。但是作为一台机器存在着固有的局限性 - 它们只能吐出我们所投入的东西 - 而且我们每个人都以各种方式独特。 “当你快乐的时候,你有很多方法可以用你的声音来表达这种快乐。问题是我们不能把它放到电脑里,“罗德罗说。 “这对工程师来说是个问题:算法有限,但我的声音不受限制。”

科技公司已经通过选择具有大量个性的人声来输入他们的人工智能 - 然后将它们组合在一起形成新的组合以形成语音 - 从一开始就已经解决了一些问题。当选择IBM Debater(一个旨在辩论人类的AI)的声音时,该公司举行了试镜并选择了20位配音演员。获胜者是通过IBM团队的主观判断来挑选的,他们问自己有关他们偏爱哪种辩论风格的问题:“我感动了吗?他或她说服了我吗?他们是否有适当的说服力和激情?“IBM的Andy Aaron说,他曾参与过Project Debater。

这只是创建Debater声音的开始:“我们从[我们的配音演员]收集了大约150,000个单词,这相当于20个小时的录音,”Ron Hooray说道,还有IBM的Project Debater。 “一个贴标人团队不得不花费大量时间根据重点进行注释,然后进行大量分析。然后我们把它分成音素,对于每一个,我们有很多元数据 - 音高是低还是高,持续时间等等 - 我们不得不提取语调。然后我们不得不做很多人工纠正。“他们还应用深度学习来使韵律正确 - 或者至少接近,Hooray说。

亚马逊Alexa演讲主管Manoj Sindhwani表示,亚马逊非常注重Alexa的韵律,并且还花时间寻找“具有反映Alexa角色的个性的正确声音 - 聪明,谦逊,乐于助人”。但这种声音将根据亚马逊称之为“语言环境”而有所不同.Alexa现在以六种语言讲话,其编程反映了14种本地化体验。 “我们选择一种新的声音,吸引我们的客户在该地区,确保声音反映Alexa角色\ [有],建立语言理解,帮助她理解可能因地区而异的语义和背景,并开发一个Sindhwani说:“本土的”个性“会给顾客带来惊喜和喜悦。”目标不仅仅是一种听起来自然的声音,而是许多声音,每一声都与它所服务的特定人群相匹配。

因此,我们现在和不久的将来听到的是人类的声音,由创造它们的人为我们选择:仅限语音的弗兰肯斯坦,主要限于重复您的购物清单。

Alexa的声音也被编程为上下文感知 - 它可以根据设置不同说话。 Sindhwani说:“我们利用背景使Alexa的决策变得更聪明......甚至超越了识别和理解单词。”这种根据语境改变口语风格的能力([听这里的例子] [])很重要 - 我们如何与父亲交谈,在演讲期间或我们的老板自然而然地变化。一个非常聪明的声音也应该这样做。亚马逊团队越来越近了:Alexa甚至可以理解它何时被低声说出来 - 并且会低声回复。

在虚假声音与真实声音严重竞争之前,我们仍处于这一优势。科技的喧嚣混搭仍然相对容易被挑选为虚假。 (这是一个有趣的方式[测试你的“它是人类吗?”] [测试你的人类]耳朵。)IBM的项目辩论者 - 在经典辩论风格的争论中鞭子聪明 - 只能辩论。 Alexa尽最大努力回应一般性对话,但是当它被超越亚马逊称之为“技能”的特定集合时就失败了。同样,Google智能助理也会回应“行动”。在任何一种情况下,它都落在了人类学习如何说话上到机器。

尽管如此,对于所有这些并发症,专家认为我们只是远离可以与人类交谈的计算机的一些突破。到达那里将解决许多技术问题,但将引入尽可能多的法律和道德问题。当谷歌去年第一次演示其新的双工技术时,这是一个了不起的时刻:谷歌助理的声音在它打电话时非常自然,并要求预约沙龙并预订晚餐 - 这两项任务经过深度培训后才能开展 - [观众很高兴......并且吓坏了] [观众很高兴并且吓坏了]。 Zeynep Tufekci是北卡罗来纳大学教堂山分校的一位研究科技社会影响的教授,他称之为“欺骗性”和“显然是错误的”[在推特上] []。她远远不是那个被电话另一端的匆忙的人类工人似乎不知道他们正在和一台机器说话这一事实感到不安的人。这是一个可能成熟的突破性滥用。

谷歌[说] []它将“设计此功能,内置披露,我们将确保系统得到适当的识别” - 并且在其最早的迭代(称为选择餐厅进行预订),它[似乎做所以][]。 IBM的Andy Aaron认为这是积极的一步。 “随着这些声音越来越好,系统不要欺骗你,这很重要,”他说。为了尽可能地发出像人一样说话的声音,“你想向听众传达一个信号,即它是一个机器人。”

[英文原文:为什么让计算机像人类一样谈论如此困难?](https://medium.com/s/2069/why-is-it-so-hard-to-make-a-computer-谈样一个人,690ff378eeee)