同步推微信公众账号
同步推微信番鼠公众账号
手机客户端

深度科普:Siri是怎样找到自己声音的?

网易手机讯 9月18日消息,GM Voices公司在美国乔治亚州亚特兰大的一个富庶郊区阿尔法利塔(Alpharetta)生根发芽,正走上蓬勃发展的道路。这家录音工作室专营各种与声音有关的业务,制作企业培训视频的解说旁白、语音邮件系统的服务语音等产品,听起来不是多酷的高科技含量工作,但胜在稳定可靠。而且,对最善于表演的演员来说,这可是报酬优厚的营生。艺名“九月天”(September Day)的女演员就是个中高手。2011年某一天上午,她开始为这样一个特殊的项目工作。

九月天一头红发,那年37岁,已经是三个孩子的母亲。之前,她曾为许多小有名气的客户服务,如MTV、达美乐比萨饼(Dominos Pizza)和电视制作公司Nickelodeon。而对2011年这份工作,她几乎不大清楚具体情况,只知道GM Voices聘请她做一款“文字转发音”的产品,也就是让电脑用人类的语言发音读出一段文字。另外,她知道最好要用自己“20出头”那个年纪的声音。(她也能用十几岁时那种活力十足的嗓音说话,以前她就为电视购物节目推销的一款祛粉刺产品用过那样的声音。)

九月天秘密加入了这个项目,那时她生了女儿才四天(用九月天的话说:“旁白这活真是太棒了,谁也不会因为我穿着孕妇装就对我品头论足!”)可她还没有为此后会受到的刺激做好准备。

波兰一家从事文字转发音的公司Ivona制造了一种电脑处理的声音——“Salli”。它会安装于亚马逊的迷你版畅销阅读平板Kindle Fire。通过点击设置,用户就能听到Salli为他们朗读Kindle Fire上的一些图书。

九月天工作了八天,这期间不是读童话故事《爱丽丝梦游仙境》的一些段落,就是在念美联社报道的少许新闻,有时是随便说些句子。她尽可能平静地坐在椅子上,每天要干6到7个小时。她用不同的语气读了好几百个数字,就像这样:“1?1。1!2?2。2!”

“这就像是给《钢铁侠》录旁白,”九月天说:“我以前没有过那样的经历。要论录30-60秒电视预告片,我可是‘女王’级的。那是我的拿手好戏。”这次录到第四天,她不得不中断歇息下,因为嗓子已经嘶哑了。但后来九月天又斗志昂扬,读起来声音好似海滩拂过的微风那么轻快。

每一款Siri都有位幕后功臣——有一名演员坐镇音响室。那里环境闷热,呆久了真有要去洗澡的感觉。

随着语音设备的商业功用得到认可,九月天的这次工作经历已经成为越来越普遍的现象。语音装置再也不是新奇事物,也不是主打残障人士市场的产品。新一代语音装置——Siri、GPS系统和能将文字转化为发音的应用正在崛起。我们不难发现这类装置的必要性:在开车的时候,你没法用谷歌搜索引擎,所以你会要求自己的手机为你找自己想去的星巴克。如果在体育馆,你的RSS阅读器可以为你朗读财经新闻。谷歌、苹果、微软甚至亚马逊都大手笔投资语音服务。不少人预计,在科技的帮助下,我们就快要看到人机开始进行真正的对话。

每一款Siri都有位幕后功臣——有一名演员坐镇音响室。那里环境闷热,呆久了真有要去洗澡或者挠痒的感觉。演员一完成工作就可以回家了。但她的声音才刚开始走上旅途。这段从真人声到人造声的旅程属于一系列复杂技术工序的一个环节。十年前还不可能用上这种技术。可这也是我们作为社会人的一段历程,因为我们执着地期望建立关系,哪怕是和一些没有思维意识的物体。为了树立对自己机器的信任,我们必须开始抛弃怀疑,这涉及到一些“自欺欺人”的方法。

深度科普:Siri是怎样找到自己声音的?

绑架信风格

J. 布兰特·沃德(J. Brant Ward)是Nuance公司负责高级语音设计与开发的高级主管。他曾编过曲。为了用合成的声音编制语音,他创作过用于合成器的弦乐四重奏曲。沃德已经在硅谷的语音合成(TTS)行业干了十多年。

Nuance是全球最大的一家独立研究语音识别及文字转语音技术的公司。(语音识别有点类似于文字转语音的另一面——语音转文字。它是指,电脑在听到人说话以后将所说的内容转化为文本。)这家公司业务面广,其中包括向医疗保健业提供可用语音处理的临床资料,这意味着医生不必亲自在电脑上输入自己的工作记录,只要把内容说出来就行。Nuance也开发从平板到汽车各类设备的语音识别和文字转语音功能。

语音合成业竞争极为激烈,而且对外高度保密。

沃德与Nuance公司的高级设计负责人大卫·瓦罗特尔(David Vazquez)同属公司在美国加州森尼韦尔(Sunnyvale)办公的团队,这个团队为公司创造下一代合成声音。团队成员们将自己的作品称为“半是艺术、半是科学”。

合成业竞争极为激烈,而且对外高度保密。尽管外界普遍认为苹果掌上电脑所用的语音系统Siri就是出自Nuance之手,但如果问及此事,沃德和瓦罗特尔都会巧妙地换个话题。

这等于说,他们愿意至少从大的框架方面解释自己怎样创造声音。不必说,谁都不会一开始就录下字典上的每个单词。但如果你谈的是一款全面的语音应用,它可以朗读一切出现在你RSS订阅中的新闻报道,或者能用语音告诉你互联网上的查询结果,它就需要具备说出字典上每个单词的能力。

深度科普:Siri是怎样找到自己声音的?

沃德这样举例:“就比方说,你想知道离自己最近的花店在哪里,光这个国家就有2700万做花店生意的。你不可能把每个花店都记录在案。”

“这和找捷径有关。”瓦罗特尔补充道。他的胡子刮得很整齐,浑身上下散发着一种悠然自得的快乐气息。瓦罗特尔抽出一沓装订好的文稿,那是一份脚本。不过,它看起来可不像《哈姆雷特》剧本的台词,而是一种Excel文件式的方框,里面填写着奇怪的句子。比如:

抓着我脖子下面的领口,人类的那个部位曾经长过鱼鳃。

瓦罗特尔说,大多数句子都是挑选过的,因为它们“有丰富的发音”。也就是说,这类句子含有许多不同的音素组合。音素是构建语言发音的基石,如英语里的“猫”这个词“cat”就用到了K这个音。

“这些句子就像绕口令,”瓦罗特尔解释说。作为一名语言学家,瓦罗特尔用这种说法评价自己团队的工作对象,还称它们是“无逻辑推论”。

“重点是,我们得到的数据越多,它就越逼真。”沃德接着说。这些句子虽然缺少语境意义,但满是数据。

在用一位真人演员的声音记录一段脚本之后,真正艰难的任务就开始了,那是一段枯燥无趣的过程,可能要持续几个月。这期间要分析单词与句子,将它们编入目录,做成一个大数据库的标签,需要一批专注的语言学家承担复杂的工作,还需要独有的语言学软件。

这一切完成以后,Nuance的文本转语音引擎就可以查找合适的记录语音片段,将它们与那些在空中录入的其他语音片段组合在一起。这样创造出的单词与词组可能是原本录音的演员此前从未说的词语。但那很像是演员本人说话的声音,因为从技术角度看,合成的就是演员的声音。

让一台电脑组合成人类会发出的一种声音是项艰巨的任务。

这类组合声音的方法有正式的名称,叫做“单元选择”(unit selection)或者“语音拼接合成系统”(concatenative speech synthesis)。沃德说它“有点像绑架信”,可它只是像写绑架信的风格,把原句里的每个字母都抠下来,然后将散乱的字母拼贴在一起,组成新的句子。它是一种极其简单的方式,体现了我们怎样创造语言。

我们人类在学会写作以前就学会了说话。说话是无意识的。说归说,我们并没有考虑自己是怎样说出来的,当然也没去想重音、语调、音高、语速、舌位、音素之间的关系和无数让我们能畅顺无碍地有效沟通复杂想法和情感的其他因素有何细微变化。但为了让一台电脑组合成人类会发出的一种声音,所有这些因素都必须考虑到,用一位语言学教授的话说,这是项 “赫拉克勒斯的” 任务。(译注:用大力神赫拉克勒斯才能胜任的任务作比,以此体现显示任务多么艰巨。)

还是以“cat”这个词为例。这个词里有一个音素A。如果这个音节出现在单词的中间,比如“catty”,这个A的发音会和它置于单词开头略有不同,即“alligator”这个词的A音节读音就稍有变化。而在“catty”这个词里,A是重读音节,它听起来也有别于在“androgynous”这个词里作为非重读音节的读音。

构建句子还出现了其他挑战。对合成声音来说,即使是遇到预订机票这样的简单事,也绝非易如反掌。

瓦罗特尔又举了个例子:“如果你要问:‘您是想去旧金山还是纽约?’这句话的结尾要用升调。可如果是多选的问句,比如问‘是去旧金山、费城、还是纽约?’那就要在说到‘纽约’时换成降调。如果问话的时候把升调和降调弄错了,用户突然之间就会出现认知失调(他们听起来就会嘀咕:听起来好怪,哦对了,我是在和一台电脑说话,不是和人对话。)。”

其实,你不应该想着“我是和一台电脑对话”,根本就不该想这类事。

“我家的孩子和Siri沟通起来就和,一个有喜怒哀乐的人交流一样。他们会要求Siri为他们找东西,完全不晓得Siri和一般人有什么区别。”沃德这么说。

深度科普:Siri是怎样找到自己声音的?

黛西、我心爱的黛西,给我你的答复

早在18世纪就出现了合成人类声音的尝试,当时的科学发明家以簧片和风箱做实验,用它们制造元音。但早期最突出的科学进步还要属1928年贝尔实验室开发的声音合成机(Vocoder)。这种机器用电力传输一种代码形式的语音,二战期间盟军就使用了这款机器。声音合成机给作家阿瑟.C.克拉克(Arthur C. Clarke)带来了灵感。他在自己的科幻作品《2001太空漫游》(2001 a Space Odyssey)中塑造了一台神奇的语音对话电脑“哈尔”(Hal 9000)。这台电脑掀起的风潮影响到几十年后的流行音乐人,比如 Kraftwerk这样的德国电音乐团。

早期的机器人声音听起来就像机器发出的,因为它们全都是机器制造。

此后70多年里出现了许多语音合成领域的新进展:德州仪器公司(Texas Instruments)推出了Speak and Spell语音学习机,20世纪80年代问世的一些“霹雳游侠”(Knight Rider)式语音汽车(它们会发出“燃油位低了!”这样的语音提醒。)。这些车的声音是由物理学家史蒂芬·霍金(Stephen Hawking)编制的。

可那些语音和今天我们听到的语音还有些不同,前者太尖利,那种差异就如同代糖中的蔗糖素和纯天然的蔗糖。早期的机器人声音听起来就像机器发出的,因为它们全都是机器制造。在上世纪90年代末以前,真实人声会记录在计算机里,但计算机的能力还不够强大,无法进行串接合成,不能按分钟分解人声,再将分解后的声音编入目录,然后重新组合。你得编制一些语音参数,用这种方法让一台电脑说话。这种情况下,你就充当了合成器。

深度科普:Siri是怎样找到自己声音的?

“与人类复杂的发音技巧相比,那些机器很简单。人类的声音来自声带、鼻腔,在两颊中间漏出,穿过嘴两侧,在舌头周围回响,所有这些器官都受情绪影响……因此,这个发音源头自身并非一个清晰小方波发生器,它是靠器官振动发声。”语音合成公司Cepstral 负责工程的高级副总亚当·韦曼特(Adam Wayment)解释道。Cepstral 位于美国宾夕法尼亚州匹兹堡,自2001年成立以来推出了50多种不同的合成声音。

合成器制造语音的方式固然智能化,但与人声还相去甚远。在真正与自己的Speak and Spell聊天的时候,连小孩子都不会误以为在和真人对话。

到21世纪初,计算机的运算速度终于提高到了一定水平,能在巨型数据库搜索到合适的新词组合,企业得以开始制造自然发生的串接声音。几乎在同一时期,人工智能也得到开发,在语言方面,计算机可以做出越来越复杂的决定。比如说出英语的“wind”这个词的时候,你是要说“风在吹”这个句子里出现的wind,还是说“扭动线轴周围的螺丝”这句话里的wind?(译注:这两句话里wind一词的读音不同。)一个成年人会根据上下文自动判断wind的正确发音。而计算机就必须经过教导,了解相关的语境。

自个人电脑萌芽时起,文字转语音的前景就彰显无遗。苹果公司甚至在首台Mac电脑诞生时就提供了语音合成的阅读器。尽管如此,真正令机器语音需求暴增的因素仍然是移动技术与互联网的广泛应用。如果无需占用人的双手就能获取信息,这无疑是有吸引力的功能,在与语音识别技术结合使用时,这样的功能就特别吸引人。

意外的是,有一类人对语音合成并没有那么兴奋,他们就是配音演员。

只要留意下科技界的巨头们在干些什么,你就可以发现语音合成变得多么重要。在去年11月致股东的信中,微软首席执行官史蒂夫·鲍尔默(Steve Ballmer)强调了“自然语言翻译与机器学习”——语音支持的人工智能有多重要。这一领域已经发生了多起收购:三年前,谷歌收购了英国的语音合成公司Phonetic Arts,去年1月,亚马逊收购了波兰的文字转语音公司Ivona,也就是聘九月天为K indle Fire录音的那家公司。

科技界对语音技术的未来激动不已。而意外的是,有一类人对语音合成并没有那么兴奋,他们就是配音演员。没错,这些人的确提供了语音合成的原材料。他们相对淡漠的反应也许源于不了解这种技术可能产生的影响。虽然他们是演员,但像九月天或是承接过Nuance多项工作的女配音演员艾莉森·杜弗蒂(Allison Dufty)那样愿意公开谈论自己工作的人却少之又少。在保密协议的严格规定下,许多配音演员本人无法与具体的品牌和产品联系。一些有头脑的代理机构虽然与科技公司建立业务关系,但为保持竞争优势,他们的业务联系常常隐秘行事。由于配音演员掌握的信息不足,他们往往流于偏执。

网上开展配音业务的市场 ——Voices.com的首席营销官斯蒂芬妮·切卡莱利(Stephanie Ciccarelli)曾与人合著《傀儡配音》(Voice Acting for Dummies.)一书。她认为:“在我们这个行业,文字转语音就是个威胁。大家觉得,这种技术将取代人类配音演员。”

有位成功的配音演员曾为有声读物做过朗读,目前为富国银行(Wells Fargo)、NPR、AT&T等知名企业工作。收到记者问询的电子邮件后,这位演员礼貌却语气肯定地这样回复:“关于配音演员对语音合成的看法,我唯一可以告诉你的是,我们都认为它非常可恶……或许有朝一日,它会升级到3D动画目前可以达到的水平,但眼下,它几乎就是个笑话。”

语音控制的灭蟑螂喷雾

Nuance公司的沃德与瓦罗特尔也很兴奋,因为他们可以拿出成果,演示自己一直在开发的新技术。沃德解释说,Nuance可以将合成的语音片段与串接的语音编制在一起,这样生成的声音很自然,而且,要不了多久,他们也将能完全以合成方式制作一种听起来效果很好的声音。计算机的威力进一步提升,它创造的语音听起来已经完全不像人造的机器人声音。

但沃德又说:“它还会以真人的声音为基础。”即使是合成的声音也需要模仿的范本。

沃德和瓦罗特尔向我展示一种巧妙的绝技,他们能从一位演讲者的声音里提取语音的音质,然后如法炮制,提取第二个人的音质,再将两人的音质融合在一起。

第二天,两人展示了一款产品,它将一个语音RSS阅读器与一个智能的音乐搜索引擎结合:程序可以判断阅读的新闻是令人开心还是让人难过,然后根据乐曲播放后听众的感受及表现,选择一端适合的乐曲作为朗读新闻同时播出的背景音乐。

深度科普:Siri是怎样找到自己声音的?

两人牢牢抓住“个性化”做文章,他们的创意类似于,日后我们可能在Twitter上收到语音帖子,读帖的声音会来自发帖人本人,又或者只要使用语音识别和人工智能,今后只要我们一走入家中说一声“是我”,家里的恒温器就能调节到据它所知我们想要的温度。我告诉他们一则坊间流传的轶事,讲的是一位著名的小提琴家曾经造过一把可以喷洒灭蟑螂喷雾的座椅,一旦他吸了大麻就可以启动座椅的开关,用喷雾掩盖大麻的气味。

“对,你可以用语音识别喷些空气清新剂,这样你太太就不会知道你在抽大麻了。”沃德还这么说。

抛开所有这些笑话不谈,鉴于现有的技术水平,这种大众化的设想看似不太遥远。比如目前已存在像Nest这样的智能化家用技术,如果想让恒温器了解你喜欢什么样的温度,在你进出家门的时候自动调节温度。而Twitter的语音帖子也完全可以用发帖人的声音呈现: Cepstral近来创造了一种公益性质的语音合成式声音,它特别为眼盲的青少年定制,能以使用者在自己卧室的语音记录为依据,无需专业的录音就可以达到尚算体面的效果。当影评人罗杰·埃伯特(Roger Ebert)因口腔癌失去了自己的喉头之后,一家仅有12名员工的爱丁堡语音合成公司CereProc特别为他制作了一种声音。该公司计划很快推出类似的个人声音产品。接下来市场的需求无非就是,让你的语音合成阅读器为他人的声音提供渠道。

要是Siri这样的语音系统能了解用户的情感并相应做出反应,那就好了。

但即使虚荣心不能助推合成语音的发展(毕竟很多人其实不喜欢听到自己的声音),创造更好的合成声音也依然很有前景,因此我们运用科技会更有成就感。

明尼苏达大学语音、语言与听力学教授本杰明·芒森(Benjamin Munson)评价:“Siri很好懂,简单得难以置信,可我们还要突破一重壁垒,要让Siri传递情感与社会特性,它们对定期演讲非常重要。”芒森说,即便以最低水平估计,要是Siri这样的语音系统能了解用户的情感并相应做出反应,那也不错。比如遇到客户发怒,语音系统就可以像真人服务员可能做的那样,芒森指出,用抚慰人心的语气对待客户。合成所谓的“副语言学”(paralinguistics)、即我们通过语言沟通的社交信号难度很大,可他又提到,科研工作者已经开始着手这方面的研究。

CereProc的首席科技官马修·艾利特(Matthew Aylett)坦言:“我进这行的时候,语音合成市场大多如此(多为自动语音邮件系统)。要创造一种能真正以情感和身份沟通的声音,这样的设想根本不值一提。毕竟,如果你没有能力赚那么多钱,也不想让银行带着悲伤的口气读你的收支清单。”

艾利特认为,既然合成声音能读出博客发文,甚至能朗读Kindle上的全部图书,交谈设定日程,还能告诉你怎样抵达奶奶家,那就是时候让这类声音放弃不带任何情感的中立态度了。

“《星球大战》系列里的R2D2一直都是我最喜欢的机器人,”艾利特说,“他的声音听起来像个机器人,但很有个性,有饱满的情感,还带着讽刺的口气。我们设法创造一些有个性色彩的声音。”

我还在和Cepstral的韦曼特一个劲地讲语音控制灭蟑螂喷雾的座椅、能聊天的汽车,以及我的一个创意:让我的Twitter订阅以多位朋友异口同声的声音把内容读给我听。我问韦曼特,在未来的语音合成应用中增加人工智能有多重要。他回答:“很重要。”但接着又说:“可那或许不是你想像的方法。”

韦曼特透露,最近他和一位视力受损的客户交谈,对方问他:“你知道用一台微波炉有多困难吗?如果那些微波炉它们类型都不同,外形也不一样,你知道多难?”这样的疑问令韦曼特想到了人与微波炉全程交流的画面。他顿了顿,然后郑重地说:“我预计,连小设备都能和人对话的时代就要来了。可我们也在冒险,可能使我们的生活充满噪音。这还不足以让设备说话,它们必须说出我们需要什么、想知道什么。它们将必须具有洞察力。”

假如那些设备不具备那种能力,我就发现了新的商机,它是属于合成科学的。(若离)

发表于2013年9月18日 / 新闻 / 来源:网易新闻

0人赞过

分享到  

转载请注明 《深度科普:Siri是怎样找到自己声音的?》转自同步推资讯 | news.tongbu.com