谷歌与Mozilla竞赛,疯狂收集人类语音数据

编者按:想要制造完美的语音助手,首先你得有足够大的语音数据库。谷歌与Mozilla都对此有清晰的认识,他们正在展开一场竞赛,收集世界各地不同语言、不同口音人们的语音片段。本文编译自FastCompany原题为“Google, Mozilla, And The Race To Make Voice Data For Everyone”的文章。

语音控制助手Siri、Alexa、Cortana、谷歌Home有多好,实际上是由驱动设备的数据决定的。训练程序,让它理解用户所说的话,需要许多许多真实世界的样本,也就是人类说话的样本。

正因如此,在竞争中老牌语音识别技术公司占据优势,因为它们积累了大量样本语音数据,可以用来训练算法。创业公司也想参与竞争,它们必须购买属于自己的语音和音频文件,可能是从现有档案中提取,比如从TED Talk实录中转化过来的300小时语料库。

卡耐基梅隆大学研究教授Alexander Rudnicky说,开发者要进入语音资料,这些资料长达几百或者几千小时。

上周四,谷歌开放一个众包全球语音记录数据库。里面有65000段1秒音频,包括全球各地用户所说的简单语音命令,比如是的、不是的、停止、前进等等。就在几周前,开发火狐浏览器的Mozilla也推出一个新项目,名叫Common Voice。它们的目标是构建一个免费使用的众包语音样本数据库,样本来自全球各地,人们所说的样本词汇和句子多种多样。

谷歌的记录是AIY人工智能项目的一部分,这个项目相当于DIY人工智能项目,有了它制作者用机器学习做实验会变得更容易。软件工程师Pete Warden在声明中介绍说:“我们创造数据的基础架构已经开放,希望能有更多的社区用它制作自己的数据,为那些服务不足的语言和应用创建数据。”

语音数据的容量超过1GB,谷歌收集了许多语音数据训练AI系统,本次开发的数据只是其中的很小一部分。谷歌还曾开放自动目录助手服务,它是谷歌收集人类语音数据的一种主要方法。

亚马逊Alexa将用户的查询声音上传到服务器,然后用数据对工具深入训练。苹果让Siri学习新语言和方言,它招募讲话者阅读特定文本短文,当服务将语音转化为文本时,苹果让人翻译音频段落。微软在全球设立模拟部门收集音频段落,用来训练Cortana数字助手。

所有这些都是悄悄进行的,学术专家、研究人员、竞争对手拿不到数据。正因如此Mozilla才会决定推出Common Voice项目。

Mozilla新兴技术高级副总裁Sean White说:“根据这些系统开发时,我们发现在算法领域我们可以站在其它人的工作成果之上开发,拿出自己的算法创新成果,然而管理数据、生成数据、聚合数据却是一大挑战。如果你想开发新的语音识别系统,想找到可以使用的高质量数据是一件很难的事。”

Common Voice邀请每一个人加入,只要能上网、有麦克风就可以阅读特定句子,将简短的语音记录提交上去,所有一切只需要在Web浏览器上点击几下、触击几下就能完成。谷歌的项目大体也是这样运行的,只是Common Voice要求大家提交完整的句子录音,而谷歌只要求提交特定单词或者数字,这些单词和数字在命令中经常使用。句子有的是贡献者提交的对话短语,还有引文,比如电影中出现的话语。Mozilla要求参与者提供一些基本统计信息,比如年龄、性别、所说英语的类型。

在最开始的57天里项目收集了30.7万段记录,每段语音长3-5秒。Mozilla开放创新团队首席策略师Michael Henretty说,记录加在一起相当于340-510小时的语音,

Michael Henretty说:“时长已经超过TED演讲,它是现有最大的开源数据库之一。”

今年晚些时候,Mozilla的目标是推出一个数据库,希望到时里面有10000小时的音频,按照公司的估计,如果数据的数量达到这样的水平,就可以训练高质量现代系统。谷歌刚刚开放的数据库只有18小时记录,Mozilla的数据多得多。

Rachael Tatman是谷歌数据科学平台Kaggle的一名数据准备分析师,今年她发表一篇论文,介绍了性别、方言对YouTube自动添加字幕的影响。她发现如果说话的是女人或者是来自苏格兰的人,字幕精准度会降低,使用的训练数据不同,不同系统犯的错也不同。

Tatman说:“如果我听到许多语音,这些语音是弗吉尼亚女人说的,那么我会很熟悉弗尼吉亚女人的声音,至于加州男人说的话精准度就会差一些。”

现有开源数据库都有自己的偏见,例如,有一个数据库叫作Swithboard会话数据库,它是德仪收集的,现在已经归宾夕法尼亚大学Data Consortium所有,这个数据库对美国中西部的语音存在偏见。在人工智能的其它领域,偏见数据也是一个问题,一些算法识别白人的脸很精准,如果非洲裔美国人在Twitter上用英文发消息,它们却难以理解;科技企业和开源项目对此很担心,它们希望服务多样化。

Mozilla还会邀请用户对提交的样本进行验证,他们要倾听样本,确保记录正确。

Tatman说,流行语音助手服务开发商大多没有开放内部记录并非全是因为竞争。有许多询问包含了个人信息,比如互联网搜索记录,发送的文本信息,它可能会泄露用户隐私。个体语音是有特点的,根据语音可以确定个体的身份。

尽管如此,企业愿意在内部使用数据:苹果之前曾说过,它会保留Siri数据,保留之时会将身份信息剔除,比如ID号码、邮件地址,保留时间最多2年,用来改进算法。

Tatman说:“你的语音是可以识别的,它是身份信息。”

Mozilla也在采取措施保护用户隐私,它收集开源语音数据。Mozilla说:“我们花了很大的精力将用户与记录分离,确保里面没有个人身份信息。”

Mozilla数据库相比现有公共记录(比如TED演讲内容)有一个优势:数据是在用户真正使用语音识别软件的环境下记录的,和Siri、Alexa设备的声音样本相似。

Rudnicky说:“从根本上讲,他们用浏览器收集数据,也就是说他们收集的数据会有不同的特点,这些特点能够代表目标用户,告诉我们他们是怎样的。我坐在办公室,拿起特殊麦克风,它可能是用于桌面环境的麦克风,以及类似的东西。”

在刻意的安排下,扬声器、口音多种多样,数据集的规模符合预期,这样一来收集的记录会比现有音频数据更实用,甚至可以与大公司自己使用的数据相提并论。

Henretty说:“我们正在努力编织一张尽可能大的网。”

原文链接:https://www.fastcompany.com/40449278/google-mozilla-and-the-race-to-make-voice-data-for-everyone

编译组出品。编辑:郝鹏程

发表回复