谷歌与Mozilla竞赛，疯狂收集人类语音数据

编者按：想要制造完美的语音助手，首先你得有足够大的语音数据库。谷歌与Mozilla都对此有清晰的认识，他们正在展开一场竞赛，收集世界各地不同语言、不同口音人们的语音片段。本文编译自FastCompany原题为“Google, Mozilla, And The Race To Make Voice Data For Everyone”的文章。

语音控制助手Siri、Alexa、Cortana、谷歌Home有多好，实际上是由驱动设备的数据决定的。训练程序，让它理解用户所说的话，需要许多许多真实世界的样本，也就是人类说话的样本。

正因如此，在竞争中老牌语音识别技术公司占据优势，因为它们积累了大量样本语音数据，可以用来训练算法。创业公司也想参与竞争，它们必须购买属于自己的语音和音频文件，可能是从现有档案中提取，比如从TED Talk实录中转化过来的300小时语料库。

卡耐基梅隆大学研究教授Alexander Rudnicky说，开发者要进入语音资料，这些资料长达几百或者几千小时。

上周四，谷歌开放一个众包全球语音记录数据库。里面有65000段1秒音频，包括全球各地用户所说的简单语音命令，比如是的、不是的、停止、前进等等。就在几周前，开发火狐浏览器的Mozilla也推出一个新项目，名叫Common Voice。它们的目标是构建一个免费使用的众包语音样本数据库，样本来自全球各地，人们所说的样本词汇和句子多种多样。

谷歌的记录是AIY人工智能项目的一部分，这个项目相当于DIY人工智能项目，有了它制作者用机器学习做实验会变得更容易。软件工程师Pete Warden在声明中介绍说：“我们创造数据的基础架构已经开放，希望能有更多的社区用它制作自己的数据，为那些服务不足的语言和应用创建数据。”

语音数据的容量超过1GB，谷歌收集了许多语音数据训练AI系统，本次开发的数据只是其中的很小一部分。谷歌还曾开放自动目录助手服务，它是谷歌收集人类语音数据的一种主要方法。

亚马逊Alexa将用户的查询声音上传到服务器，然后用数据对工具深入训练。苹果让Siri学习新语言和方言，它招募讲话者阅读特定文本短文，当服务将语音转化为文本时，苹果让人翻译音频段落。微软在全球设立模拟部门收集音频段落，用来训练Cortana数字助手。

所有这些都是悄悄进行的，学术专家、研究人员、竞争对手拿不到数据。正因如此Mozilla才会决定推出Common Voice项目。

Mozilla新兴技术高级副总裁Sean White说：“根据这些系统开发时，我们发现在算法领域我们可以站在其它人的工作成果之上开发，拿出自己的算法创新成果，然而管理数据、生成数据、聚合数据却是一大挑战。如果你想开发新的语音识别系统，想找到可以使用的高质量数据是一件很难的事。”

Common Voice邀请每一个人加入，只要能上网、有麦克风就可以阅读特定句子，将简短的语音记录提交上去，所有一切只需要在Web浏览器上点击几下、触击几下就能完成。谷歌的项目大体也是这样运行的，只是Common Voice要求大家提交完整的句子录音，而谷歌只要求提交特定单词或者数字，这些单词和数字在命令中经常使用。句子有的是贡献者提交的对话短语，还有引文，比如电影中出现的话语。Mozilla要求参与者提供一些基本统计信息，比如年龄、性别、所说英语的类型。

在最开始的57天里项目收集了30.7万段记录，每段语音长3-5秒。Mozilla开放创新团队首席策略师Michael Henretty说，记录加在一起相当于340-510小时的语音，

Michael Henretty说：“时长已经超过TED演讲，它是现有最大的开源数据库之一。”

今年晚些时候，Mozilla的目标是推出一个数据库，希望到时里面有10000小时的音频，按照公司的估计，如果数据的数量达到这样的水平，就可以训练高质量现代系统。谷歌刚刚开放的数据库只有18小时记录，Mozilla的数据多得多。

Rachael Tatman是谷歌数据科学平台Kaggle的一名数据准备分析师，今年她发表一篇论文，介绍了性别、方言对YouTube自动添加字幕的影响。她发现如果说话的是女人或者是来自苏格兰的人，字幕精准度会降低，使用的训练数据不同，不同系统犯的错也不同。

Tatman说：“如果我听到许多语音，这些语音是弗吉尼亚女人说的，那么我会很熟悉弗尼吉亚女人的声音，至于加州男人说的话精准度就会差一些。”

现有开源数据库都有自己的偏见，例如，有一个数据库叫作Swithboard会话数据库，它是德仪收集的，现在已经归宾夕法尼亚大学Data Consortium所有，这个数据库对美国中西部的语音存在偏见。在人工智能的其它领域，偏见数据也是一个问题，一些算法识别白人的脸很精准，如果非洲裔美国人在Twitter上用英文发消息，它们却难以理解；科技企业和开源项目对此很担心，它们希望服务多样化。

Mozilla还会邀请用户对提交的样本进行验证，他们要倾听样本，确保记录正确。

Tatman说，流行语音助手服务开发商大多没有开放内部记录并非全是因为竞争。有许多询问包含了个人信息，比如互联网搜索记录，发送的文本信息，它可能会泄露用户隐私。个体语音是有特点的，根据语音可以确定个体的身份。

尽管如此，企业愿意在内部使用数据：苹果之前曾说过，它会保留Siri数据，保留之时会将身份信息剔除，比如ID号码、邮件地址，保留时间最多2年，用来改进算法。

Tatman说：“你的语音是可以识别的，它是身份信息。”

Mozilla也在采取措施保护用户隐私，它收集开源语音数据。Mozilla说：“我们花了很大的精力将用户与记录分离，确保里面没有个人身份信息。”

Mozilla数据库相比现有公共记录（比如TED演讲内容）有一个优势：数据是在用户真正使用语音识别软件的环境下记录的，和Siri、Alexa设备的声音样本相似。

Rudnicky说：“从根本上讲，他们用浏览器收集数据，也就是说他们收集的数据会有不同的特点，这些特点能够代表目标用户，告诉我们他们是怎样的。我坐在办公室，拿起特殊麦克风，它可能是用于桌面环境的麦克风，以及类似的东西。”

在刻意的安排下，扬声器、口音多种多样，数据集的规模符合预期，这样一来收集的记录会比现有音频数据更实用，甚至可以与大公司自己使用的数据相提并论。

Henretty说：“我们正在努力编织一张尽可能大的网。”

原文链接：https://www.fastcompany.com/40449278/google-mozilla-and-the-race-to-make-voice-data-for-everyone

编译组出品。编辑：郝鹏程

谷歌与Mozilla竞赛，疯狂收集人类语音数据

相关

发表回复取消回复

相关

你可能也喜欢

苹果临时改变屏幕设计或致 iPhone 6 上市面临供货紧缺

未来中国应如何监管比特币？

基于浩瀚SEA架构打造，smart精灵#1预售19-23万元 | 一线车讯

发表回复 取消回复

发表回复取消回复