今年 I/O 上 Google 展示了对语言障碍者的最新计划,Project Euphonia 团队透过 AI 帮助语言障碍者也能进行沟通,过去像是渐冻人、中风、帕金森氏症等神经系统疾病患者在沟通非常有挑战性。
Project Euphonia 团队透过 Google 软体将录下的语音转成声谱图,或以更视觉化的图像方式来呈现声音,再利用声谱图训练系统,优化机器辨识这些非典型的语音资料。
近日,Google 在官方文章上再公布了最新的进度,新的深度神经网路研究,推出新的计划 Parrotron,Parrotron 由单个端到端深度神经网络训练而成,能将自非典型语音模式的说话者一般人与电脑较难辨识的语音,直接转换为流利的合成语音,且过程完全不需要另外生成文字,跳过语音辨识的中间步骤。
在今年 Google 东京举办的 AI 机器学习论坛上,Google 也在多个「AI for social good 」专案中,将 Project Euphonia 作为案例,表达出用科技让身障者能重新与世界连结的决心,过去自使用 Google Home 等语音助理对他们来说是遥不可及的。
Google AI 产品经理 Julie Cattiau 说明藉由新的语音辨识模型,语言障碍人士能透过此让机器听懂指令,也能用可辨识手势、眨眼等的电脑视觉模型,让语言障碍者更独立表达。
Google 在新文章中指出,Euphonia 已经建立了语言障碍者个性化的语音转文字模型,输出语音到 TTS 系统再从结果合成语音,将聋哑人士的单字错误率从 89% 降低到 25%,实现与 Parrotron 类似的目标。
然而,在这样的方法中,机器可能选择到不正确的单字产生具有其他含义的单字/句子,让沟通上产生误差。而藉由 Parrotron 端到端语音训练,即使出现错误,生成的输出语音在声音上听起来和输入的语音会更接近。
Google 找来患有失聪的工程师 Dimitri Kanevsky,他也是 Google 语音研究员,录製了15小时的语音资料库,透过 Parrotron 系统的帮助,不论是语音辨识系统还是人类观众,都更听的懂他的语句。
相较之下于过去的语音模型及数, Parrotron 是语言障碍的人士更精準的「传声筒」,在论文讨论关于 Parrotron 更多应用,在 Github 中也能找到其他音频样本,有兴趣的读者也能前往查看。
2月24日,小米公司正式在北京发布64GB全网通2.0手机——小米4S,此次4S无论在硬体设定还是外
「生」「动」「活」文化村──乐安邑城(摄影:洪书瑱)梅花虽是我们的国花,但邻近韩国的全罗南道却有一处
全罗南道顺天市仙巖寺 2018年对于全罗道来说,是相当特别的一年,全罗道将正式迎接历史的第1000年
根据美国求职网站 Glassdoor 统计,从 2015 年 3 月到 2016 年 3 月的年度总
CBInsights 和普华永道联合发表的 MoneyTree 2019Q1 报告显示,支付新创公司
早在他在对火箭的比赛里一人轰下11-0之前、在达拉斯街头打出令人震惊表现之前,甚至早在他出名之前,G