微软与浙大开发出新AI模型解决语音助手卡顿问题

雷锋网消息,在 12 月 8 日至 14 日于温哥华召开的机器学习顶会之一 NeurIPS 2019 会议上,微软和浙江大学研究人员介绍了文本-语音模型 FastSpeech,该模型可大幅提升文本语音转换过程中梅尔谱的生成速度,语音生成速度比基线快 38 倍。

论文的最后,研究团队也提到,未来将把 FastSpeech 和速度更快的声码器组合成单一模型,提供完全端到端的文本-语音解决方案。

当然,“要以开放的心态推动5G产业发展的国际合作。5G技术的全球产业链、供应链、价值链是高度融合,是全球化大潮下各国交流合作的产物,是国际社会共同的高科技创新体,我们应鼓励中外企业界和科技界以更开放的态度,推进5G产业和科技的国际合作与交流。”

研究团队表示,FastSpeech 的质量几乎与谷歌的 Tacotron 2 文本-语音模型相当,在稳定性上轻松超过主流的 Transformer 模型。同时,与基线的 34% 有效错误率相比,FastSpeech 的有效错误率为零。(但不可否认的是,其稳定性测试只涉及 50 个语义复杂的句子) 此外,FastSpeech 能在保持准确度的前提下,将生成的语音速度从 0.5 倍变为 1.5 倍。

“对于车联网、工业互联网这写行业重点标准的研究、规范行业的接口数据,更有效的互联互通这方面的标准以及不同产品和应用系统之间的互换互认。另外也要高度重视安全的标准,5G有它的巨大优势,但这个巨大优势大的高速率、低延时、广连接,一旦出问题这个影响也不得了,所以安全问题绝对不能忽视,这方面要做好工作。”张晓强说,“当然,检测认证构建涵盖技术、产品、服务等方面的测试评估体系,对市场主流产品逐步开展标准和测评,发布质量分析报告这些工作都要跟上。”

雷锋网原创文章,。详情见转载须知。

速度慢:端到端模型通常以自回归方式生成梅尔谱,再通过声码器合成语音,而一段语音的梅尔谱通常能到几百上千帧,导致合成速度较慢; 稳定性差:序列生成的错误传播及注意力对齐不准,会导致出现重复吐词或漏词现象; 缺乏可控性:自回归的神经网络模型自动决定一条语音的生成长度,不易控制语速或韵律停顿等。

近年来,西北五省区检察机关积极探索跨区域检察协作。其中,甘肃省检察院与青海省检察院就做好黄河上游、祁连山生态环境司法保护工作加强合作。甘肃省甘南藏族自治州检察机关与青海省玉树藏族自治州、四川省阿坝藏族羌族自治州检察机关联合建立黄河源头生态环境保护协作配合机制。

与其他文本-语音模型相比,FastSpeech 模型架构较为独特,且有着更佳的性能(其梅尔谱生成速度比基线快 270 倍,语音生成速度比基线快 38 倍)。不仅如此,它还能够避免了单词跳过等错误,还支持精细调整语速和单词中断。

更为重要的是,FastSpeech 包含长度调节器,可协调梅尔谱序列和音素序列(即感知度不同的声音单位)之间的差异。

为验证 FastSpeech 的有效性,研究人员将其与开源的 LJ Speech 数据集进行了对比,该数据集包含 13100 个英语音频片段(相当于 24 个小时的音频)和相应的文本转录。在将数据集随机分成用于训练的 12500 个样本、用于验证的 300 个样本和用于测试的 300 个样本后,他们对语音质量、稳定性等进行了一系列评估。

创新是第一动力,人才是第一资源,要注重对5G人才的培养和遴选支持,希望政府部门对5G行业的专家、数据科学家、AI工程师、5G相关行业的高层以及工程技术人员能纳入高层次人才的认定目录,对认定的5G高层次人才,团队给予一定的资助。也要鼓励建立服务5G及相关产业的公共服务平台,智库也多发挥作用,也要重视5G产品的不断的研发、创新,同时即使开展6G的前期研究。

但是,这种合成方法存在着一些不可避免的问题,主要包括:

目前,Google Assistant 语音助手及最近出现在 Alexa 和 Amazon Polly 服务中的新闻播音员的语音乍听上去几乎与人声无异。事实上,这些语音助手都是由文本-语音模型提供支持的。

一是统筹规划5G网络建设,降低5G网络建设的成本,要充分利用现有的基础设施资源。

在当下,基于神经网络的端到端文本-语音合成技术发展迅速,大多数模型的合成方法为:从文本生成梅尔谱(Mel-Spectrogram,即一种展示声音功率的光谱图),然后使用声码器(分析和合成语音信号的编解码器)合成语音。

为解决这些问题,微软(亚洲)互联网工程院语音团队联合浙江大学提出了一种新的机器学习模型 FastSpeech,并在论文《FastSpeech:快速、强大且可控的文本-语音模型》中详细介绍了该模型。另外,值得一提的是,该论文已被温哥华 NeurIPS 2019 会议录用。

简单来讲,由于音素序列的长度总是小于梅尔谱序列长度,一个音素对应多个梅尔谱。而长度调节器会根据持续时间,扩展音素序列以匹配梅尔谱序列长度(一个补充时长预测器组件确定一个音素的时长)。 增加或减少与音素或音素持续时间匹配的梅尔谱数目,可成比例地调整语音速度。

初期以满足增强移动宽带及部分低时延高可靠的标准为主,随着技术和网络的成熟,逐步实现5G的多场景覆盖。因为5G网络投资巨大,要推动5G的基础设施共建共享,避免重复建设,节约投资。通过支持基站的智能电表改造,增强网络的低功耗技术研发等措施来降低网络长期运行维护的成本,从国家层面,应该重视建立跨行业、跨部门的协调推进机制,明确在多个领域,比如说车联网、工业互联网、医疗健康、文化创意和娱乐等重点应用的发展规划和行动计划,营造一个良好的5G应用的创新政策。

二是加强5G多个相关行业的研究,建立5G相关产业的生态和规范标准体系。

要加强对5G相关行业应用发展的现状和下一步趋势的研究,分析在多个产业领域应用需求和典型的应用场景,探讨5G应用的新生态、新模式,研究有关融合应用的政策法规,发挥好标准对产业的引导和支撑作用,健全5G相关行业的标准和评价体系。

因此,研究团队表示,FastSpeech 兼具快速、鲁棒、可控等特点。

三是加强5G行业的复合型人才培养和引进,促进5G产业创新能力的提升。