上海时时彩出号走势图 上海时时彩开奖结果 上海时时彩178 上海时时彩开奖现场 上海时时彩玩法介绍 上海时时彩怎么买 上海时时彩群 上海时时彩开奖号码结果查询 上海时时彩app 上海时时彩杀码 上海时时彩开奖结果 上海时时彩视频 上海时时彩11选5 上海时时彩哪里有卖 上海时时彩预测软件手机版 上海时时彩网计划表 上海时时彩走势图 哪里可以买上海时时彩 上海时时彩走势图彩经网 上海时时彩历史记录 上海时时彩开奖结果走势图 上海时时彩开奖号码结果 上海时时彩买单双技巧 上海时时彩和值走势图 上海时时彩杀码 上海时时彩开奖走势 上海时时彩玩法 上海时时彩走势图彩经 上海时时彩预测软件 上海时时彩出奖号码 上海时时彩单双预测 上海时时彩开奖视频 上海时时彩开奖走势 上海时时彩几点开始 上海时时彩一天多少期 上海时时彩五五开 上海时时彩和值技巧 上海时时彩软件 上海时时彩和值 上海时时彩开奖信息 上海时时彩杀码瀹樼綉 上海时时彩官方网站 上海时时彩游戏 上海时时彩有官方吗 上海时时彩11选5开奖结果走势图 上海时时彩是骗局吗 上海时时彩三分钟开奖 上海时时彩今天开的好 上海时时彩游戏规则 上海时时彩综合走势
您的位置:首页 > 新一代信息技术 > 人工智能
智能语音快速发展需跨越三座“大山”
2019-02-21 00:02
来源:中国航空报
字体: [   ]

  谢磊

  语音是语言的物质外壳,是人类区别与其他动物从而能够主宰世界的一?#26234;?#22823;能力,是最直接、高效的信息沟通方式。在万物互联时代,随着机器学习技术的快速发展,大规模场景数据的不断积累,算力的指数级提升,语音逐渐成为人机交互的全新入口。从手机端语音助手到智能音响、智能车载设备……智能语音已经由最初消费者娱?#36136;?#30340;调侃型应用,发展到如今?#23665;?#20915;各?#36136;?#38469;问题的功能性平台。语音技术的赋能(即Speech+),为各个垂直领域开辟出了全新价值。

  数据+算法+算力

  推动智能语音技术飞速发展

  IDC(国际数据公司)最新发布的报告《2019年全球IT产业预测》中指出,AI将成为全新的用户接口,到2024年,支持AI的用户界面和流程自动化将取代?#22771;?#19977;?#31181;?#19968;基于屏幕的应用程序;到2022年, 至少30%的企业将使用会话语音技术进行客户维护工作。

  近年来智能语音技术的飞速发展背后有三个推动力,这三大因素的组合造就了人工智能和智能语音技术的发展:第一,随着互联网技术以及手机等移动终端的普及应用,大量的真实场景和用户语料资源得到积累和沉淀,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,?#27807;?#26500;建大规模语言模型和声学模型成为可能。第二,以深度学习为代表的机器学习和人工智能的发展和突破,?#27807;?#35821;音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,?#27807;?#26356;大规模的海量数据的作用得以充分的发挥。第三,支持大数据和深度学习的大计算能力提升,规模计算能力为技术变革奠定了基础。

  “鲁棒性”、个性化、低资源

  智能语音深化应用需跨越三座大山

  在以上三大助力的赋能之下,智能语音在技术层面已具备根基,但若要在人机交互领域取得绝对性主导地位,抛开语义理解这个挑战不谈,?#22771;?#30340;智能语音发展还面临语音识别“鲁棒性”、个性化、低资源三大主要瓶?#20445;?在性能、成本、智能程度上仍需继续深耕。

  语音识别“鲁棒性”问题。在生物学中,有个术语叫做“鲁棒性?#20445;?#26159;指系统在扰动或不确定的情况下,仍能保持它的特征行为。这一问题在包括语音识别领域在内的众多AI领域也同样存在。

  语音识别整个过程包含语音信号处理、语音检测与增强、声学特征提取、声学建模、语言模型、解码搜索等多个?#26041;凇?#35821;音信号的多样?#38498;?#22797;杂性对每个模块都有影响,因此在真实使用场景中,语音识别的“鲁棒性?#20445;?#31283;健性)是非常重要的挑战。特别是语音交互从近讲走向远讲,场景发生了变化,语音交互跨界声学、信号处理和机器学习三个领域。声学上带来的影响众多,包括声学回波、目标移动、房间混响、各种背景噪音、干扰声源等,语音识别的准确率会大打折扣。

  个性化。基础语音识别和合成效果稳定后,下一步就是?#38750;?#24046;异化或个性化。语音服务应该为每个场景、每个用户来深度定制,提高交互服务的粘合?#21462;?#20363;如,开车导航时,男性就可能?#19981;?#29992;?#31181;?#29618;的声音,女性可能就?#19981;?#29992;岳云鹏的声音。如果语音合成只有一个声音,大家就会觉得很无?#27169;?#22240;此需要做出个性化的声音来满足大家个性化需求,这对技术也有非常大的考验。

  低资源场景的挑战。人工智能行?#30340;?#27969;传一句话:“有多少人工,就有多少智能。”智能语音作为人工智能的重要?#31181;В?#22312;数据标注、计算资源、模型自适应等方面也都需要大量的人力财力投入。如何投入更少的资源来获取更多更有效的成果,也是?#22771;?#26234;能语音技术需要探索的一大重点。

  深度学习+迁移学习+关键?#22987;?#20986;

  迎接智能语音新挑战

  瞄准智能语音技术的三大挑战, 同盾智能语音实验室做了众多探索,包括智能语音降噪、小数据迁移学习、低资源关键?#22987;?#20986;等方面,有效提高了智能语音交互的体验。

  基于深度学习的智能语音降噪。在各?#36136;?#38469;语音交互场景(比如智能?#22836;?#20013;,用户语音不可避免的带?#24615;?#22768;,噪声严重影响语音识别的准确率。传统基于统计信号处理的方法很难解决一些棘手的突发或非平?#20173;?#22768;。通过深度学习的方法,用数据驱动的思路来降噪,借助大数据有效地去学习语音?#22836;?#35821;音之间的结构关系,从而可以获得非常理想的降噪效果。此外,同盾语音团队还尝试把人的“注意力机制”引入到深度学习算法中, 更好地解决突发噪声问题。

  基于深度学习的语音识别说话人自适应。在很多时候,通用语音识别的测?#23472;?#30830;率已经较为理想,但是“千人千音?#20445;?#27599;个人的口音造成了每个人机器语音识别性能的差异。通过深度学习的方法,基于小样本迁移学习,让模型适应不同人的口音,实现通过少量目标说话人数据提升语音识别性能的目标,提升模型效率。

  低资源关键?#22987;?#20986;。关键?#22987;?#20986;是指从一段语音流中检测出关注的部分,在语音内容理解与信息挖掘中具有重要的作用。例如,在智能?#22836;?#23545;话中,通过检测一些关键词,来挖掘用户的需求,理解用户。同样的,智能音箱交互的“?#21483;?#35789;”、命令控制都是属于关键?#22987;?#20986;任务,通过比较轻量级的资源去做关键?#22987;?#20986;,并不断提升关键?#22987;?#20986;的鲁棒?#38498;?#36866;应性,来提高交互准确率。

 

本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所?#23567;?#22914;因无法联系到作者侵犯到您的权益,请与本网站联系,我们将采取?#23454;?#25514;施。

关注微信公众号:

关于我们 | 联系我们 | 广告刊例 | 订阅服务 | 版权声明

地址(Address):?#26412;?#24066;西城区广内大街315号信息大厦B座8-13层(8-13 Floor, IT Center B Block, No.315 GuangNei Street, Xicheng District, Beijing, China)

?#26102;啵?00053 传真:010-63691514 Post Code:100053 Fax:010-63691514

Copyright 中国战略新兴产业网 京ICP备09051002号-3 技术支持:wicep

大上海时时彩平台