智能语音推动双11进化:抢红包从动手到张嘴

中国网财经

天猫双11狂欢节再一次创造了新的商业奇迹,也直接推动了机器智能技术迈向新的高度。11月14日,据阿里巴巴披露,双11期间共处理了超9000万次语音请求,其中8500多万次语音识别请求,超过300万次语音合成请求。

智能语音技术的广泛应用,对于消费者来说最直观的体验便是抢红包从动手变成了动嘴。语音密令红包、店铺问答红包等随处可见。面对海量的用户访问,语言又是各具地方特色,如何做到快速理解、准确响应呢?阿里巴巴iDST智能语音团队为此提供了技术支持,并将其集成到阿里云ET当中。

粉丝趴:用户说出品牌的口号,即可获得奖品

以店铺问答场景为例,研究人员为这些店铺定制了专属语音模型,可以满足各类商家动态调整的需求。整个定制过程也实现了自动化,可分钟级的将模型定制上线,突破传统天级甚至周级的语音识别模型训练上线周期。

正是基于这样的技术,确保了系统对新词、未知词识别的准确率。即使是一家卖光学仪器的店铺设置的专业问答,人工智能也能听的懂。

在双11晚会的“明星到家”活动中,很多观众可以看到明星能够亲临你家并能与你互动。但其实,这并非是明星提前录制的声音,而是人工智能在模仿明星说话。在这个项目中,明星只需要录制200句话便可以完成对人工智能的训练。之后,人工智能就可以想说什么说什么了,几乎做到了以假乱真。

卢靖姗“穿越”到用户家中互动

为此,研究人员使用了基于线性变换和低秩分解的神经网络说话人自适应技术,即录制说话人的少量句子,就能发出该说话人的声音。

虽然普通消费者是第一次体验这样的技术,但事实上这些技术已经在多个垂直领域落地。iDST将这一技术集成到阿里云ET上后,已经在法庭庭审识别、智能客服、视频审核和字幕、声纹验证、物联网等多个场景成功应用。全国有近300家法院和超过6000家法庭在使用ET,每年有超过1.2亿通客服电话由ET在协助人类接听。