智能语音交互

基于语音识别、语音合成、自然语言理解等技术，实现“能听、会说、懂你”式的智能人机交互体验，适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。

活动与推广

产品规格

产品体验

您同意我们将您的语音数据用于此功能体验，并且我们不会将其用于其他用途。我们将依法处理您的语音数据，并在您体验结束后尽快删除。

语音识别

语音合成

录音文件识别

自学习平台

语种:

普通话英语粤语

请先登录并完成实名认证后开始录音体验识别效果

产品优势

定制识别及发音

语音识别可提供所需场景的音频及标注文件，定制专属识别模型，进一步提升识别准确率。语音合成支持定制各种类型的男/女/童声，或学习说话人声音，可用于客服、阅读、虚拟人等场景

易接入

管控台可视化进行项目、场景、功能配置及自学习
并提供API和多种SDK，接入成本极低

识别准

数年持续提升准确率，与淘宝、菜鸟、高德使用一套服务

处理快

低延迟，秒级处理返回语音识别结果

产品功能

语音识别

自研的SAN-M模型摒弃传统模型模块多系统复杂的缺点，在客服、直播、会议、输入法、教育、交互识别等场景下，准确率较传统模型提升10%-30%

多语种支持支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别

多产品形态支持录音文件识别、实时语音识别、一句话识别，可供用户自行上传数据，对阿里的语音技术进行深度定制，从而提升特定业务领域的识别准确度

语音分析

说话人识别基于自研声纹识别算法，通过解析一段语音，将提取到的音频特征与之前注册的音频特征进行比对，来对说话人身份进行核验（类似人脸识别）

声音事件检测通过一段声音来对环境音（包括语音、短视频等）里面的事件类型进行检测分类，其主要任务是检测识别音频中诸如背景音乐、哭声、笑声、爆炸声之类的声音，并标注出声音的起止时间

性别识别通过对上传音频（实时或离线）进行高效解析，有效判定说话人的性别（男女）

语种识别实现对上传音频（实时或离线）中所说的是哪种语言进行句级别的判定，并返回是中、英、粤语或其他语言

语音合成

Knowledge-Aware Neural TTS (KAN-TTS)语音合成技术将文本转化为语音，将神经网络与领域知识双重结合，兼具读音准确，韵律自然，声音还原度高，表现力强的特点

支持多语种方言及中英混合播报目前支持日语及多种东南亚语种，粤语、天津、湖南、东北等方言，多个声音模型支持中英混合播报

支持字级别时间戳可用于视频配音中的音频与字幕时间对齐，虚拟形象口型对齐等

可快速进行动态参数调整支持动态调整发音人、语速、音量、语调、采样率、多种音频编码格式等；支持SSML标签语言；支持流式合成，边合成边播放

应用场景

法庭庭审转写

智能客服质检

实时直播字幕及管理

业务电话内容分析

智能语音问询终端

小说新闻内容阅读

互联网娱乐解决方案

法庭庭审转写

传统法庭庭审内容通过书记员进行过程记录，记录过程有可能影响法庭进程，降低庭审效率；借助阿里云智能语音交互能力,在庭审中实现全程留痕、辅助会议快速生成记录,从而督促谈话过程更合规,且提升稿件整理效率。

能够解决

通过智能语音识别技术，实时转写庭审内容；

完整、准确还原庭审过程；

提高庭审效率及记录客观性。

推荐搭配使用

实时语音转写

一句话识别

智能客服质检

大量电话服务中，坐席出现违规或服务风险时也无法及时干预处理，造成客户及公司的损失；借助阿里云智能语音交互能力将实时通话录音转为文本，并进行文本分析,实现客服实时监控、离线质检等多种应用场景。

能够解决

通过智能语音识别，完成电话坐席的全量、实时质检；

避服务风险及服务违规，保证服务质量。

推荐搭配使用

实时语音转写

实时直播字幕及管理

用户在公共交通或公共场合看直播，无法打开音量，观看不过瘾。直播主播发生语言违规，造成不良舆情。主播流量、用户时长不稳定，内容运营缺少抓手。

能够解决

字幕方便用户无法收听音频时正常观看视频内容；

实时内容管理，避免主播违规为平台带来风险，造成不良社会影响。

推荐搭配使用

实时语音转写

语言模型自学习工具

机器翻译

业务电话内容分析

传统中介业务中容易出现客户双方建立联系后抛弃中介的事情，从而导致中介公司经济损失，此类行为往往发生在双方沟通的电话中；所以通过阿里云智能语音交互将实时通话录音转为文本，实现客服语音实时监控、语音离线质检，及时定位问题、预警业务风险。

能够解决

通过阿里云语音识别服务，可以帮助中介及时的发现上述问题；

从而阻止逃单行为，避免经济损失。

推荐搭配使用

实时语音转写

一句话识别

智能语音问询终端

公共服务设施（如，地铁售票），需要为残障人士等无法直接操作机器设备的用户提供语音交互，正常享用公共服务。通过智能语音交互能力在用户到达线下消费场所时，进行咨询答疑、业务引导，帮助用户获得更好的消费体验；同时提高了商家的服务效率、为商家节约人工服务成本。

能够解决

在嘈杂的公共环境中，为用户提供多模态语音交互方式；

给用户带来舒适体验的同时提高了商家的服务效率、为商家节约人工服务成本。

推荐搭配使用

一句话识别

设备端SDK

小说新闻内容阅读

借助阿里云语音合成等能力,将小说新闻等长篇文字形式的信息，根据不同场景和用户习惯需要转化成音频形式的播报的形式

能够解决

地铁、开车、散步、吃饭等生活场景下，可以将需要阅读的内容转化为贴近场景的声音，解放“低头族”。

推荐搭配使用

语音合成

互联网娱乐解决方案

移动互联网下沉及用户年龄段拉大，需要丰富的交互形式满足不同特征用户的使用需求。

能够解决

驱动互联网娱乐领域的业务创新，帮助客户在激烈的竞争环境中获取优势。

推荐搭配使用

一句话识别

产品动态

查看全部日志

文档与工具

智能语音交互

产品规格

产品优势

产品功能

相关产品

应用场景

产品动态

文档与工具