智能语音交互_语音识别系统_自然语言处理-阿里云

产品规格

功能体验
您同意我们将您的语音数据用于此功能体验,并且我们不会将其用于其他用途。我们将依法处理您的语音数据,并在您体验结束后尽快删除。
语音识别
语音合成
录音文件识别
自学习平台
识别语言
普通话
英语
粤语
点击“话筒”开始录音,请对我说你想说的话,我可以识别你说的内容哦~请允许浏览器获取麦克风权限
识别结果

产品优势

定制识别及发音
语音识别可提供所需场景的音频及标注文件,定制专属识别模型,进一步提升识别准确率。 语音合成支持定制各种类型的男/女/童声,或学习说话人声音,可用于客服、阅读、虚拟人等场景
易接入
管控台可视化进行项目、场景、功能配置及自学习
并提供API和多种SDK,接入成本极低
识别准
数年持续提升准确率,与淘宝、菜鸟、高德使用一套服务
处理快
低时延、秒级处理返回语音识别或合成结果

产品功能

语音识别
自研的SAN-M模型摒弃传统模型模块多系统复杂的缺点,在客服、直播、会议、输入法、教育、交互识别等场景下,准确率较传统模型提升10%-30%
多语种支持支持粤语、四川话等20余种方言的识别,支持英语、日语等10余种语种识别
多产品形态支持录音文件识别、实时语音识别、一句话识别,可供用户自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度
语音合成
Knowledge-Aware Neural TTS (KAN-TTS)语音合成技术将文本转化为语音,将神经网络与领域知识双重结合,兼具读音准确,韵律自然,声音还原度高,表现力强的特点
支持多语种方言及中英混合播报 目前支持日语及多种东南亚语种,粤语、河南、东北等方言,多个声音模型支持中英混合播报
支持字级别时间戳可用于视频配音中的音频与字幕时间对齐,虚拟形象口型对齐等
可快速进行动态参数调整 支持动态调整发音人、语速、音量、语调、采样率、多种音频编码格式等;支持SSML标签语言;支持流式合成,边合成边播放

相关产品

应用场景

法庭庭审转写
智能客服质检
实时直播字幕及管理
业务电话内容分析
智能语音问询终端
小说新闻内容阅读
互联网娱乐解决方案
法庭庭审转写
传统法庭庭审内容通过书记员进行过程记录,记录过程有可能影响法庭进程,降低庭审效率;借助阿里云智能语音交互能力,在庭审中实现全程留痕、辅助会议快速生成记录,从而督促谈话过程更合规,且提升稿件整理效率。
能够解决
通过智能语音识别技术,实时转写庭审内容;
完整、准确还原庭审过程;
提高庭审效率及记录客观性。
推荐搭配使用
智能客服质检
大量电话服务中,坐席出现违规或服务风险时也无法及时干预处理,造成客户及公司的损失;借助阿里云智能语音交互能力将实时通话录音转为文本,并进行文本分析,实现客服实时监控、离线质检等多种应用场景。
能够解决
通过智能语音识别,完成电话坐席的全量、实时质检;
避服务风险及服务违规,保证服务质量。
推荐搭配使用
实时直播字幕及管理
用户在公共交通或公共场合看直播,无法打开音量,观看不过瘾。直播主播发生语言违规,造成不良舆情。主播流量、用户时长不稳定,内容运营缺少抓手。
能够解决
字幕方便用户无法收听音频时正常观看视频内容;
实时内容管理,避免主播违规为平台带来风险,造成不良社会影响。
推荐搭配使用
业务电话内容分析
传统中介业务中容易出现客户双方建立联系后抛弃中介的事情,从而导致中介公司经济损失,此类行为往往发生在双方沟通的电话中;所以通过阿里云智能语音交互将实时通话录音转为文本,实现客服语音实时监控、语音离线质检,及时定位问题、预警业务风险。
能够解决
通过阿里云语音识别服务,可以帮助中介及时的发现上述问题;
从而阻止逃单行为,避免经济损失。
推荐搭配使用
智能语音问询终端
公共服务设施(如,地铁售票),需要为残障人士等无法直接操作机器设备的用户提供语音交互,正常享用公共服务。通过智能语音交互能力在用户到达线下消费场所时,进行咨询答疑、业务引导,帮助用户获得更好的消费体验;同时提高了商家的服务效率、为商家节约人工服务成本。
能够解决
在嘈杂的公共环境中,为用户提供多模态语音交互方式;
给用户带来舒适体验的同时提高了商家的服务效率、为商家节约人工服务成本。
推荐搭配使用
小说新闻内容阅读
借助阿里云语音合成等能力,将小说新闻等长篇文字形式的信息,根据不同场景和用户习惯需要转化成音频形式的播报的形式
能够解决
地铁、开车、散步、吃饭等生活场景下,可以将需要阅读的内容转化为贴近场景的声音,解放“低头族”。
推荐搭配使用
互联网娱乐解决方案
移动互联网下沉及用户年龄段拉大,需要丰富的交互形式满足不同特征用户的使用需求。
能够解决
驱动互联网娱乐领域的业务创新,帮助客户在激烈的竞争环境中获取优势。
推荐搭配使用

产品动态

2016-12-15 新功能
【智能语音交互】英文语音识别
查看详情
2016-12-23 体验优化
【智能语音交互】提供C++ SDK
查看详情
2016-12-30 新功能
【智能语音交互】语音识别支持用户自定义热词
查看详情
2016-12-30 体验优化
【智能语音交互】语音识别JAVA SDK提供压缩传输功能
查看详情
2017-01-20 新功能
智能对话平台1.0
查看详情
2017-03-01 新功能
支持自动对录音进行人声分离
查看详情
2017-03-01 新功能
智能对话平台邀请内测版本发布
查看详情
2017-04-01 新功能
支持东北话、河南话、四川话的语音识别
查看详情
2017-04-20 新功能
语音识别支持粤语的识别
查看详情
2017-06-06 新功能
【语音识别】语言模型自定制
查看详情
2017-07-21 新功能
语音识别的C++ SDK同时能支持长语音和短语音的识别
查看详情
2017-08-14 新功能
语音关键字识别-更低成本的语音关键字检出
查看详情
2017-08-14 体验优化
语音识别-8K电话录音-机器自动分轨效果优化
查看详情
2018-11-30 新功能
【公有云】甜美客服TTS模型更新
查看详情
2018-12-27 新功能
【TTS】Neural TTS 上线
查看详情
2019-01-25 体验优化
公有云自学习模型提供语言模型免费试用版
查看详情
2019-03-19 新功能
智能语音交互产品使用用量监控功能发布
查看详情
2019-03-19 新功能
智能语音交互产品新增子账户权限访问控制
查看详情
2019-04-18 体验优化
公共云支持英文定制语言模型
查看详情
2019-04-18 体验优化
公共云支持英文泛热词
查看详情
2019-04-18 体验优化
公共云粤语客服模型支持定制语言模型
查看详情
2019-04-18 体验优化
公共云方言客服模型支持定制语言模型
查看详情
2019-05-09 体验优化
公共云报表多样化,支持按照appkey维度展示
查看详情
2019-05-27 体验优化
【TTS】官网增加“预览版”TTS声音体验
查看详情
2019-06-06 体验优化
语音合成官网客服发音人默认文本更新
查看详情
2019-06-11 价格调整
公共云语音合成调用计费逻辑调整
查看详情
2019-06-27 价格调整
公共云新预付费资源包上线
查看详情
2019-08-27 体验优化
【TTS】新增4个英文精品声音
查看详情
2019-08-27 体验优化
【TTS】儿童音艾彤和艾薇模型上线
查看详情
2019-08-27 体验优化
【TTS】艾夏声音更新发布
查看详情
2019-08-27 体验优化
【TTS】语音合成自建催收声音艾雅上线
查看详情
2019-09-19 体验优化
【TTS】定制声音页面增加第一财经-阳子样音和第一财经logo
查看详情
2019-09-19 体验优化
【TTS】定制声音页面增加宝拉样音和凯叔logo
查看详情
2019-09-19 体验优化
文件转写支持多后处理集群路由
查看详情
2019-10-21 体验优化
公共云首页改版
查看详情
2019-10-23 体验优化
【TTS】艾娜模型首发
查看详情
2019-10-28 体验优化
c++ sdk的token获取机制改造
查看详情
2019-10-28 体验优化
java sdk 的AccssToken改造
查看详情
2019-10-31 体验优化
【公有云官网】支持录音文件识别体验模块
查看详情
2019-11-08 体验优化
公共云在创建app之前就展示原子能力
查看详情
2019-11-28 体验优化
【TTS】服务端和SDK支持设置MP3码率接口
查看详情
2019-12-12 体验优化
长文本预付费资源包上线
查看详情
2019-12-30 体验优化
公共云艾美,艾彤模型优化
查看详情
2020-01-18 新版本/新规格
智能语音交互-本地部署v2.6.7版本发布
查看详情
2020-03-01 价格调整
公共云试用版免费策略调整
查看详情
2020-04-02 新功能
公共云实时转写语音识别服务支持高级vad参数功能,可进一步满足用不同场景下的定制化vad需求
查看详情
2020-05-11 新功能
语音合成产品新增多种方言声音
查看详情
2020-05-15 新功能
ASR语音识别产品新增日语和西班牙语识别模型
查看详情
2020-06-04 新功能
智能语音交互产品,语音识别新增非电话场景的粤语识别模型
查看详情
2020-06-18 新版本/新规格
阿里云智能语音交互国际站商业化发布
查看详情
2020-06-28 新功能
语音识别产品新增四川话模型(电话场景)
查看详情
2020-09-10 新功能
智能语音交互新一代“端到端”语音识别模型上线
查看详情
2020-09-15 新功能
语音识别产品新增韩语、印尼语、越南语、阿拉伯语和哈萨克语等多个语种的语音识别模型
查看详情
2020-11-20 新功能
长文本语音合成大幅降价,单价低至1.4元/万字起
查看详情
查看全部日志

文档与工具