智能语音交互_语音识别系统_自然语言处理-阿里云
最新活动
产品
解决方案
云市场
合作伙伴
支持与服务
开发者
了解阿里云
搜索产品或内容
中国站
文档
购物车
ICP备案
控制台
登录
立即注册
< 查看全部产品
智能语音交互
基于语音识别、语音合成、自然语言理解等技术,实现“能听、会说、懂你”式的智能人机交互体验,适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。
语音分析产品正式上线,一句话即可获取发音人、性别、语种等信息!
开通并购买
管理控制台
在线专家咨询
产品定价
快速开始
开发指南
产品规格
功能体验
产品优势
产品功能
相关产品
应用场景
产品动态
文档与工具
活动与推广
产品规格
录音文件识别
录音文件极速版
录音文件闲时版
实时语音识别
一句话识别
语音分析
语音合成
长文本语音合成
录音文件识别 40小时
对录音文件进行识别,3小时内返回识别文本
40小时
语音质检、庭审录入、会议记录
病历录入、语音记事本、课程纪要
老客特惠
¥
100
.00
/年起
¥0.00
/年
立即购买
录音文件识别 1000小时
对录音文件进行识别,3小时内返回识别文本
1000小时
语音质检、庭审录入、会议记录
病历录入、语音记事本、课程纪要
老客特惠
¥
1200
.00
/年起
¥0.00
/年
立即购买
录音文件识别 20000小时
对录音文件进行识别,3小时内返回识别文本
20000小时
语音质检、庭审录入、会议记录
病历录入、语音记事本、课程纪要
老客特惠
¥
17000
.00
/年起
¥3000.00
/年
立即购买
录音文件识别 100000小时
对录音文件进行识别,3小时内返回识别文本
100000小时
语音质检、庭审录入、会议记录
病历录入、语音记事本、课程纪要
老客特惠
¥
76500
.00
/年起
¥13500.00
/年
立即购买
功能体验
您同意我们将您的语音数据用于此功能体验,并且我们不会将其用于其他用途。我们将依法处理您的语音数据,并在您体验结束后尽快删除。
语音识别
语音合成
录音文件识别
自学习平台
示例文本
体验版还可以输入
300
个字,超出部分合成将被截断
场景
音量
50
语速
0
立即合成
了解如何下载合成音频
语音合成声音定制
产品优势
定制识别及发音
语音识别可提供所需场景的音频及标注文件,定制专属识别模型,进一步提升识别准确率。 语音合成支持定制各种类型的男/女/童声,或学习说话人声音,可用于客服、阅读、虚拟人等场景
易接入
管控台可视化进行项目、场景、功能配置及自学习
并提供API和多种SDK,接入成本极低
识别准
数年持续提升准确率,与淘宝、菜鸟、高德使用一套服务
处理快
低时延、秒级处理返回语音识别或合成结果
产品功能
语音识别
自研的SAN-M模型
摒弃传统模型模块多系统复杂的缺点,在客服、直播、会议、输入法、教育、交互识别等场景下,准确率较传统模型提升10%-30%
多语种支持
支持粤语、四川话等20余种方言的识别,支持英语、日语等10余种语种识别
多产品形态
支持录音文件识别、实时语音识别、一句话识别,可供用户自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度
语音分析
说话人识别
基于自研声纹识别算法,通过解析一段语音,将提取到的音频特征与之前注册的音频特征进行比对,来对说话人身份进行核验(类似人脸识别)
声音事件检测
通过一段声音来对环境音(包括语音、短视频等)里面的事件类型进行检测分类,其主要任务是检测识别音频中诸如背景音乐、哭声、笑声、爆炸声之类的声音,并标注出声音的起止时间
性别识别
通过对上传音频(实时或离线)进行高效解析,有效判定说话人的性别(男女)以及年龄段(儿童、成年、老人)
语种识别
实现对上传音频(实时或离线)中所说的是哪种语言进行句级别的判定,并返回是中、英、粤语或其他语言
语音合成
Knowledge-Aware Neural TTS (KAN-TTS)
语音合成技术将文本转化为语音,将神经网络与领域知识双重结合,兼具读音准确,韵律自然,声音还原度高,表现力强的特点
支持多语种方言及中英混合播报
目前支持日语及多种东南亚语种,粤语、天津、湖南、东北等方言,多个声音模型支持中英混合播报
支持字级别时间戳
可用于视频配音中的音频与字幕时间对齐,虚拟形象口型对齐等
可快速进行动态参数调整
支持动态调整发音人、语速、音量、语调、采样率、多种音频编码格式等;支持SSML标签语言;支持流式合成,边合成边播放
相关产品
语音识别
语音合成
语音分析
语音应用
语音识别
录音文件识别
提交录音文件识别请求后,商业用户的转写任务可在3小时之内完成识别并返回识别文本。
了解更多
实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。
了解更多
一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等。
了解更多
录音文件识别极速版
支持30分钟以内时长的音频转写完成时间不超过10秒。
立即体验
录音文件识别闲时版
单价低至0.45元/小时起,适应于语音质检、媒资管理、字幕生成及 音视频价值信息挖掘等时效性要求不敏感的应用场景。
了解更多
语音合成
语音合成
能将用户提交的文本转换成自然流畅的语音,目前有多种音色可供选择,并提供调节语速、语调、音量等功能。
了解更多
长文本语音合成
提供了将超长文本(如千字或者万字)合成为语音二进制数据的功能,持续新增多个超高清合成声音,可提供超高音质合成效果,采样率高达48 kHz。
了解更多
纯离线语音合成
离线语音合成提供了商业版SDK,包含标准版/精品版两种声音品质,您可以根据使用场景及设备性能状况选择合适的版本。
了解更多
个性化人声定制
个性化人声定制服务可以帮助您通过少量的录音,训练得到自己的声音模型,快速“克隆”个性化的声音,进而使用该声音讲故事、播天气、读小说、导航播报等。
了解更多
语音分析
说话人识别
基于自研声纹识别算法,通过解析一段语音,将提取到的音频特征与之前注册的音频特征进行比对,来对说话人身份进行核验(类似人脸识别)。
了解更多
声音事件检测
实现对上传音频(实时或离线)中所说的是哪种语言进行句级别的判定,并返回是中、英、粤语或其他语言。
了解更多
性别识别
通过对上传音频(实时或离线)进行高效解析,有效判定说话人的性别(男女)以及年龄段(儿童、成年、老人)。
了解更多
语种识别
通过一段声音来对环境音(包括语音、短视频等)里面的事件类型进行检测分类,其主要任务是检测识别音频中诸如背景音乐、哭声、笑声等等。
了解更多
语音应用
便携智能语音一体机
便携智能一体机由达摩院结合应用场景现有问题和用户实际需求,由智能语音识别技术+智能采集阵列硬件+音频处理算法组成。
了解更多
智能语音设备端解决方案
针对类似故事机、音箱等各种语音交互设备,提供包括音频信号处理,打断唤醒,语音识别,语音合成等全链路语音交互能力。
了解更多
应用场景
法庭庭审转写
智能客服质检
实时直播字幕及管理
业务电话内容分析
智能语音问询终端
小说新闻内容阅读
互联网娱乐解决方案
法庭庭审转写
传统法庭庭审内容通过书记员进行过程记录,记录过程有可能影响法庭进程,降低庭审效率;借助阿里云智能语音交互能力,在庭审中实现全程留痕、辅助会议快速生成记录,从而督促谈话过程更合规,且提升稿件整理效率。
立即购买
能够解决
通过智能语音识别技术,实时转写庭审内容;
完整、准确还原庭审过程;
提高庭审效率及记录客观性。
推荐搭配使用
实时语音转写
一句话识别
智能客服质检
大量电话服务中,坐席出现违规或服务风险时也无法及时干预处理,造成客户及公司的损失;借助阿里云智能语音交互能力将实时通话录音转为文本,并进行文本分析,实现客服实时监控、离线质检等多种应用场景。
立即购买
能够解决
通过智能语音识别,完成电话坐席的全量、实时质检;
避服务风险及服务违规,保证服务质量。
推荐搭配使用
实时语音转写
实时直播字幕及管理
用户在公共交通或公共场合看直播,无法打开音量,观看不过瘾。直播主播发生语言违规,造成不良舆情。主播流量、用户时长不稳定,内容运营缺少抓手。
立即购买
能够解决
字幕方便用户无法收听音频时正常观看视频内容;
实时内容管理,避免主播违规为平台带来风险,造成不良社会影响。
推荐搭配使用
实时语音转写
语言模型自学习工具
机器翻译
业务电话内容分析
传统中介业务中容易出现客户双方建立联系后抛弃中介的事情,从而导致中介公司经济损失,此类行为往往发生在双方沟通的电话中;所以通过阿里云智能语音交互将实时通话录音转为文本,实现客服语音实时监控、语音离线质检,及时定位问题、预警业务风险。
立即购买
能够解决
通过阿里云语音识别服务,可以帮助中介及时的发现上述问题;
从而阻止逃单行为,避免经济损失。
推荐搭配使用
实时语音转写
一句话识别
智能语音问询终端
公共服务设施(如,地铁售票),需要为残障人士等无法直接操作机器设备的用户提供语音交互,正常享用公共服务。通过智能语音交互能力在用户到达线下消费场所时,进行咨询答疑、业务引导,帮助用户获得更好的消费体验;同时提高了商家的服务效率、为商家节约人工服务成本。
立即购买
能够解决
在嘈杂的公共环境中,为用户提供多模态语音交互方式;
给用户带来舒适体验的同时提高了商家的服务效率、为商家节约人工服务成本。
推荐搭配使用
一句话识别
设备端SDK
小说新闻内容阅读
借助阿里云语音合成等能力,将小说新闻等长篇文字形式的信息,根据不同场景和用户习惯需要转化成音频形式的播报的形式
立即购买
能够解决
地铁、开车、散步、吃饭等生活场景下,可以将需要阅读的内容转化为贴近场景的声音,解放“低头族”。
推荐搭配使用
语音合成
互联网娱乐解决方案
移动互联网下沉及用户年龄段拉大,需要丰富的交互形式满足不同特征用户的使用需求。
立即购买
能够解决
驱动互联网娱乐领域的业务创新,帮助客户在激烈的竞争环境中获取优势。
推荐搭配使用
一句话识别
产品动态
查看详情
查看详情
查看详情
2016-12-15 新功能
【智能语音交互】英文语音识别
查看详情
2016-12-23 体验优化
【智能语音交互】提供C++ SDK
查看详情
2016-12-30 新功能
【智能语音交互】语音识别支持用户自定义热词
查看详情
2016-12-30 体验优化
【智能语音交互】语音识别JAVA SDK提供压缩传输功能
查看详情
2017-01-20 新功能
智能对话平台1.0
查看详情
2017-03-01 新功能
支持自动对录音进行人声分离
查看详情
2017-03-01 新功能
智能对话平台邀请内测版本发布
查看详情
2017-04-01 新功能
支持东北话、河南话、四川话的语音识别
查看详情
2017-04-20 新功能
语音识别支持粤语的识别
查看详情
2017-06-06 新功能
【语音识别】语言模型自定制
查看详情
2017-07-21 新功能
语音识别的C++ SDK同时能支持长语音和短语音的识别
查看详情
2017-08-14 新功能
语音关键字识别-更低成本的语音关键字检出
查看详情
2017-08-14 体验优化
语音识别-8K电话录音-机器自动分轨效果优化
查看详情
2018-11-30 新功能
【公有云】甜美客服TTS模型更新
查看详情
2018-12-27 新功能
【TTS】Neural TTS 上线
查看详情
2019-01-25 体验优化
公有云自学习模型提供语言模型免费试用版
查看详情
2019-03-19 新功能
智能语音交互产品使用用量监控功能发布
查看详情
2019-03-19 新功能
智能语音交互产品新增子账户权限访问控制
查看详情
2019-04-18 体验优化
公共云支持英文定制语言模型
查看详情
2019-04-18 体验优化
公共云支持英文泛热词
查看详情
2019-04-18 体验优化
公共云粤语客服模型支持定制语言模型
查看详情
2019-04-18 体验优化
公共云方言客服模型支持定制语言模型
查看详情
2019-05-09 体验优化
公共云报表多样化,支持按照appkey维度展示
查看详情
2019-05-27 体验优化
【TTS】官网增加“预览版”TTS声音体验
查看详情
2019-06-06 体验优化
语音合成官网客服发音人默认文本更新
查看详情
2019-06-11 价格调整
公共云语音合成调用计费逻辑调整
查看详情
2019-06-27 价格调整
公共云新预付费资源包上线
查看详情
2019-08-27 体验优化
【TTS】新增4个英文精品声音
查看详情
2019-08-27 体验优化
【TTS】儿童音艾彤和艾薇模型上线
查看详情
2019-08-27 体验优化
【TTS】艾夏声音更新发布
查看详情
2019-08-27 体验优化
【TTS】语音合成自建催收声音艾雅上线
查看详情
2019-09-19 体验优化
【TTS】定制声音页面增加第一财经-阳子样音和第一财经logo
查看详情
2019-09-19 体验优化
【TTS】定制声音页面增加宝拉样音和凯叔logo
查看详情
2019-09-19 体验优化
文件转写支持多后处理集群路由
查看详情
2019-10-21 体验优化
公共云首页改版
查看详情
2019-10-23 体验优化
【TTS】艾娜模型首发
查看详情
2019-10-28 体验优化
c++ sdk的token获取机制改造
查看详情
2019-10-28 体验优化
java sdk 的AccssToken改造
查看详情
2019-10-31 体验优化
【公有云官网】支持录音文件识别体验模块
查看详情
2019-11-08 体验优化
公共云在创建app之前就展示原子能力
查看详情
2019-11-28 体验优化
【TTS】服务端和SDK支持设置MP3码率接口
查看详情
2019-12-12 体验优化
长文本预付费资源包上线
查看详情
2019-12-30 体验优化
公共云艾美,艾彤模型优化
查看详情
2020-01-18 新版本/新规格
智能语音交互-本地部署v2.6.7版本发布
查看详情
2020-03-01 价格调整
公共云试用版免费策略调整
查看详情
2020-04-02 新功能
公共云实时转写语音识别服务支持高级vad参数功能,可进一步满足用不同场景下的定制化vad需求
查看详情
2020-05-11 新功能
语音合成产品新增多种方言声音
查看详情
2020-05-15 新功能
ASR语音识别产品新增日语和西班牙语识别模型
查看详情
2020-06-04 新功能
智能语音交互产品,语音识别新增非电话场景的粤语识别模型
查看详情
2020-06-18 新版本/新规格
阿里云智能语音交互国际站商业化发布
查看详情
2020-06-28 新功能
语音识别产品新增四川话模型(电话场景)
查看详情
2020-09-10 新功能
智能语音交互新一代“端到端”语音识别模型上线
查看详情
2020-09-15 新功能
语音识别产品新增韩语、印尼语、越南语、阿拉伯语和哈萨克语等多个语种的语音识别模型
查看详情
2021-11-01 新版本/新规格
阿里云-智能语音交互-听悟(商业化) 发布
查看详情
2022-03-21 新地域/可用区
华北2(北京)、华南1(深圳)正式开服
查看详情
2022-04-10 体验优化
录音文件识别体验升级
查看详情
2022-05-16 新功能
语音分析系列(说话人识别、声音事件检测、性别识别、语种识别)相关服务重磅发布
查看详情
查看全部日志
文档与工具
快速开始
欢迎开启智能语音交互之旅
产品介绍
查看实时语音识别所有相关文档
开发文档
了解丰富的智能语音交互 OpenAPI
相关协议
智能语音交互服务等级协议