大模型
产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
AI 助理
备案
控制台
登录
注册
< 智能语音交互
实时语音识别
实时语音识别是对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
通义听悟免费体验火热进行中,体验用大模型做学习笔记、会议记录!
超值资源包
立即开通
新手指南
产品定价
本地部署
产品咨询
产品规格
功能体验
产品优势
产品功能
应用场景
产品动态
更多产品与服务
文档与工具
联系我们
活动与推广
新产品
通义听悟开启公测,你的工作学习AI助手!
新产品
模型即服务Dashscope灵积平台已上线,开启模型探索之旅!
新产品
大模型时代下的语音识别模型服务来了!不排队,普惠价的AI识别!
新产品
大模型时代下的语音合成模型服务来了,高精拟人音色助力数字人等场景!
新功能
通义听悟全新上线对话内容提取,可定位关注话题
新功能
北京、深圳正式开服,有效降低链路时延(最高可达200ms)!
新功能
通义听悟支持电话、门店、拜访等销售服务质检功能
新产品
语音分析正式上线,一句话即可获取发音人、性别、语种等信息!
产品规格
实时语音识别 30小时
识别不限时长的实时音频流,达到“边说边出文字”的效果
30小时
支持22种方言,23种不同语言
直播质检、直播字幕、视频会议字幕
新客0元体验
¥
100
.00
/年起
¥0.00
/年
售前咨询
立即购买
实时语音识别 1000小时
识别不限时长的实时音频流,达到“边说边出文字”的效果
1000小时
支持22种方言,23种不同语言
直播质检、直播字幕、视频会议字幕
新客0元体验
¥
1800
.00
/年起
¥0.00
/年
售前咨询
立即购买
实时语音识别 10000小时
识别不限时长的实时音频流,达到“边说边出文字”的效果
10000小时
支持22种方言,23种不同语言
直播质检、直播字幕、视频会议字幕
新客0元体验
¥
15000
.00
/年起
¥0.00
/年
售前咨询
立即购买
实时语音识别 84000小时
识别不限时长的实时音频流,达到“边说边出文字”的效果
84000小时
84000小时
182000小时
300000小时
支持22种方言,23种不同语言
直播质检、直播字幕、视频会议字幕
新客0元体验
¥
100000
.00
/年起
¥0.00
/年
售前咨询
立即购买
产品体验
语种:
普通话
英语
粤语
请先
登录并完成实名认证
后开始录音体验识别效果
产品优势
易接入
管控台可视化进行项目、场景、功能配置及自学习,并提供API和多种SDK,接入成本极低。
识别准
数年持续提升准确率,通用字准确率90%以上,部分模型可达99%。
处理快
毫秒级处理返回语音识别结果。
定制模型
语音识别可提供所需场景的音频及标注文件,定制专属识别模型,进一步提升识别准确率。
产品功能
自研的SAN-M模型
摒弃传统模型模块多系统复杂的缺点,在客服、直播、会议、输入法、教育、交互识别等场景下,准确率较传统模型提升10%-30%
多语种支持
支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别
全新“端到端”框架
新的“端到端”框架同时支持离线转写和实时流式识别,兼容两种模式的诸多优势。 服务性能整体优化,时延和并发优势明显
应用场景
实时会议记录
视频实时直播字幕
实时法庭庭审记录
实时客服记录
实时会议记录
视频会议网络环境不稳定或特殊情况遗漏部分会议内容,导致会议整体效果不理想。
立即购买
售前咨询
能够提供
将会议中的音频实时转换成文字,用于字幕展示及实时纪要查阅;
提升会议产出的效率。
推荐搭配使用
录音文件识别
一句话识别
语音合成
视频实时直播字幕
直播产生大量音视频数据,无法全量分析、识别,数据价值无法有效挖掘,内容合规难以保障。
立即购买
售前咨询
能够提供
现场演讲场景、直播场景下,将视频中的音频实时转写成字幕,或进行娱乐直播内容场景识别;
提升云直播竞争优势;
业务数据分析及业务合规保障。
推荐搭配使用
录音文件识别
一句话识别
语音合成
实时法庭庭审记录
目前通过书记员对庭审进行记录的过程中耗费人力,也会带有书记员的主观理解。
立即购买
售前咨询
能够提供
将庭审各方在庭审过程中的语音转化为文字,供各方在庭审页面上查看;
减少书记员工作,提高法庭运作效率。
推荐搭配使用
录音文件识别
一句话识别
语音合成
实时客服记录
客户服务过程中,发生员工与客户争执或关键业务提醒不到位,导致公司与客户双输。
立即购买
售前咨询
能够提供
将呼叫中心的语音实时转写为文字,用于客服工作提醒或服务问题实时升级;
通过实时质检,实现服务风险管理,避免企业与客户损失。
推荐搭配使用
录音文件识别
一句话识别
语音合成
产品动态
查看详情
查看详情
查看详情
2016-12-15 新功能/规格
【智能语音交互】英文语音识别
查看详情
2016-12-23 功能优化
【智能语音交互】提供C++ SDK
查看详情
2016-12-30 新功能/规格
【智能语音交互】语音识别支持用户自定义热词
查看详情
2016-12-30 功能优化
【智能语音交互】语音识别JAVA SDK提供压缩传输功能
查看详情
2017-01-20 新功能/规格
智能对话平台1.0
查看详情
2017-03-01 新功能/规格
支持自动对录音进行人声分离
查看详情
2017-03-01 新功能/规格
智能对话平台邀请内测版本发布
查看详情
2017-04-01 新功能/规格
支持东北话、河南话、四川话的语音识别
查看详情
2017-04-20 新功能/规格
语音识别支持粤语的识别
查看详情
2017-06-06 新功能/规格
【语音识别】语言模型自定制
查看详情
2017-07-21 新功能/规格
语音识别的C++ SDK同时能支持长语音和短语音的识别
查看详情
2017-08-14 新功能/规格
语音关键字识别-更低成本的语音关键字检出
查看详情
2017-08-14 功能优化
语音识别-8K电话录音-机器自动分轨效果优化
查看详情
2018-11-30 新功能/规格
【公有云】甜美客服TTS模型更新
查看详情
2018-12-27 新功能/规格
【TTS】Neural TTS 上线
查看详情
2019-01-25 功能优化
公有云自学习模型提供语言模型免费试用版
查看详情
2019-03-19 新功能/规格
智能语音交互产品使用用量监控功能发布
查看详情
2019-03-19 新功能/规格
智能语音交互产品新增子账户权限访问控制
查看详情
2019-04-18 功能优化
公共云支持英文定制语言模型
查看详情
2019-04-18 功能优化
公共云支持英文泛热词
查看详情
2019-04-18 功能优化
公共云粤语客服模型支持定制语言模型
查看详情
2019-04-18 功能优化
公共云方言客服模型支持定制语言模型
查看详情
2019-05-09 功能优化
公共云报表多样化,支持按照appkey维度展示
查看详情
2019-05-27 功能优化
【TTS】官网增加“预览版”TTS声音体验
查看详情
2019-06-06 功能优化
语音合成官网客服发音人默认文本更新
查看详情
2019-06-11 价格调整
公共云语音合成调用计费逻辑调整
查看详情
2019-06-27 价格调整
公共云新预付费资源包上线
查看详情
2019-08-27 功能优化
【TTS】新增4个英文精品声音
查看详情
2019-08-27 功能优化
【TTS】儿童音艾彤和艾薇模型上线
查看详情
2019-08-27 功能优化
【TTS】艾夏声音更新发布
查看详情
2019-08-27 功能优化
【TTS】语音合成自建催收声音艾雅上线
查看详情
2019-09-19 功能优化
【TTS】定制声音页面增加第一财经-阳子样音和第一财经logo
查看详情
2019-09-19 功能优化
【TTS】定制声音页面增加宝拉样音和凯叔logo
查看详情
2019-09-19 功能优化
文件转写支持多后处理集群路由
查看详情
2019-10-21 功能优化
公共云首页改版
查看详情
2019-10-23 功能优化
【TTS】艾娜模型首发
查看详情
2019-10-28 功能优化
c++ sdk的token获取机制改造
查看详情
2019-10-28 功能优化
java sdk 的AccssToken改造
查看详情
2019-10-31 功能优化
【公有云官网】支持录音文件识别体验模块
查看详情
2019-11-08 功能优化
公共云在创建app之前就展示原子能力
查看详情
2019-11-28 功能优化
【TTS】服务端和SDK支持设置MP3码率接口
查看详情
2019-12-12 功能优化
长文本预付费资源包上线
查看详情
2019-12-30 功能优化
公共云艾美,艾彤模型优化
查看详情
2020-01-18 新功能/规格
智能语音交互-本地部署v2.6.7版本发布
查看详情
2020-03-01 价格调整
公共云试用版免费策略调整
查看详情
2020-04-02 新功能/规格
公共云实时转写语音识别服务支持高级vad参数功能,可进一步满足用不同场景下的定制化vad需求
查看详情
2020-05-11 新功能/规格
语音合成产品新增多种方言声音
查看详情
2020-05-15 新功能/规格
ASR语音识别产品新增日语和西班牙语识别模型
查看详情
2020-06-04 新功能/规格
智能语音交互产品,语音识别新增非电话场景的粤语识别模型
查看详情
2020-06-18 新功能/规格
阿里云智能语音交互国际站商业化发布
查看详情
2020-06-28 新功能/规格
语音识别产品新增四川话模型(电话场景)
查看详情
2020-09-10 新功能/规格
智能语音交互新一代“端到端”语音识别模型上线
查看详情
2020-09-15 新功能/规格
语音识别产品新增韩语、印尼语、越南语、阿拉伯语和哈萨克语等多个语种的语音识别模型
查看详情
2021-11-01 新功能/规格
阿里云-智能语音交互-听悟(商业化) 发布
查看详情
2022-03-21 新地域/新可用区
华北2(北京)、华南1(深圳)正式开服
查看详情
2022-04-10 功能优化
录音文件识别体验升级
查看详情
2022-05-16 新功能/规格
语音分析系列(说话人识别、声音事件检测、性别识别、语种识别)相关服务重磅发布
查看详情
查看全部日志
更多产品与服务
通义听悟
通义听悟支持在课程、会议、访谈等场景下实时转录和音视频转文字,智能生成总结,实时翻译打破跨语言沟通障碍。通义听悟还支持快速标记关键信息,识别结果和笔记能够轻松下载并分享给其他用户,让信息流动起来。
查看详情
语音分析
通过对实时上传的音频流或离线音频文件进行智能解析,根据用户请求参数,高效精准的进行包括说话人身份核验、语种识别、性别识别以及声音事件监测等高阶语音分析能力,适应于智能客服、音视频会议以及多媒体智能分析等场景 。
查看详情
录音文件识别
对用户上传的录音文件进行识别,上传完之后3小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。
查看详情
一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。
查看详情
文档与工具
快速开始
欢迎开启智能语音交互之旅
产品介绍
快速了解实时语音识别产品
开发文档
了解丰富的智能语音交互 OpenAPI
相关协议
智能语音交互服务等级协议
AI助理
你好,我是AI助理
可以解答问题、推荐解决方案等