一句话识别
一句话识别可对一分钟以内的语音进行实时识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等。 可集成在各类App、智能家电、智能助手等产品中。

产品规格

一句话识别 30千次
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景
30千次
支持22种方言,23种不同语言
语音输入法、语音消息转文字、语音搜索
新客0元体验
100.00/年起
一句话识别 1000千次
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景
1000千次
支持22种方言,23种不同语言
语音输入法、语音消息转文字、语音搜索
新客0元体验
1800.00/年起
一句话识别 10000千次
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景
10000千次
支持22种方言,23种不同语言
语音输入法、语音消息转文字、语音搜索
新客0元体验
15000.00/年起
一句话识别 84000千次
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景
84000千次
84000千次
182000千次
300000千次
支持22种方言,23种不同语言
语音输入法、语音消息转文字、语音搜索
新客0元体验
100000.00/年起
产品体验
您同意我们将您的语音数据用于此功能体验,并且我们不会将其用于其他用途。我们将依法处理您的语音数据,并在您体验结束后尽快删除。
语音识别
语音合成
录音文件识别
自学习平台
语种:

产品优势

易接入
管控台可视化进行项目、场景、功能配置及自学习,并提供API和多种SDK,接入成本极低。
识别准
数年持续提升准确率,通用字准确率90%以上,部分模型可达98%。
处理快
低延迟,秒级处理返回语音识别结果。
定制模型
语音识别可提供所需场景的音频及标注文件,定制专属识别模型,进一步提升识别准确率。

产品功能

自研的SAN-M模型摒弃传统模型模块多系统复杂的缺点,在客服、直播、会议、输入法、教育、交互识别等场景下,准确率较传统模型提升10%-30%
多语种支持支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别
多产品形态支持录音文件识别、实时语音识别、一句话识别,可供用户自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度

应用场景

语音搜索
社交应用
语音指令
短语音消息
语音搜索
有些场景无法打字,但需要进行信息查询,或打字慢影响客户效率。
能够解决
支持各种场景下的语音搜索,比如地图导航、浏览器搜索等;
集成到任何形式的手机应用中,最大限度的解放双手。
相关产品
社交应用
互联网娱乐领域竞争激烈,传统工程化模式进入瓶颈期,需要结合智能语音技术扩展玩法。
能够解决
将语音输入、口令红包作为吸引客户的新产品功能;
语音AI+互联网娱乐领域的业务创新,帮助客户在激烈的竞争环境中获取优势。
推荐搭配使用
语音指令
智能家居理念已经成为市场主流,家电用品“听”懂话,逐渐成为标配。
能够解决
通过语音命令控制智能设备,实现快捷便利的操作,如控制空调的开关、电视的换台等;
智能家居场景的必备功能,为终端客户提供舒适、便捷的居住环境。
相关产品
短语音消息
接收到的语音消息听完要很久,阅读文字速度更快。有些场景不方便听声音。语音长信息多,听一遍有遗漏,听多遍太耗时。
能够解决
通过语音发送或者接收短消息,在不方便打字的情况下实现快速便捷的短信操作,比如音频短信转文字;
不方便听声音的时候收到语音消息,通过转译的文字也可快速浏览阅读。
相关产品

产品动态

2016-12-15 新功能/规格
【智能语音交互】英文语音识别
查看详情
2016-12-23 功能优化
【智能语音交互】提供C++ SDK
查看详情
2016-12-30 新功能/规格
【智能语音交互】语音识别支持用户自定义热词
查看详情
2016-12-30 功能优化
【智能语音交互】语音识别JAVA SDK提供压缩传输功能
查看详情
2017-01-20 新功能/规格
智能对话平台1.0
查看详情
2017-03-01 新功能/规格
支持自动对录音进行人声分离
查看详情
2017-03-01 新功能/规格
智能对话平台邀请内测版本发布
查看详情
2017-04-01 新功能/规格
支持东北话、河南话、四川话的语音识别
查看详情
2017-04-20 新功能/规格
语音识别支持粤语的识别
查看详情
2017-06-06 新功能/规格
【语音识别】语言模型自定制
查看详情
2017-07-21 新功能/规格
语音识别的C++ SDK同时能支持长语音和短语音的识别
查看详情
2017-08-14 新功能/规格
语音关键字识别-更低成本的语音关键字检出
查看详情
2017-08-14 功能优化
语音识别-8K电话录音-机器自动分轨效果优化
查看详情
2018-11-30 新功能/规格
【公有云】甜美客服TTS模型更新
查看详情
2018-12-27 新功能/规格
【TTS】Neural TTS 上线
查看详情
2019-01-25 功能优化
公有云自学习模型提供语言模型免费试用版
查看详情
2019-03-19 新功能/规格
智能语音交互产品使用用量监控功能发布
查看详情
2019-03-19 新功能/规格
智能语音交互产品新增子账户权限访问控制
查看详情
2019-04-18 功能优化
公共云支持英文定制语言模型
查看详情
2019-04-18 功能优化
公共云支持英文泛热词
查看详情
2019-04-18 功能优化
公共云粤语客服模型支持定制语言模型
查看详情
2019-04-18 功能优化
公共云方言客服模型支持定制语言模型
查看详情
2019-05-09 功能优化
公共云报表多样化,支持按照appkey维度展示
查看详情
2019-05-27 功能优化
【TTS】官网增加“预览版”TTS声音体验
查看详情
2019-06-06 功能优化
语音合成官网客服发音人默认文本更新
查看详情
2019-06-11 价格调整
公共云语音合成调用计费逻辑调整
查看详情
2019-06-27 价格调整
公共云新预付费资源包上线
查看详情
2019-08-27 功能优化
【TTS】新增4个英文精品声音
查看详情
2019-08-27 功能优化
【TTS】儿童音艾彤和艾薇模型上线
查看详情
2019-08-27 功能优化
【TTS】艾夏声音更新发布
查看详情
2019-08-27 功能优化
【TTS】语音合成自建催收声音艾雅上线
查看详情
2019-09-19 功能优化
【TTS】定制声音页面增加第一财经-阳子样音和第一财经logo
查看详情
2019-09-19 功能优化
【TTS】定制声音页面增加宝拉样音和凯叔logo
查看详情
2019-09-19 功能优化
文件转写支持多后处理集群路由
查看详情
2019-10-21 功能优化
公共云首页改版
查看详情
2019-10-23 功能优化
【TTS】艾娜模型首发
查看详情
2019-10-28 功能优化
c++ sdk的token获取机制改造
查看详情
2019-10-28 功能优化
java sdk 的AccssToken改造
查看详情
2019-10-31 功能优化
【公有云官网】支持录音文件识别体验模块
查看详情
2019-11-08 功能优化
公共云在创建app之前就展示原子能力
查看详情
2019-11-28 功能优化
【TTS】服务端和SDK支持设置MP3码率接口
查看详情
2019-12-12 功能优化
长文本预付费资源包上线
查看详情
2019-12-30 功能优化
公共云艾美,艾彤模型优化
查看详情
2020-01-18 新功能/规格
智能语音交互-本地部署v2.6.7版本发布
查看详情
2020-03-01 价格调整
公共云试用版免费策略调整
查看详情
2020-04-02 新功能/规格
公共云实时转写语音识别服务支持高级vad参数功能,可进一步满足用不同场景下的定制化vad需求
查看详情
2020-05-11 新功能/规格
语音合成产品新增多种方言声音
查看详情
2020-05-15 新功能/规格
ASR语音识别产品新增日语和西班牙语识别模型
查看详情
2020-06-04 新功能/规格
智能语音交互产品,语音识别新增非电话场景的粤语识别模型
查看详情
2020-06-18 新功能/规格
阿里云智能语音交互国际站商业化发布
查看详情
2020-06-28 新功能/规格
语音识别产品新增四川话模型(电话场景)
查看详情
2020-09-10 新功能/规格
智能语音交互新一代“端到端”语音识别模型上线
查看详情
2020-09-15 新功能/规格
语音识别产品新增韩语、印尼语、越南语、阿拉伯语和哈萨克语等多个语种的语音识别模型
查看详情
2021-11-01 新功能/规格
阿里云-智能语音交互-听悟(商业化) 发布
查看详情
2022-03-21 新地域/新可用区
华北2(北京)、华南1(深圳)正式开服
查看详情
2022-04-10 功能优化
录音文件识别体验升级
查看详情
2022-05-16 新功能/规格
语音分析系列(说话人识别、声音事件检测、性别识别、语种识别)相关服务重磅发布
查看详情
查看全部日志

更多产品与服务

通义听悟
通义听悟支持在课程、会议、访谈等场景下实时转录和音视频转文字,智能生成总结,实时翻译打破跨语言沟通障碍。通义听悟还支持快速标记关键信息,识别结果和笔记能够轻松下载并分享给其他用户,让信息流动起来。
录音文件识别
对用户上传的录音文件进行识别,上传完之后3小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。
实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
语音分析
通过对实时上传的音频流或离线音频文件进行智能解析,根据用户请求参数,高效精准的进行包括说话人身份核验、语种识别、性别识别以及声音事件监测等高阶语音分析能力,适应于智能客服、音视频会议以及多媒体智能分析等场景 。

文档与工具