一句话识别

一句话识别可对一分钟以内的语音进行实时识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等。可集成在各类App、智能家电、智能助手等产品中。

活动与推广

产品规格

易接入

管控台可视化进行项目、场景、功能配置及自学习，并提供API和多种SDK，接入成本极低。

识别准

数年持续提升准确率，通用字准确率90%以上，部分模型可达98%。

处理快

低延迟，秒级处理返回语音识别结果。

定制模型

语音识别可提供所需场景的音频及标注文件，定制专属识别模型，进一步提升识别准确率。

自研的SAN-M模型摒弃传统模型模块多系统复杂的缺点，在客服、直播、会议、输入法、教育、交互识别等场景下，准确率较传统模型提升10%-30%

多语种支持支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别

多产品形态支持录音文件识别、实时语音识别、一句话识别，可供用户自行上传数据，对阿里的语音技术进行深度定制，从而提升特定业务领域的识别准确度

语音搜索

社交应用

语音指令

短语音消息

语音搜索

有些场景无法打字，但需要进行信息查询，或打字慢影响客户效率。

能够解决

支持各种场景下的语音搜索，比如地图导航、浏览器搜索等；

集成到任何形式的手机应用中，最大限度的解放双手。

查看全部日志

通义听悟

通义听悟支持在课程、会议、访谈等场景下实时转录和音视频转文字，智能生成总结，实时翻译打破跨语言沟通障碍。通义听悟还支持快速标记关键信息，识别结果和笔记能够轻松下载并分享给其他用户，让信息流动起来。

录音文件识别

对用户上传的录音文件进行识别，上传完之后3小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。

实时语音识别

对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。

语音分析

通过对实时上传的音频流或离线音频文件进行智能解析，根据用户请求参数，高效精准的进行包括说话人身份核验、语种识别、性别识别以及声音事件监测等高阶语音分析能力，适应于智能客服、音视频会议以及多媒体智能分析等场景。