实时语音识别

实时语音识别是对不限时长的音频流做实时识别，达到“边说边出文字”的效果，内置智能断句，可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。

通义听悟免费体验火热进行中，体验用大模型做学习笔记、会议记录！

活动与推广

产品规格

产品体验

语种:

普通话英语粤语

产品优势

易接入

管控台可视化进行项目、场景、功能配置及自学习，并提供API和多种SDK，接入成本极低。

识别准

数年持续提升准确率，通用字准确率90%以上，部分模型可达99%。

处理快

毫秒级处理返回语音识别结果。

定制模型

语音识别可提供所需场景的音频及标注文件，定制专属识别模型，进一步提升识别准确率。

产品功能

自研的SAN-M模型摒弃传统模型模块多系统复杂的缺点，在客服、直播、会议、输入法、教育、交互识别等场景下，准确率较传统模型提升10%-30%

多语种支持支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别

全新“端到端”框架新的“端到端”框架同时支持离线转写和实时流式识别，兼容两种模式的诸多优势。服务性能整体优化，时延和并发优势明显

应用场景

实时会议记录

视频实时直播字幕

实时法庭庭审记录

实时客服记录

实时会议记录

视频会议网络环境不稳定或特殊情况遗漏部分会议内容，导致会议整体效果不理想。

能够提供

将会议中的音频实时转换成文字，用于字幕展示及实时纪要查阅；

提升会议产出的效率。

推荐搭配使用

录音文件识别

一句话识别

语音合成

视频实时直播字幕

直播产生大量音视频数据，无法全量分析、识别，数据价值无法有效挖掘，内容合规难以保障。

能够提供

现场演讲场景、直播场景下，将视频中的音频实时转写成字幕，或进行娱乐直播内容场景识别；

提升云直播竞争优势；

业务数据分析及业务合规保障。

推荐搭配使用

录音文件识别

一句话识别

语音合成

实时法庭庭审记录

目前通过书记员对庭审进行记录的过程中耗费人力，也会带有书记员的主观理解。

能够提供

将庭审各方在庭审过程中的语音转化为文字，供各方在庭审页面上查看；

减少书记员工作，提高法庭运作效率。

推荐搭配使用

录音文件识别

一句话识别

语音合成

实时客服记录

客户服务过程中，发生员工与客户争执或关键业务提醒不到位，导致公司与客户双输。

能够提供

将呼叫中心的语音实时转写为文字，用于客服工作提醒或服务问题实时升级；

通过实时质检，实现服务风险管理，避免企业与客户损失。

推荐搭配使用

录音文件识别

一句话识别

语音合成

产品动态

查看全部日志

更多产品与服务

通义听悟

通义听悟支持在课程、会议、访谈等场景下实时转录和音视频转文字，智能生成总结，实时翻译打破跨语言沟通障碍。通义听悟还支持快速标记关键信息，识别结果和笔记能够轻松下载并分享给其他用户，让信息流动起来。

语音分析

通过对实时上传的音频流或离线音频文件进行智能解析，根据用户请求参数，高效精准的进行包括说话人身份核验、语种识别、性别识别以及声音事件监测等高阶语音分析能力，适应于智能客服、音视频会议以及多媒体智能分析等场景。

录音文件识别

对用户上传的录音文件进行识别，上传完之后3小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。

一句话识别

对时长较短（一分钟以内）的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息等，可集成在各类App、智能家电、智能助手等产品中。

文档与工具