.
定制属于你的语音识别模型

用户可以自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度。目前仅支持上传文本数据对语言模型进行定制,未来会推出上传音频数据对声学模型进行定制。 如有任何需求或疑问,请直接联系:nls_support@service.aliyun.com。

语音识别自学习模型优势
灵活易用
自学习平台颠覆性地提供一键式自助语音优化方案,极大地降低进行语音智能优化所需要的门槛,让不懂技术的业务人员也可以来显著提高自身业务识别准确率。
准确稳定
自学习平台优化效果在很多内外部合作伙伴和项目上得到了充分验证,很多项目最终通过自学习平台不光解决了效果可用性问题,还在项目中超过了竞争对手使用传统优化方式所取得的优化效果。
反应迅速
自学习平台能够在数分钟之内完成业务专属定制模型的优化测试上线, 更能支持业务相关热词的实时优化,一改传统定制优化长达数周甚至数月的漫长交付弊端。
应用场景

法庭庭审转写

智能客服质检

实时直播字幕及监控

业务电话内容监控

  • 法庭庭审转写
  • 智能客服质检
  • 实时直播字幕及监控
  • 业务电话内容监控

法庭庭审转写方案

将庭审过程中的法官、被告等角色所说的话实时转写成文字,从而替代了书记员的角色。阿里云智能法庭方案已经覆盖上百法庭,经过千次庭审的洗礼,得到广泛好评。合作客户包括浙江省全省法院、北京知识产权法院等。

业务痛点及需求

之前主要通过书记员对庭审过程进行记录,记录下来的文字会带有书记员的理解和归纳。智能语音识别技术可以将庭审各方的语音直接转变为文字,供各方在庭审页面上查看,并可作为庭审笔录直接使用。

优势

1. 积累了大量司法方面数据,转写效果佳;
2. 全国首次在庭审中使用语音识别,正确率超过97%;
3. 支持专有云部署;
4. 对于特殊关键词,如人名等,可以分庭做词表导入,以优化识别准确率。

智能客服质检

传统质检一般是对客服电话录音以人工听的方式进行检查,存在效率问题以及人员瓶颈。智能质检能够对所有服务过程进行全量的实时质检,帮助企业的服务部门摆脱人的限制,全面把控服务质量。

使用流程

将待检的语音数据转换成文本之后,通过质检引擎产生质检结果,并生成统计数据。质检人也可以在管控台上定位查看到每条数据命中的规则点、以边听边看的方式对结果进行校验。

优势

1. 全量自动化——能实现全量客服通话、工单的自动化质检;
2. 实时性——能做到电话一挂立即完成质检,实时看到最新的结果;
3. 规则灵活性——规则配置超灵活,覆盖到各类复杂的业务场景。

实时直播字幕及监控

实时直播字幕及监控

业务痛点及需求

1. 在开大会做演讲时,现场环境如果比较嘈杂,座位靠后或远程做直播时,可能会听不清演讲内容;
2. 一个直播APP,每天产生的视频数量多达数十万小时。严肃直播有字幕需求,娱乐直播有监控需求。

优势

1. 在阿里云栖大会现场做了演讲的转写,在正确率上击败国际速记比赛亚军,目前已经成为云栖大会的标配产品;
2. 实时转写速度极快,几乎与直播同步。

业务电话内容监控

传统中介业务中容易出现客户双方建立联系后抛弃中介的事情,如房东诱导房客进行线下交易,从而导致中介公司经济损失。这类行为往往发生在双方沟通的电话中。通过阿里云语音识别服务,可以帮助中介及时的发现上述问题,从而阻止逃单行为,避免经济损失。

使用流程

将电话实时传给阿里云的语音转文本接口,阿里云将及时返回数据,客户可使用阿里云的质检系统或者自建分析系统对返回的文字做分析,从而及时发现问题。

优势

1. 无需人工介入,减少人力成本;
2. 实时性好,可以及时发现问题。

新品上线,惊喜来袭

录音文件识别
对用户上传的录音文件进行识别
特性:
  • 支持音频编码格式:PCM、OPUS
  • 支持多种语言的识别
  • 支持音频采样率:8000Hz、16000Hz
预付6折价 :¥10800元/10000小时
价         格:¥18000元/10000小时
实时语音转写
可达到“边说边出文字”的效果
特性:
  • 支持音频编码格式:PCM
  • 支持音频采样率:8000Hz、16000Hz
  • 支持对返回结果进行设置
预付6折价 :¥15000元/10000小时
价         格:¥25000元/10000小时
语音合成
将用户提交的文本转成流畅的语音
特性:
  • 支持输出PCM、WAV、MP3编码格式数据
  • 支持设置语速,语调,音量
  • 支持设置男声/女声
预付6折价 :¥15000元/10000千次
价         格:¥25000元/10000千次
一句话识别
适用于较短的语音交互场景
特性:
  • 支持轮询方式和回调方式
  • 支持自学习平台和热词
  • 普通话、方言、欧美英语等多种模型识别
预付6折价 :¥15000元/10000千次
价         格:¥25000元/10000千次

新品上线,惊喜来袭

录音文件识别
对用户上传的录音文件进行识别
特性:
  • 支持音频编码格式:PCM、OPUS
  • 支持多种语言的识别
  • 支持音频采样率:8000Hz、16000Hz
预付6折价 :¥10800元/10000小时
价         格:¥18000元/10000小时
实时语音转写
可达到“边说边出文字”的效果
特性:
  • 支持音频编码格式:PCM
  • 支持音频采样率:8000Hz、16000Hz
  • 支持对返回结果进行设置
预付6折价 :¥15000元/10000小时
价         格:¥25000元/10000小时
语音合成
将用户提交的文本转成流畅的语音
特性:
  • 支持输出PCM、WAV、MP3编码格式数据
  • 支持设置语速,语调,音量
  • 支持设置男声/女声
预付6折价 :¥15000元/10000千次
价         格:¥25000元/10000千次
一句话识别
适用于较短的语音交互场景
特性:
  • 支持轮询方式和回调方式
  • 支持自学习平台和热词
  • 普通话、方言、欧美英语等多种模型识别
预付6折价 :¥15000元/10000千次
价         格:¥25000元/10000千次
x