语音合成
高拟真度、灵活配置的语音合成产品,打通人机交互的闭环,让应用逼真发声。多种音色可供选择,并提供调节语速、语调、音量等功能。如有私有化部署(本地部署软件)需求和商务问题,请联系:nls_support@service.aliyun.com
活动与推广

产品规格

语音合成
长文本语音合成
语音合成 30千次
一次最多提交300字以内文本,转换成自然流畅的语音,提供调节语速、语调、音量等功能
30千次
70余种发音人随心体验
智能客服、语音助手、外呼通知等场景
新客0元体验
100.00/年起
语音合成 1000千次
一次最多提交300字以内文本,转换成自然流畅的语音,提供调节语速、语调、音量等功能
1000千次
70余种发音人随心体验
智能客服、语音助手、外呼通知等场景
新客0元体验
1800.00/年起
语音合成 10000千次
一次最多提交300字以内文本,转换成自然流畅的语音,提供调节语速、语调、音量等功能
10000千次
70余种发音人随心体验
智能客服、语音助手、外呼通知等场景
新客0元体验
15000.00/年起
语音合成 84000千次
一次最多提交300字以内文本,转换成自然流畅的语音,提供调节语速、语调、音量等功能
84000千次
84000千次
182000千次
300000千次
70余种发音人随心体验
智能客服、语音助手、外呼通知等场景
新客0元体验
100000.00/年起
产品体验
多音
连续
撤回
重做

音量:
50
音调:
0
语速:
0
参考SSML标记语言介绍,了解如何使用SSML标记语言丰富合成效果

产品优势

技术先进
技术上兼顾了多级韵律停顿,达到自然合成韵律的目的,综合利用声学参数和语言学参数,建立基于深度学习的多重自动预测模型。
多领域覆盖
在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库,让阿里云语音合成在各领域、各行业的词汇发音更准确。
听感自然
使用海量的音频数据训练发音模型,合成音真实饱满、抑扬顿挫、富有表现力,MOS评分达到业内专业水准。
丰富音库
拥有丰富的音色库,提供约110个音色,更有标准男女声,温柔甜美女声等多种风格可供选择,支持标记语言(SSML) 合成方式,情感、音量、语速、音高等参数也支持动态调整。

产品功能

算法能力
Knowledge-Aware Neural TTS (KAN-TTS)语音合成技术将文本转化为语音,将神经网络与领域知识双重结合,兼具读音准确,韵律自然,声音还原度高,表现力强的特点
支持多语种方言及中英混合播报 目前支持日语及多种东南亚语种,粤语、天津、湖南、东北等方言,多个声音模型支持中英混合播报
工程能力
支持字级别时间戳可用于视频配音中的音频与字幕时间对齐,虚拟形象口型对齐等
可快速进行动态参数调整 支持动态调整发音人、语速、音量、语调、采样率、多种音频编码格式等;支持SSML标签语言;支持流式合成,边合成边播放

应用场景

智能客服
智能设备
导航播报
新闻资讯播报
有声书朗读
广告播报
智能客服
在客服机器人、服务机器人等场景中,与语音识别、自然语言处理等模块联动,打通人机交互的闭环,实现高品质的机器人发声,使得人机交互更流畅自然。
能够解决
提供多行业多场景的智能客服语音合成能力;
提高解答效率,提升客户满意度;
降低呼叫中心人工成本。
推荐搭配使用
智能设备
在智能家居、音箱、车载和可穿戴设备等场景中,将机器反馈给用户的内容通过高品质发声进行交互,同时可使用音素边界让虚拟形象“活”动起来。
能够解决
提高解答效率,提升客户满意度;
为智能设备赋予一个有温度的声音和更加深入人心的形象。
推荐搭配使用
导航播报
在驾车、步行、骑行等导航场景下,用户自主选择播报内容的发音人。
能够解决
确保导航用户无需看屏幕,即可通过语音导航顺利出行;
为用户在枯燥地驾驶过程中,带来新鲜感与趣味性;
提高用户粘性与使用频次。
推荐搭配使用
新闻资讯播报
在新闻、资讯类 APP 中,语音合成可以快速生成高质量的播报音频,多种音色适配各类文案播报,既可沉稳标准,又可欢快灵动。
能够解决
释放用户的双手和双眼;
提供多种发音风格的新闻播报;
打造更极致的传媒体验。
推荐搭配使用
有声书朗读
将电子教材、小说等文本材料,以文本文件的形式导入通过Knowledge aware Neural TTS技术实现的语音合成引擎,产生完整的可重复阅读的有声教材或者有声小说,方便用户随时取用。
能够解决
根据场景使用专属精品声音;
完美贴合阅读小说、文章等场景。
推荐搭配使用
广告播报
由数字主播代替真人促销员直播间内带货或在实体店内播报广告信息。
能够解决
播报品牌及效果广告,吸引消费者购买;
虚拟主播在直播间带货,降低相关人力成本。
推荐搭配使用

客户案例

更多产品与服务

通义听悟
通义听悟支持在课程、会议、访谈等场景下实时转录和音视频转文字,智能生成总结,实时翻译打破跨语言沟通障碍。通义听悟还支持快速标记关键信息,识别结果和笔记能够轻松下载并分享给其他用户,让信息流动起来。
一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等,可集成在各类App、智能家电、智能助手等产品中。
实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。可用于视频实时直播字幕、实时会议记录、实时法庭庭审记录、智能语音助手等场景。
录音文件识别
对用户上传的录音文件进行识别,上传完之后3小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。

文档与工具