备案控制台

产品价格

智能标签集成于视频点播产品、媒体处理产品提供叠加服务，按照实际使用量进行计费。请先开通需要使用的产品服务，以使用智能标签功能。

视频点播

按智能标签处理成功的视频文件总时长计费。即对处理成功的视频文件按秒数累计，折合成分钟按量计费，不足一分钟部分不收费。

按智能标签处理成功的视频文件总时长计费。即对处理成功的视频文件按秒数累计，折合成分钟按量计费，不足一分钟部分不收费。

媒体处理

按智能标签处理成功的视频文件总时长计费，即对处理成功的视频文件按秒数累计，折合成分钟按量计费，不足一分钟部分不收费。

按智能标签处理成功的视频文件总时长计费，即对处理成功的视频文件按秒数累计，折合成分钟按量计费，不足一分钟部分不收费。

{"moduleinfo":{"tit":"精心打造的功能","id":"guid11","bgColor":"#fafafa","choose":"false"},"optioninfo":{"dynamic":"true","static":"true"},"list":[{"ltit":"多维度信息识别","lcon":"从视觉、文字、语音、运行行为等多个维度对视频信息进行分析，识别视频中的人物、物体场景、地标、文字、语音等内容。","right":[{"rcon":"分析视频的视觉图像信息，识别人物、物体、场景等图像内容。","rtit":"视觉识别"},{"rcon":"识别视频图像中的文字，提取图像文本内容。","rtit":"文字识别"},{"rcon":"分析视频中的语音信息，提取语音文本内容。","rtit":"语音识别"},{"rcon":"分析视频动态信息，识别运动、动作、行为事件等内容。","rtit":"运动行为识别"}],"photo":""},{"ltit":"多模态内容理解","lcon":"采用多模态融合对齐、跨模态映射等技术，对媒体内容进行多模态融合识别，高效、精准理解视频内容。","right":[{"rcon":"识别多模态间不同元素的联系和对齐关系，实现视频文字、语音、视觉等不同模态信息的对齐理解。","rtit":"多模态对齐"},{"rcon":"整合不同模态间的模型和特征，提高理解能力和效率，实现语音文字文本纠错能力，提升识别准确率。","rtit":"多模态融合"},{"rcon":"将多模态信息进行整合及联合表征，实现视频内容的一体化识别。","rtit":"多模态联合表征"}]},{"ltit":"丰富灵活的标签","lcon":"结合成熟完善的媒体标签体系，根据多模态融合理解结果对媒体文件进行智能打标，输出多维度视频标签信息，同时提供灵活的标签自定义功能。","right":[{"rcon":"标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法，提供高效、准确、实用的智能打标能力。","rtit":"智能标签提取"},{"rcon":"结合融合理解结果及标签体系，输出多维度视频标签，包括视频分类标签、人物标签、物体场景标签、文本标签等。","rtit":"多维度标签输出"},{"rcon":"支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能，满足不同场景下的使用需求。","rtit":"支持自定义标签"}]}]}

{"$env":{"JSON":{}},"$page":{"env":"production"},"$context":{"moduleinfo":{"tit":"精心打造的功能","id":"guid11","bgColor":"#fafafa","choose":"false"},"optioninfo":{"dynamic":"true","static":"true"},"list":[{"ltit":"多维度信息识别","lcon":"从视觉、文字、语音、运行行为等多个维度对视频信息进行分析，识别视频中的人物、物体场景、地标、文字、语音等内容。","right":[{"rcon":"分析视频的视觉图像信息，识别人物、物体、场景等图像内容。","rtit":"视觉识别"},{"rcon":"识别视频图像中的文字，提取图像文本内容。","rtit":"文字识别"},{"rcon":"分析视频中的语音信息，提取语音文本内容。","rtit":"语音识别"},{"rcon":"分析视频动态信息，识别运动、动作、行为事件等内容。","rtit":"运动行为识别"}],"photo":""},{"ltit":"多模态内容理解","lcon":"采用多模态融合对齐、跨模态映射等技术，对媒体内容进行多模态融合识别，高效、精准理解视频内容。","right":[{"rcon":"识别多模态间不同元素的联系和对齐关系，实现视频文字、语音、视觉等不同模态信息的对齐理解。","rtit":"多模态对齐"},{"rcon":"整合不同模态间的模型和特征，提高理解能力和效率，实现语音文字文本纠错能力，提升识别准确率。","rtit":"多模态融合"},{"rcon":"将多模态信息进行整合及联合表征，实现视频内容的一体化识别。","rtit":"多模态联合表征"}]},{"ltit":"丰富灵活的标签","lcon":"结合成熟完善的媒体标签体系，根据多模态融合理解结果对媒体文件进行智能打标，输出多维度视频标签信息，同时提供灵活的标签自定义功能。","right":[{"rcon":"标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法，提供高效、准确、实用的智能打标能力。","rtit":"智能标签提取"},{"rcon":"结合融合理解结果及标签体系，输出多维度视频标签，包括视频分类标签、人物标签、物体场景标签、文本标签等。","rtit":"多维度标签输出"},{"rcon":"支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能，满足不同场景下的使用需求。","rtit":"支持自定义标签"}]}]}}

精心打造的功能

多维度信息识别

从视觉、文字、语音、运行行为等多个维度对视频信息进行分析，识别视频中的人物、物体场景、地标、文字、语音等内容。

视觉识别

分析视频的视觉图像信息，识别人物、物体、场景等图像内容。

文字识别

识别视频图像中的文字，提取图像文本内容。

语音识别

分析视频中的语音信息，提取语音文本内容。

运动行为识别

分析视频动态信息，识别运动、动作、行为事件等内容。

多模态内容理解

采用多模态融合对齐、跨模态映射等技术，对媒体内容进行多模态融合识别，高效、精准理解视频内容。

多模态对齐

识别多模态间不同元素的联系和对齐关系，实现视频文字、语音、视觉等不同模态信息的对齐理解。

多模态融合

整合不同模态间的模型和特征，提高理解能力和效率，实现语音文字文本纠错能力，提升识别准确率。

多模态联合表征

将多模态信息进行整合及联合表征，实现视频内容的一体化识别。

丰富灵活的标签

结合成熟完善的媒体标签体系，根据多模态融合理解结果对媒体文件进行智能打标，输出多维度视频标签信息，同时提供灵活的标签自定义功能。

智能标签提取

标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法，提供高效、准确、实用的智能打标能力。

多维度标签输出

结合融合理解结果及标签体系，输出多维度视频标签，包括视频分类标签、人物标签、物体场景标签、文本标签等。

支持自定义标签

支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能，满足不同场景下的使用需求。

业界领先的优势

标签体系完善

综合优酷、土豆、UC海外等平台的PGC、UGC视频内容进行学习、训练，提供最全面的视频标签体系

支持文字链

经验成熟

利用阿里大文娱海量的媒资数据和用户行为数据，并在优酷等内部平台及外部客户平台中提供稳定服务

支持文字链

定制化能力

提供通用标签类目体系的同时，开放定制化的能力，支持人脸自注册、未知人脸聚类、自定义标签等扩展功能，更有针对性地帮助客户解决平台的视频处理效率问题

支持文字链

部署方式灵活

支持多种部署形态，支持在线调用、线下私有化部署方式，可根据业务需求选择适用的部署方案

支持文字链