智能标签,是通过对视频中视觉、文字、语音、行为等信息进行分析,结合多模态信息融合及对齐技术,实现高准确率内容识别,自动输出视频的多维度内容标签,将非结构化信息转化为结构化信息。可应用于视频智能分析、视频审核、视频搜索、视频个性化推荐,助力视频智能生产。

主要功能包括:多维度信息识别,从视觉、文字、语音、运行行为等多个维度对视频信息进行分析,识别视频中的人物、物体场景、地标、文字、语音等内容。多模态融合理解,采用多模态融合对齐、跨模态映射等技术,对媒体内容进行多模态融合识别,高效、精准理解视频内容。丰富灵活的标签:结合成熟完善的媒体标签体系,根据多模态融合理解结果对媒体文件进行智能打标,输出多维度视频标签信息,同时提供灵活的标签自定义功能。

产品优势包括:标签体系完善,综合优酷、土豆、UC海外等平台的PGC、UGC视频内容进行学习、训练,提供最全面的视频标签体系。 多模态融合,提供视觉、文字、语音、运动行为等多模态信息分析技术,可进行自适应融合分析,提高视频分析的客观性和准确性。经验成熟,利用阿里大文娱海量的媒资数据和用户行为数据,并在优酷等内部平台及外部客户平台中提供稳定服务。定制化能力:提供通用标签类目体系的同时,开放定制化的能力,支持人脸自注册、未知人脸聚类、自定义标签等扩展功能,更有针对性地帮助客户解决平台的视频处理效率问题。

精心打造的功能

多维度信息识别

从视觉、文字、语音、运行行为等多个维度对视频信息进行分析,识别视频中的人物、物体场景、地标、文字、语音等内容。

视觉识别

分析视频的视觉图像信息,识别人物、物体、场景等图像内容。

文字识别

识别视频图像中的文字,提取图像文本内容。

语音识别

分析视频中的语音信息,提取语音文本内容。

运动行为识别

分析视频动态信息,识别运动、动作、行为事件等内容。

多模态内容理解

采用多模态融合对齐、跨模态映射等技术,对媒体内容进行多模态融合识别,高效、精准理解视频内容。

多模态对齐

识别多模态间不同元素的联系和对齐关系,实现视频文字、语音、视觉等不同模态信息的对齐理解。

多模态融合

整合不同模态间的模型和特征,提高理解能力和效率,实现语音文字文本纠错能力,提升识别准确率。

多模态联合表征

将多模态信息进行整合及联合表征,实现视频内容的一体化识别。

丰富灵活的标签

结合成熟完善的媒体标签体系,根据多模态融合理解结果对媒体文件进行智能打标,输出多维度视频标签信息,同时提供灵活的标签自定义功能。

智能标签提取

标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法,提供高效、准确、实用的智能打标能力。

多维度标签输出

结合融合理解结果及标签体系,输出多维度视频标签,包括视频分类标签、人物标签、物体场景标签、文本标签等。

支持自定义标签

支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能,满足不同场景下的使用需求。