多维度信息识别
从视觉、文字、语音、运行行为等多个维度对视频信息进行分析,识别视频中的人物、物体场景、地标、文字、语音等内容。
视觉识别
分析视频的视觉图像信息,识别人物、物体、场景等图像内容。
文字识别
识别视频图像中的文字,提取图像文本内容。
语音识别
分析视频中的语音信息,提取语音文本内容。
运动行为识别
分析视频动态信息,识别运动、动作、行为事件等内容。
多模态内容理解
采用多模态融合对齐、跨模态映射等技术,对媒体内容进行多模态融合识别,高效、精准理解视频内容。
多模态对齐
识别多模态间不同元素的联系和对齐关系,实现视频文字、语音、视觉等不同模态信息的对齐理解。
多模态融合
整合不同模态间的模型和特征,提高理解能力和效率,实现语音文字文本纠错能力,提升识别准确率。
多模态联合表征
将多模态信息进行整合及联合表征,实现视频内容的一体化识别。
丰富灵活的标签
结合成熟完善的媒体标签体系,根据多模态融合理解结果对媒体文件进行智能打标,输出多维度视频标签信息,同时提供灵活的标签自定义功能。
智能标签提取
标签处理集成自定义过滤、标签去重、标签合并、权重排序等算法,提供高效、准确、实用的智能打标能力。
多维度标签输出
结合融合理解结果及标签体系,输出多维度视频标签,包括视频分类标签、人物标签、物体场景标签、文本标签等。
支持自定义标签
支持地标词库注册、人脸自注册、未知人脸聚类、标签黑名单、标签热词等标签自定义功能,满足不同场景下的使用需求。