OCR 文档自学习
OCR 文档自学习,是面向“无算法基础”的企业与个人开发者用户,通过全流程可视化操作,支持用户完成模板配置、数据处理&标注、模型构建&训练、部署发布等操作的一站式工具平台。平台采用少样本训练、智能预标注,视觉-语义联合学习等前沿 AI 技术,支持客户低成本实现个性化场景的文档数字化和信息化业务。

产品规格-后付费按次调用

【通知】阿里云 OCR 文档自学习自2023年8月23日正式开启全面商业化
商品名称
自学习平台
产品规格
自定义 KV 模版
自定义表格模版
预置能力
单据票证信息抽取
表格信息抽取
长文档信息抽取
免费额度
500次
1w页以下
0.12元/页
0.04元/页
0.05元/页
1w~10w页
0.09元/页
0.035元/页
0.045元/页
10w~50w页
0.07元/页
0.03元/页
0.04元/页
50w~100w页
0.04元/页
0.025元/页
0.035元/页
100w页以上
0.03元/页
0.02元/页
0.03元/页

产品规格-预付费资源包

自定义KV模版

配置一张样本图片,无需额外数据标注和模型训练,完成固定版式票证的自定义字段抽取。
包类型
自定义KV模版资源包
流量包容量规格
1000次

自定义表格模版

配置一张样本图片,无需额外数据标注和模型训练,完成固定版式且有框线的单页表格自定义单元格抽取。
包类型
自定义表格模版资源包
流量包容量规格
1000次

单据票证信息抽取资源包

通过小样本数据标注、训练,实现对版式相对固定的单据、证件、凭证的关键字段进行信息抽取
包类型
单据票证信息抽取资源包
流量包容量规格
1000次

表格信息抽取资源包

通过小样本数据标注、训练,实现对版式相对固定的表格、表单的关键字段进行信息抽取
包类型
表格信息抽取资源包
资源包容量规格
1000
查看更多商品

产品优势

操作简易
利用少量图片样本即可训练出模型,使用门榄低,模板可用度高
实时性高
依托于阿里自建的 EAS 在线服务集群,提供弹性伸缩的低延时服务
技术精深
基于阿里云机器学习平台 PAI ,训练出的文本检测及识别模型
服务稳定
提供弹性服务,扩展性好,算法持续的迭代优化对用户稳定性无影响

产品功能

自定义 KV 模板配置一张样本图片,无需额外数据标注和模型训练,完成固定版式票证的自定义字段抽取。立即使用
自定义表格模板配置一张样本图片,无需额外数据标注和模型训练,完成固定版式且有框线的单页表格自定义单元格抽取。立即使用
单据票证信息抽取 数据驱动,通过小样本数据标注、训练,实现对版式相对固定的单据、证件、凭证的关键字段进行信息抽取。立即使用
表格信息抽取数据驱动,通过小样本数据标注、训练,实现对版式相对固定的表格、表单的关键字段进行信息抽取。立即使用
长文档信息抽取数据驱动,通过小样本数据标注、训练,实现对多版式、非结构化的长文档关键信息进行抽取。立即使用

应用场景

特殊卡证识别
单据票据识别
文档关键信息提取识别
场景描述
一些没有定制接口的卡证,都可以用自学习平台的方案解决
能够解决
对于一些不常见,种类繁多的特殊卡证,也可以通过零代码的方式解决
推荐搭配使用
场景描述
例如各种制式的门店小票、行程单等,可以配置不同的模板,分类进行识别
能够解决
可分类识别各类结构多样的单据票据,降低商家人力成本,提高效率
推荐搭配使用
场景描述
从文档中提取部分重点信息,获取结构化返回结果
能够解决
对信息结构复杂的文档也可以通过模板配置进行自动化识别,大大提升办公效率
推荐搭配产品

使用方式

更多产品与服务

文档与工具