材料结构化内容管理平台-搜象OCR解决方案
针对企业中的材料资源,进行收集、OCR模板定义、结构化文字识别以及内容的管理,形成并沉淀资源的结构化、半结构化和非结构化数据,对外提供数据服务。产品概述本系统主要针对企业中一些需要进行结构化内容提取的材料资源,例如申请材料、审批材料、人事档案以及各种证件发票等非结构化纸质或文件资
- 可自定义OCR模板,结构化文字识别
- 良好的架构设计,可灵活扩展,以应对大数据的支撑
产品概述
本系统主要针对企业中一些需要进行结构化内容提取的材料资源,例如申请材料、审批材料、人事档案以及各种证件发票等非结构化纸质或文件资源,系统进行资源的收集、结构化OCR模板定义、结构化文字识别以及内容的管理,形成并沉淀资源的结构化、半结构化和非结构化数据,对外提供数据服务。
产品特点
1、优秀的用户体验
有赖于我们前期对架构方案的技术选型以及在设计开发中对细节的专注。
2、自定义OCR模板,结构化文字识别
依托专业的模板定制组件,可对各行业业务所需的图像资料进行按需模板定制、字段结构化识别。
3、支持图片、PDF和压缩文件上传,支持多应用渠道接入
图片支持但不限于jpg、jpeg、png、bmp、gif、tif、tiff、jfif、heic、jpe及dib等格式;压缩文件支持兼容Window和Linux的ZIP格式,自动提取压缩文件中的图片和PDF进行识别。支持平台本地上传,支持多系统渠道接入上传。
4、图像非失真压缩、旋正、自动归档
几M大小图片可非失真压缩至一百多到两百多K,适合大规模存储,可开启自动旋正系统参数,对于非正向图片进行旋正存储,基于模板匹配技术,可对图像进行自动归档。
5、分布式对象存储
非结构化的图片和PDF数据进行底层的对象存储,高性能写入和读出,大规模数据场景下组件可设置多节点分布式存储。
6、内容标签聚类、热门置顶
默认文字识别结果自动标签生成,可按需自定义,内容标签自动聚合,热门标签置顶排序,点击标签可检索出相关图片和PDF页。
7、全文搜索、组合式条件搜索
集成Elasticsearch的强大检索能力,支持中文分词搜索、精确搜索、模糊搜索以及字符串匹配搜索等多条件组合下的复杂搜索。
8、自定义数据统一查询服务
通过简单编写类SQL脚本,可自定义平台的数据API,提供给外部应用渠道调用。
9、异步总线方式,提高系统并发能力和稳定性
基于kafka消息队列的总线模式,可以有效降低处理数据时对数据库的依赖,有效缓存削峰,提高并发处理能力,让系统稳健运行。
10、工业级的安全认证及权限管控
采用OAuth2协议标准对用户的访问进行安全认证,独立的权限管理服务将用户的权限粒度控制在菜单/按钮权限、数据权限以及接口权限。
11、大数据支撑
在大数据存储及计算方面,平台相关组件支持分布式、支撑横向水平扩展,例如分布式文件存储、NewSql数据库、分布式搜索引擎以及分布式消息总线等。
12、容器化运维
平台采用容器化结合技术部署运维。
产品测试
请联系我们获取测试地址和账号
全部用户
商品定价
商品价格=订购区间数量1*区间规格单价1+订购区间数量2*区间规格单价2。
举例:通话费率为不超过3分钟的部分按0.3元/分钟,超过3分钟的部分按0.2元/分钟;如果用户通话8分钟,收取的费用为3*0.3+5*0.2=1.9元。
商品价格=订购数量*数量所属区间单价。
举例:通话费率为不超过3分钟则0.3元/分钟,若超过3分钟则0.2元/分钟;如果用户通话2分钟,收取的费用为2*0.3=0.6元;如果用户通话8分钟,收取的费用为8*0.2=1.6元。
商品价格=订购数量*单价。
商品价格为页面呈现价格。