• 博客园logo
  • 会员
  • 周边
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

intsig

合合信息技术团队
  • 博客园
  • 联系
  • 订阅
  • 管理

公告

[置顶] 文本纠错:提升OCR任务准确率的方法理解

摘要: 错字率是OCR任务中的重要指标,文本纠错需要机器具备人类水平相当的语言理解能力。随着人工智能应用的成熟,越来越多的纠错方法被提出。 近年来深度学习在OCR领域取得了巨大的成功,但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解,同时也降低文本的信息价值。在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字率受到学术界和工业界的广泛关注。合合信息通过本文来讲解文本纠错技术帮助更多人解决业务问题。通常文本纠错的流程可以分为错误文本识别、候选词生成和候选词排序三个步骤。文本纠错方法可包括基于CTC解码和使用模型两种方式,下面分别对这两种纠错方式进行介绍。 阅读全文

posted @ 2023-01-31 11:26 合合技术团队 阅读(649) 评论(0) 推荐(0)

2026年6月26日

聚焦“十五五”重点产业,启信宝发布《具身智能全景洞察》

摘要: 具身智能产业进入快速发展期,全国企业超1万家,上市公司269家;2025年新增企业同比增37%,融资规模激增近百倍。产业链呈“上游厚、中游薄、下游多元”格局,上游零部件企业超8000家,但视觉传感器等核心环节待突破。深圳、上海、温州为产业高地,深圳占比超10%。民营资本占85%,市场主导探索。政策与技术驱动下,产业正从实验室迈向产业化,激活中国制造增长潜力。 阅读全文

posted @ 2026-06-26 13:58 合合技术团队 阅读(4) 评论(0) 推荐(0)

简历智能解析:构建面向招聘场景的结构化提取方案(附GitHub项目地址)

摘要: 面向招聘场景的简历智能解析方案,不依赖固定模板,通过“版式解析→文档理解→结构化抽取→规则归一化”四层链路,将PDF/Word/图片简历转为ATS可消费的JSON。核心优势:保留版面坐标与模块边界,支持单/双栏、中英混排;先判断语言、版式和模块分布,再抽取姓名、教育、工作等字段,最后经规则层标准化(电话、日期、学历)。方案强调结果可溯源、人工轻量复核,长期维护成本低,已开源并提供试用。适用于人才库录入与招聘自动化。 阅读全文

posted @ 2026-06-26 10:36 合合技术团队 阅读(9) 评论(0) 推荐(0)

2026年6月24日

一份开发者自查清单:表格解析结果到手了,怎么判断能不能用?

摘要: 表格解析的难点不在OCR字符识别,而在结构关系重建。多层表头、嵌套表格、跨页长表等复杂结构,常导致数据归属错位,使下游RAG、ETL系统基于错误字段输出结果。可用标准是结构、关系、内容三者同时对,缺一不可。建议用真实表格实测验证。 阅读全文

posted @ 2026-06-24 11:34 合合技术团队 阅读(3) 评论(0) 推荐(0)

2026年6月23日

复杂表格解析的隐形断层:字都认对了,数据还是不能用

摘要: 表格解析的难点不在OCR字符识别,而在结构关系重建。多层表头、嵌套表格、跨页长表等复杂结构,常导致数据归属错位,使下游RAG、ETL系统基于错误字段输出结果。可用标准是结构、关系、内容三者同时对,缺一不可。建议用真实表格实测验证。 阅读全文

posted @ 2026-06-23 10:28 合合技术团队 阅读(9) 评论(0) 推荐(0)

2026年6月18日

物流提单智能解析:覆盖海运、空运与海运单的自动化处理方案(附GitHub项目地址)

摘要: 本文介绍了一种提单智能解析方案:通过版式感知OCR将各类提单转为带字段块与坐标的中间层,先分类识别单据类型并输出抽取策略,再将不同版式映射到统一业务Schema,最后完成单位标准化与原文溯源。该方案旨在帮助物流企业摆脱按模板维护的旧路径,实现规模化自动化处理。 阅读全文

posted @ 2026-06-18 20:39 合合技术团队 阅读(18) 评论(0) 推荐(0)

从一封封“给阿嬷的情书”到AI扫描,扫描全能王接力百年侨批文化传承

摘要: 《给阿嬷的情书》热映引发对侨批文化的关注。这些承载华侨家书与汇款的"纸短情长",记录着20世纪东南亚华侨的漂泊史与家国情怀。抖音博主"发财绘绘"通过分享祖辈侨批,让百年前南洋游子的牵挂重见天日;泉州最后代书先生姜明典手写十万封侨批的坚守,更展现文化传承的动人力量。如今,扫描全能王正以科技手段助力修复这些逐渐褪色的记忆,让跨越时空的家国情怀在数字时代永续流传。 阅读全文

posted @ 2026-06-18 15:25 合合技术团队 阅读(3) 评论(0) 推荐(0)

2026年6月11日

合合信息获 CVPR 2026 NTIRE“反光去除”赛道全球冠军

摘要: 合合信息在CVPR 2026的"SIRR in the Wild"赛道夺冠,其AI技术方案有效解决了自然场景图像反光去除难题。该技术具备高保真、强可控性、速度快等优势,可应用于智能文档处理、工业质检等领域。这项突破展现了合合信息在计算机视觉领域的技术实力,为复杂场景图像处理提供了创新解决方案,未来将持续推动AI技术的产业应用落地。 阅读全文

posted @ 2026-06-11 10:13 合合技术团队 阅读(6) 评论(0) 推荐(0)

2026年6月5日

2026中国图像图形大会召开,合合信息推出多模态可信AI鉴伪系统

摘要: AI伪造内容泛滥给社会秩序带来挑战,合合信息研发多模态可信鉴伪系统应对这一难题。该系统能识别文本图像、AI生成图像和视频的伪造痕迹,尤其针对传播链中因压缩、编辑导致的伪造信息损失问题优化检测能力。技术已应用于金融、保险、电商等30多个场景,如在某银行使人脸伪造拦截率提升8倍。合合信息通过算法创新、工程化落地和标准建设推动AI鉴伪技术发展,未来将持续守护数字内容真实性。 阅读全文

posted @ 2026-06-05 10:30 合合技术团队 阅读(19) 评论(0) 推荐(0)

2026年5月28日

银行流水智能解析:面向对账、审计与风控的结构化方案(附GitHub项目地址)

摘要: ​项目介绍:​这是一个面向财务对账、审计筛查及资金风控等场景的银行流水智能解析工具。支持上传 PDF、扫描件及手机拍照件格式的银行流水单据,自动抽取银行名称、账期、账户信息、期初期末余额及交易明细(日期、金额、借贷方向、余额、摘要、对手方等),并输出统一结构的 JSON 格式。具备表格结构还原、多页 阅读全文

posted @ 2026-05-28 10:47 合合技术团队 阅读(60) 评论(0) 推荐(0)

2026年5月27日

从“人工录单”到“秒级提取”:做物流数字化,提单处理不该是瓶颈

摘要: 做海外货代、物流数字化平台、报关公司的朋友,我们聊一个你们每天都见的东西。 一份海运提单。抬头是船公司的 LOGO,正文密密麻麻挤着 Shipper、Consignee、Notify Party、Port of Loading、Port of Discharge、船名航次、集装箱号、封号、货物描述— 阅读全文

posted @ 2026-05-27 16:59 合合技术团队 阅读(22) 评论(0) 推荐(0)

下一页
 
博客园  ©  2004-2026
浙公网安备 33010602011771号 浙ICP备2021040463号-3