【锦图简历】程序对简历扫描件的识别流程

张

张建站

2026/6/30 22:27:45

10分钟阅读

在做简历上传功能时我低估了一个场景扫描件 PDF——用户从 scanner 或微信保存的 PDF肉眼看正常文本层却是空的。此时pdf-parse一类库几乎抽不出字用户却认为「我上传没问题」。下面是我们在线上用的分层提取 OCR 回退思路供同类文档上传场景参考。1. 先判断有没有可提取的文本层流程第一步不是 OCR而是尽量便宜地拿文本优先Poppler pdftotext结构化参数行阈值、单元格分隔回退pdf-parse多种提取模式统计「有效字符数」去空白后低于阈值如 80 字→ 判定为扫描件这样能避免对可复制 PDF 做昂贵的 OCR。2. 扫描件渲染 → OCR → 规整判定为扫描件后PDF Buffer → pdftoppm / pdf-to-img按页渲染DPI 建议 300 左右 → 图像预处理灰度、对比度、锐化、小图放大 → Tesseractchi_simengPSM 3/11/6 择优 → 文本后处理去乱码行、拆粘连章节 → 简历规整章节换行、列表符、经历行 → 规则诊断 / AI 分析PSM 说明简版3全自动分页适合整页简历11稀疏文本适合 bullet 列表6单块文本部分模板反而更好可对同一页跑多种 PSM用质量评分有效字符比章节词命中选最优而不是写死一种。3. 工程踩坑真实遇到过坑现象处理Docker 缺语言包OCR 全乱码镜像预装chi_sim、eng多页 OCR 超时用户以为卡死限最大页数流式进度Nginx 60s 断连上传到一半失败调proxy_read_timeoutOCR 阶段发 keepalive双栏 Word 模板左栏技能与右栏经历串行宽图分列 OCR 后处理去噪另文详述DPI 过低小字号中文漏字150 → 300小图再放大4. 进度与体验OCR 单页可能 2040 秒整份 90 秒不罕见。不要只给一个 spinner。我们采用NDJSON 流式响应步骤例如extract → ocr → normalize → done每步推送进度百分比与人话文案「正在识别扫描版文字…」。OCR 阶段长时间无业务输出时额外发心跳行避免代理认为连接空闲而断开。5. 代码结构示意不必照搬关键是阶段可观测// 伪代码上传解析入口asyncfunctionparseResumeDocument(buffer,fileName){onStep(extract);consttextLayerawaittryExtractText(buffer);if(hasEnoughText(textLayer)){onStep(normalize);returnformat(textLayer);}onStep(ocr);constocrTextawaitocrPdfPages(buffer);// poppler render tesseractonStep(normalize);returnformat(cleanupOcr(ocrText));}6. 结论扫描 PDF 在中文求职场景里不是边缘 case是常态之一后端要能自动回退 OCR并在 UI 上让用户等得明白OCR 之后还要规整人工校对尤其双栏模板我们在产品锦图简历里按上述链路实现简历上传Word / 可复制 PDF / 扫描 PDF / 图片。若你也在做文档类 ToC 工具欢迎评论区交流 Poppler 与 Tesseract 在容器里的打包方式。

【Linux】第6期动静态库制作与原理

目录开头：一.库的基础认知：什么是库？二.静态库1.静态库的生成（1）归档工具：ara.基本语法b.高频使用场景与示例I.创建静态库（最核心用法）II.查看归档内容III.提取归档中的成员VI.删除归…...

2026/6/30 22:27:08 阅读更多 →

Appium 移动端自动化环境搭建（Android/iOS）

Appium 是目前移动端 APP 自动化测试主流开源框架，跨平台、支持 Android/iOS、无需改源码、适配 Python 语言。本文从零搭建完整 Appium 移动端自动化环境，零基础可直接复刻落地。一、Appium 核心原理基于 Selenium 协议扩展，复用 Web 自动化…...

2026/6/30 22:26:23 阅读更多 →

YOLO26N 姿态估计 ONNX 导出与模型简化

YOLO26N 姿态估计 ONNX 导出与模型简化 1. ONNX 导出 #!/usr/bin/env python3 """export_pose_onnx.py""" from ultralytics import YOLOmodel YOLO("runs/pose/yolo26n_pose_custom/weights/best.pt")# 导出 ONNX model.export(form…...

2026/6/30 22:25:02 阅读更多 →

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解

棋牌室茶楼收银别只看价格：京东收银K6收银机为什么值得小店老板优先了解棋牌室、茶楼老板选收银机，常见问题不是“能不能收钱”，而是开台计时别算错、会员储值别记混、团购核销别卡住、茶水小食别漏单，营业结束后还能把账看清楚。…...

2026/6/29 3:44:23 阅读更多 →

Claude 桌面版深度使用技巧指南

一、文件分析的高阶技巧1. 截图与设计稿的精确提问法不要只丢一张图说“帮我看看”。带指令地上传效果倍增：像素级评审：“以 iOS 设计规范为标准，检查这张截图的间距、字号和颜色一致性，标出具体坐标。”信息提取：“把…...

2026/6/30 10:39:10 阅读更多 →

【Claude】Request timed out 请求超时报错已解决

【Claude】Request timed out 请求超时报错已解决关键词：Claude Code、Request timed out、API_TIMEOUT_MS、请求超时、网络代理、自动重试、Waiting for API response一、问题现象：一行干巴巴的超时 Claude Code 干着干着，终端冒出极简的一行…...

2026/6/29 23:16:32 阅读更多 →