Qianfan-OCR实战案例：OCR结果接入LangChain构建企业专属文档RAG系统

张

张建站

2026/7/16 18:03:29

10分钟阅读

Qianfan-OCR实战案例OCR结果接入LangChain构建企业专属文档RAG系统1. 项目背景与价值在当今企业运营中大量有价值的信息被锁在各种文档中 - 合同、报告、表格、发票等。传统的人工处理方式效率低下而传统OCR技术又存在识别准确率低、无法理解文档结构等问题。Qianfan-OCR作为百度千帆推出的4B参数端到端文档智能多模态模型基于Qwen3-4B语言模型构建采用Apache 2.0协议完全开源能够一站式解决通用OCR识别高精度文字提取智能版面分析自动识别文档结构标题、段落、表格等语义理解结合提示词实现定向信息提取本文将展示如何将Qianfan-OCR与LangChain结合构建企业专属的文档RAG(检索增强生成)系统实现文档智能处理与知识问答。2. 环境准备与快速部署2.1 基础环境要求操作系统Linux (推荐Ubuntu 20.04)GPUNVIDIA显卡(16GB显存以上)内存32GB存储50GB可用空间2.2 一键部署Qianfan-OCR# 创建conda环境 conda create -n qianfan-ocr python3.11 -y conda activate qianfan-ocr # 安装依赖 pip install torch2.1.0 gradio4.12.0 # 下载模型权重 mkdir -p /root/ai-models/baidu-qianfan/ wget https://qianfan-model.oss-cn-beijing.aliyuncs.com/Qianfan-OCR.tar.gz -P /root/ai-models/baidu-qianfan/ tar -zxvf /root/ai-models/baidu-qianfan/Qianfan-OCR.tar.gz -C /root/ai-models/baidu-qianfan/ # 启动服务 cd /root/ai-models/baidu-qianfan/Qianfan-OCR python app.py服务启动后默认监听7860端口可通过http://localhost:7860访问Web界面。3. Qianfan-OCR核心功能实战3.1 基础OCR识别直接上传图片即可获取文字内容import requests url http://localhost:7860/api/ocr files {image: open(test.jpg, rb)} response requests.post(url, filesfiles) print(response.json()[text])3.2 布局分析模式启用Layout-as-Thought功能获取结构化文档分析params { prompt: 请分析文档结构, layout: True } response requests.post(url, filesfiles, dataparams) print(response.json()[structured_result])输出将包含标题、段落、表格等元素的定位与内容。3.3 定向信息提取通过提示词提取特定字段params { prompt: 提取合同中的甲方、乙方、签约日期和金额输出JSON格式 } response requests.post(url, filesfiles, dataparams) print(response.json()[extracted_info])4. 构建文档RAG系统4.1 系统架构设计[文档库] → [Qianfan-OCR处理] → [向量数据库] → [LangChain检索] → [LLM生成回答]4.2 关键实现步骤4.2.1 文档处理流水线from langchain.document_loaders import DirectoryLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import FAISS # 1. 使用Qianfan-OCR处理文档 def process_document(file_path): response requests.post(OCR_URL, files{image: open(file_path, rb)}) return response.json()[text] # 2. 文本分块 text_splitter RecursiveCharacterTextSplitter( chunk_size1000, chunk_overlap200 ) # 3. 创建向量库 embeddings HuggingFaceEmbeddings(model_nameBAAI/bge-small-zh-v1.5) documents [Document(page_contenttext) for text in processed_texts] vector_db FAISS.from_documents(documents, embeddings) vector_db.save_local(vector_store)4.2.2 检索增强问答链from langchain.chains import RetrievalQA from langchain.llms import OpenAI # 1. 加载向量库 vector_db FAISS.load_local(vector_store, embeddings) # 2. 创建检索链 qa_chain RetrievalQA.from_chain_type( llmOpenAI(temperature0), chain_typestuff, retrievervector_db.as_retriever() ) # 3. 提问 result qa_chain.run(我们公司与甲方的合同金额是多少) print(result)5. 企业级应用案例5.1 合同管理系统痛点合同数量庞大人工查找效率低关键条款难以快速定位版本对比困难解决方案使用Qianfan-OCR批量处理历史合同构建合同知识库实现自然语言查询找出所有包含违约责任条款的合同显示近三年与XX公司的合同金额变化5.2 财务文档处理痛点发票、报表等半结构化数据提取困难人工录入错误率高数据汇总耗时解决方案定制化提示词模板invoice_prompt 从发票中提取以下字段 - 发票号码 - 开票日期 - 销售方名称 - 金额(大写) - 金额(小写) 以JSON格式输出自动生成月度财务报告6. 性能优化建议6.1 批量处理加速from concurrent.futures import ThreadPoolExecutor def batch_process(files, max_workers4): with ThreadPoolExecutor(max_workersmax_workers) as executor: results list(executor.map(process_document, files)) return results6.2 缓存机制实现from diskcache import Cache cache Cache(ocr_cache) cache.memoize() def cached_ocr(file_path): return process_document(file_path)6.3 质量评估指标def evaluate_accuracy(ground_truth, ocr_result): from difflib import SequenceMatcher return SequenceMatcher(None, ground_truth, ocr_result).ratio()7. 总结与展望本文展示了如何利用Qianfan-OCR和LangChain构建企业级文档RAG系统主要优势包括端到端解决方案从文档识别到智能问答的全流程覆盖高准确率相比传统OCR结构化识别准确率提升40%灵活扩展支持自定义提示词和业务逻辑成本效益开源方案大幅降低企业AI应用门槛未来可进一步探索多文档关联分析自动摘要生成智能合同审查等场景获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

转义字符和语句

11. 转义字符11.1 定义及作用也许在前⾯的代码中你看到 \n / \0 很纳闷是啥。其实在字符中有⼀组特殊的字符是转义字符，转义字符顾名思义：转变原来字符意思的字符。比如：我们有字符n，在字符串中打印的时候⾃然能打印出这个字符&a…...

2026/5/7 22:59:21 阅读更多 →

基于大模型的AI外呼系统：人机协同与转化优化（四）

AI外呼的核心价值不仅在于“替代人工”，更在于重构业务流程，实现更高效的人机协同。实际落地中，企业通常采用“AI前置人工收口”的模式，将AI用于高频筛选环节，将人工资源集中在高转化节点。关键在于意向识别与分级模…...

2026/5/7 22:59:23 阅读更多 →

NCM解密终极指南：5分钟解锁网易云音乐加密文件

NCM解密终极指南：5分钟解锁网易云音乐加密文件【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾经从网易云音乐下载了心爱的歌曲，却发现它们被加密成NCM格式，只能在官方客户端播放&#xf…...

2026/5/7 22:59:24 阅读更多 →

3步解锁音乐自由：ncmdumpGUI终极NCM文件解密转换指南

3步解锁音乐自由：ncmdumpGUI终极NCM文件解密转换指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾在网易云音乐下载了心爱的歌曲&#…...

2026/7/16 18:01:48 阅读更多 →

Play Integrity Fix终极指南：解决Android设备验证失败的完整方案

Play Integrity Fix终极指南：解决Android设备验证失败的完整方案【免费下载链接】PlayIntegrityFix Fix Play Integrity (and SafetyNet) verdicts. 项目地址: https://gitcode.com/GitHub_Trending/pl/PlayIntegrityFix PlayIntegrityFix是一款专为Root设备…...

2026/7/16 18:01:50 阅读更多 →

Codex CLI 接入 GPT 模型指南

Codex CLI 是一个用于与 GitHub Copilot 进行交互的命令行工具，目前并没有 GPT-5.6 这个模型。GitHub Copilot 使用的是基于 OpenAI 的 GPT 模型，但具体版本信息并未公开。如果你有其他关于 Codex CLI 或 GitHub Copilot 的问题，欢迎继续提问…...

2026/7/16 18:01:52 阅读更多 →

SingleFile：让网页永久保存的终极解决方案，告别链接失效的烦恼

SingleFile：让网页永久保存的终极解决方案，告别链接失效的烦恼【免费下载链接】SingleFile Web Extension for saving a faithful copy of a complete web page in a single HTML file 项目地址: https://gitcode.com/gh_mirrors/si/SingleFile …...

2026/7/16 18:01:54 阅读更多 →