4万Star的paperless-ngx，把纸质文档变成可全文搜索的数字档案

张

张建站

2026/6/26 3:45:15

10分钟阅读

文章目录4万Star的paperless-ngx把纸质文档变成可全文搜索的数字档案paperless-ngx做了什么怎么部署这个项目为什么值得关注实际用起来要注意什么适合谁用4万Star的paperless-ngx把纸质文档变成可全文搜索的数字档案你手头有没有一堆纸质文件、PDF扫描件想找某个信息时翻了半天找不到paperless-ngx就是解决这个问题的。它在GitHub拿下4万Star能把你的物理文档变成可全文搜索的在线档案。paperless-ngx做了什么核心逻辑是这样你把纸质文档扫描或拍照paperless-ngx通过OCR把图片里的文字提取出来存到数据库里。之后你搜任意关键词就能找到对应的文档。它做的事比你想象的更多自动分类和打标签。文档导入后系统会根据内容自动归类。发票归发票合同归合同不需要手动建文件夹。分类用机器学习模型驱动用久了会越来越准。多种导入方式。你可以设一个消费目录把文件扔进去就自动处理。也可以通过邮件导入把发票转发到指定邮箱就行。REST API也有可以和其他系统对接。多语言OCR。基于Tesseract支持100多种语言的文字识别。中文文档也能提取。全文搜索。不只是搜文件名文档正文里的每个字都可以搜。搜一下2024年电费所有电费发票就都出来了。怎么部署官方推荐Docker Compose部署一行脚本就能把整套服务拉起来。脚本自动拉镜像、配数据库、启服务从零到能用几分钟的事。如果你想手动控制每个环节官方文档有分步指南。数据库可以用PostgreSQL或SQLite文件存储支持本地磁盘和S3。如果你之前用过Paperless-ng迁移也不费事换一下Docker镜像就行数据结构和API都兼容。这个项目为什么值得关注团队维护不会突然没人管。paperless-ngx是Paperless和Paperless-ng的官方继任者由多人团队共同维护。前端、CI/CD、文档都有专门的人负责不是那种一个人撑着的项目。代码提交活跃issue有回复持续在迭代。自托管数据在自己手里。官方特别提醒了一件事这些文档通常是社保号、税单、发票之类的敏感信息。paperless-ngx不加密存储数据最安全的跑法是部署在家里或自己的服务器上。你的所有文档都留在本地不会被传到任何云服务。社区成熟。项目有英文文档Crowdin上有多语言翻译协作。有问题可以在Matrix聊天室提问功能建议可以提交到GitHub Discussions。有个在线Demo可以体验。不确定适不适合自己官方提供了在线演示环境账号密码都是demo打开就能试用。内容会定期重置不要传敏感文件。实际用起来要注意什么OCR质量取决于原始文档的清晰度。扫描件如果是歪的、模糊的、有背景噪点的识别准确率会明显下降。拍照的话光线要均匀尽量正对文档。自动分类需要训练数据积累。刚用的时候准确率可能一般用一段时间、手动纠正一些分类后模型就会学到你的习惯。性能方面如果你有几十万份文档OCR处理和搜索索引会占用不少系统资源。官方建议用SSD存储内存至少2GB。适合谁用如果你家里有一堆账单、合同、说明书不想丢了找不到可以试试。个人免费数据本地硬件要求也不高旧电脑或树莓派都能跑。小团队用也行。多个用户共享文档库每个人上传的发票、合同集中管理和搜索。有权限系统可以控制谁能看什么。paperless-ngx解决的是一个很具体的问题把纸质世界和数字搜索打通。它不做花哨的功能不追AI热点就是踏实地把OCR加全文检索这件事做扎实。4万Star是用户用脚投票的结果。它不做花哨的功能不追AI热点就是踏实地把OCR加全文检索这件事做扎实。4万Star是用户用脚投票的结果。

基于RDMA的全双工文件传输：一个InfiniBand Verbs与MAD实践

摘要 InfiniBand（IB）以其高带宽、低延迟和内核旁路特性，在现代数据中心和高性能计算领域占据重要地位。本文基于一个完整的C语言程序，深入剖析如何利用InfiniBand Verbs接口和MAD（Management Datagram）管理数据报，在两台直连的IB节点之间实现全双工文件传输。程序实现了…...

2026/6/21 12:15:38 阅读更多 →

基于multisim的多路八路智力竞赛抢答器电路设计

一、任务设计一个多路智力竞赛抢答器。二、设计要求 1、基本要求 （1）设计一个8路智力竞赛抢答器，主持人可控制系统的清零和抢答的开始，控制电路可实现最快抢答选手按键抢答的判别和锁定功能，并禁止后续其他选手抢答…...

2026/6/21 12:14:21 阅读更多 →

ACE-D3.6 Snoop address channel signaling

D3.6 Snoop address channel signaling（监听地址通道信号） D3.6.1 About the snoop address channel（关于监听地址通道） The snoop address channel (AC channel) is necessary for a master that: • Holds cached copies of shared data. • Supports DVM transactions.…...

2026/6/21 12:12:29 阅读更多 →

3步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南

3步解锁Adobe全家桶：Adobe-GenP 3.0智能破解工具完全指南【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款功能强大的Adobe Creativ…...

2026/6/25 5:27:05 阅读更多 →

暗黑2存档编辑器实战宝典：网页版D2/D2R角色修改工具完全解析

暗黑2存档编辑器实战宝典：网页版D2/D2R角色修改工具完全解析【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2的角色练级而烦恼吗？想测试不同的build组合却不想重复枯燥的升级过程&#…...

2026/6/25 5:27:06 阅读更多 →

基于MC56F8257 DSC的BLDC电机六步换相与速度闭环控制实战

1. 项目概述与核心价值如果你正在寻找一个既能深入理解三相无刷直流电机（BLDC）控制原理，又能快速上手实现一个稳定、低功耗驱动方案的实战项目，那么基于飞思卡尔MC56F8257 DSC的这套方案，绝对是一个教科书级的起点。我…...

2026/6/25 5:27:08 阅读更多 →

如何用AI在10分钟内完成蛋白质结构预测？AlphaFold3-PyTorch深度解析

如何用AI在10分钟内完成蛋白质结构预测？AlphaFold3-PyTorch深度解析【免费下载链接】alphafold3-pytorch Implementation of Alphafold 3 from Google Deepmind in Pytorch 项目地址: https://gitcode.com/gh_mirrors/al/alphafold3-pytorch 蛋白质结构预测…...

2026/6/25 5:27:08 阅读更多 →