文章目录拆开一个 Ozon 采集器:真正的架构亮点,不在“爬”第一层:入口很轻,但职责清楚第二层:真正值钱的不是爬,而是把浏览器变成基础设施第三层:数据不从 DOM 拿,而从网络层拿第四层:双层提取,是为了对抗页面不确定性第五层:调度器不是循环,而是变体搜索第六层:数据契约是下游稳定的开始优化空间总结拆开一个 Ozon 采集器:真正的架构亮点,不在“爬”平台:微信公众号 | 字数:约 2600 字 | 调性:架构复盘、理性深度、工程判断很多爬虫项目看起来都差不多:给一个链接,打开网页,解析字段,保存结果。但这个项目不太一样。它不是一个只靠requests硬怼页面的脚本,也不是一个把 Playwright 当“高级 Selenium”来用的自动化玩具。它真正有意思的地方,是把真实浏览器、CDP 接管、网络层 API 拦截、双层数据提取、BFS 变体扩展和结构化落盘,组织成了一条相对完整的数据采集链路。从架构师视角看,这个项目已经不是“会不会抓到一个商品”的问题,而是一个更典型的工程问题:如何把一个高不确定性的网页采集过程,拆成可调度、可恢复、可沉淀的数据系统。第一层:入口很轻,但职责清楚项目的入口在main.py。