Python collections 入门+实战

张

张建站

2026/7/5 7:39:31

10分钟阅读

文章目录第一阶段为什么需要 collections背景与痛点1. 场景引入内置类型的“笨重”操作2. collections 的解法更聪明的容器第二阶段核心功能全景图第三阶段逐功能实战学习 1. Counter计数器的终极形态 2. defaultdict告别 KeyError 的烦恼 3. deque双端队列性能怪兽 4. namedtuple带字段名的元组 5. ChainMap多字典合并视图 6. OrderedDict有序字典的额外能力第一阶段为什么需要 collections背景与痛点1. 场景引入内置类型的“笨重”操作假设你要统计一篇文章中每个单词出现的次数。用最基础的内置dict你需要这样写# 传统做法手动处理“键不存在”的异常textapple banana apple orange banana appleword_count{}forwordintext.split():ifwordnotinword_count:word_count[word]0# 每次都要判断键是否存在word_count[word]1print(word_count)# {apple: 3, banana: 2, orange: 1}或者你可能想用list来记录用户的操作历史但当你需要频繁在头部插入数据时# 传统做法列表头部插入性能极差history[]history.insert(0,login)# O(n) 复杂度每次都要把后面的元素往后挪history.insert(0,click)history.insert(0,logout)动手验证想直观体验listvsdeque的速度差异见后文deque小节的计时代码。痛点总结字典初始化繁琐统计计数、分组数据时总要写if key not in dict或dict.get(key, [])。列表性能瓶颈list在尾部追加很快但在头部插入/删除极慢因为底层是连续内存数组。缺乏语义化容器内置类型太通用无法表达“这是一个固定大小的滑动窗口”或“这是一个带默认值的字典”。2. collections 的解法更聪明的容器collections模块提供了一系列针对特定场景优化的容器类它们继承自内置类型但增加了强大的功能fromcollectionsimportCounter# ✅ 优雅做法一行搞定计数textapple banana apple orange banana appleword_countCounter(text.split())print(word_count)# Counter({apple: 3, banana: 2, orange: 1})print(word_count.most_common(2))# [(apple, 3), (banana, 2)]动手验证 1分别运行传统dict和Counter版本。对比代码行数然后尝试用Counter的most_common()方法获取 Top 3 的单词。第二阶段核心功能全景图容器类型解决的问题关键词Counter高效计数、统计频率Counter,most_common()defaultdict自动初始化缺失键、消除KeyErrordefault_factorydeque双端高效插入/删除、滑动窗口appendleft(),popleft()OrderedDict记住键的插入顺序Python 3.7 普通 dict 也有序但 OrderedDict 有额外方法move_to_end(),popitem()namedtuple轻量级不可变对象、带字段名的元组._fields,._asdict()ChainMap合并多个字典为一个视图、配置优先级maps, 作用域链第三阶段逐功能实战学习 1.Counter计数器的终极形态Counter是dict的子类专门用于哈希对象计数。它不仅能统计还提供了丰富的数学运算。fromcollectionsimportCounter# ✅ 基础计数cCounter(abracadabra)print(c)# Counter({a: 5, b: 2, r: 2, c: 1, d: 1})# ✅ 获取 Top Nprint(c.most_common(3))# [(a, 5), (b, 2), (r, 2)]# ✅ 计数器算术运算极其强大c1Counter(a3,b1)c2Counter(a1,b2,c3)print(c1c2)# Counter({a: 4, b: 3, c: 3}) ← 合并计数print(c1-c2)# Counter({a: 2}) ← 差集只保留正数print(c1c2)# Counter({a: 1, b: 1}) ← 交集取最小值print(c1|c2)# Counter({a: 3, b: 2, c: 3}) ← 并集取最大值⚠️关键规则Counter的算术运算会自动丢弃零值和负值结果。除了most_common()Counter 还有几个非常常用的能力缺失键默认返回 0c[missing]不会 KeyError而是0增量统计update()适合分批/流式累加扣减subtract()从总计中减去一批数据可能出现负数计数展开elements()把计数“还原”为元素序列只展开计数 0 的项fromcollectionsimportCounter cCounter(abca)print(c[x])# 0缺失键默认 0c.update(bbb)# 增量统计print(c)# Counter({b: 4, a: 2, c: 1})c.subtract(abbbbb)# 扣减可能产生负数print(c[b])# -1注意subtract 不会自动丢弃负数print(list(c.elements()))# 只会展开计数 0 的元素动手验证 2用两个Counter分别统计两段文本的词频然后用-运算找出第一段文本独有的词。 2.defaultdict告别KeyError的烦恼当你需要一个字典且访问不存在的键时希望自动创建默认值defaultdict是你的救星。fromcollectionsimportdefaultdict# ✅ 分组操作最经典场景students[(Math,Alice),(Math,Bob),(English,Charlie),(Math,David),(English,Eve)]# 传统做法groups{}forsubject,nameinstudents:ifsubjectnotingroups:groups[subject][]groups[subject].append(name)# ✅ defaultdict 做法groupsdefaultdict(list)# 传入 list 作为默认工厂forsubject,nameinstudents:groups[subject].append(name)# 无需判断键不存在时自动调用 list() 创建空列表print(dict(groups))# {Math: [Alice, Bob, David], English: [Charlie, Eve]}⚠️访问副作用非常重要defaultdict访问一个不存在的键会“顺便创建该键”。fromcollectionsimportdefaultdict ddefaultdict(list)print(Sciind)# False_d[Sci]# 读一次不存在键 → 自动创建print(Sciind)# True如果你只是想“安全读取但不希望创建新键”用d.get(Sci)更合适。default_factory的灵活性defaultdict(list)→ 缺失键自动创建[]defaultdict(int)→ 缺失键自动创建0等价于 Counter 的简化版defaultdict(set)→ 缺失键自动创建set()defaultdict(lambda: N/A)→ 缺失键自动返回自定义默认值动手验证 3创建一个defaultdict(lambda: {count: 0, names: []})用它同时记录每个类别的数量和成员名。 3.deque双端队列性能怪兽dequedouble-ended queue在两端插入/删除的时间复杂度都是O(1)而list在头部操作是 O(n)。fromcollectionsimportdeque# ✅ 基础操作ddeque([1,2,3])d.appendleft(0)# O(1) ← 头部插入d.append(4)# O(1) ← 尾部插入print(d.popleft())# 0, O(1) ← 头部弹出print(d.pop())# 4, O(1) ← 尾部弹出# ✅ 滑动窗口maxlen 参数极其有用windowdeque(maxlen3)foriinrange(5):window.append(i)print(list(window))# [0]# [0, 1]# [0, 1, 2]# [1, 2, 3] ← 自动淘汰最旧元素# [2, 3, 4]# ✅ 旋转操作ddeque([1,2,3,4,5])d.rotate(2)# 向右旋转2位print(d)# deque([4, 5, 1, 2, 3])d.rotate(-1)# 向左旋转1位print(d)# deque([5, 1, 2, 3, 4])动手验证体验 list vs deque 的速度差异下面两段代码请分别单独运行N越大差异越明显如果你的机器很快可把N调到500_000或更大。list头部插入慢importtime N200_000history[]t0time.perf_counter()foriinrange(N):history.insert(0,i)t1time.perf_counter()print(list.insert(0, x) 用时:,round(t1-t0,3),秒)deque头部插入快fromcollectionsimportdequeimporttime N200_000historydeque()t0time.perf_counter()foriinrange(N):history.appendleft(i)t1time.perf_counter()print(deque.appendleft(x) 用时:,round(t1-t0,3),秒)⚠️何时用dequevslist只在尾部追加/弹出 → 用list常数因子更小需要在头部频繁操作 / 需要固定大小滑动窗口 → 用deque动手验证 4用deque(maxlen5)实现一个“最近5次搜索记录”的功能连续添加8条记录验证旧的记录是否被自动淘汰。 4.namedtuple带字段名的元组当你需要一个轻量级不可变对象但又不想定义完整的类时namedtuple是完美选择。fromcollectionsimportnamedtuple# ✅ 定义一个“点”类型Pointnamedtuple(Point,[x,y,z])pPoint(1,2,3)# ✅ 像元组一样索引访问print(p[0])# 1# ✅ 像对象一样用字段名访问可读性大增print(p.x,p.y,p.z)# 1 2 3# ✅ 转换为字典print(p._asdict())# {x: 1, y: 2, z: 3}# ✅ 替换字段值返回新对象原对象不变p2p._replace(y10)print(p2)# Point(x1, y10, z3)# ✅ 不可变安全# p.x 99 # AttributeError!典型用途数据库查询结果替代元组增加可读性CSV 行解析函数返回多个值时的结构化封装动手验证 5创建一个User namedtuple(User, [name, age, email])用_asdict()转成字典后用**解包传给一个函数。 5.ChainMap多字典合并视图ChainMap将多个字典合并为一个逻辑视图查找时按顺序搜索修改只影响第一个字典。fromcollectionsimportChainMap# ✅ 配置优先级最经典场景defaults{timeout:30,retry:3,debug:False}user_config{timeout:60,verbose:True}configChainMap(user_config,defaults)# ✅ 查找先查 user_config找不到再查 defaultsprint(config[timeout])# 60用户配置优先print(config[retry])# 3回退到默认值# ✅ 修改只影响第一个字典config[timeout]120print(user_config)# {timeout: 120, verbose: True}print(defaults)# {timeout: 30, retry: 3, debug: False} ← 未被修改# ✅ 新增键只添加到第一个字典config[new_key]valueprint(new_keyinuser_config)# Trueprint(new_keyindefaults)# False核心价值ChainMap是视图不是深拷贝。修改原始字典会反映在 ChainMap 中反之亦然。这让它非常适合实现“环境变量用户配置默认配置”的层级覆盖。动手验证 6创建三个字典env,user,default用ChainMap(env, user, default)合并验证查找优先级和修改隔离性。 6.OrderedDict有序字典的额外能力Python 3.7 的普通dict已经保证插入顺序但OrderedDict提供了额外的方法fromcollectionsimportOrderedDict odOrderedDict()od[a]1od[b]2od[c]3# ✅ 移动到末尾od.move_to_end(a)print(list(od.keys()))# [b, c, a]# ✅ 移动到开头od.move_to_end(a,lastFalse)print(list(od.keys()))# [a, b, c]# ✅ 弹出最后一个/第一个print(od.popitem())# (c, 3)print(od.popitem(lastFalse))# (a, 1)# ✅ 相等性比较顺序敏感d1OrderedDict(a1,b2)d2OrderedDict(b2,a1)print(d1d2)# False ← 普通 dict 比较是 True何时用OrderedDict需要move_to_end()/popitem(lastFalse)等顺序操作需要顺序敏感的相等性比较需要兼容 Python 3.6 及以下版本动手验证 7用OrderedDict实现一个简单的 LRU 缓存每次访问一个键就move_to_end()缓存满时popitem(lastFalse)淘汰最久未使用的。

Elsevier Tracker：科研投稿状态自动追踪助手

Elsevier Tracker：科研投稿状态自动追踪助手【免费下载链接】Elsevier-Tracker 项目地址: https://gitcode.com/gh_mirrors/el/Elsevier-Tracker 还在为频繁登录Elsevier投稿系统查看审稿进度而烦恼吗？Elsevier Tracker是一款专为科研工作者设计…...

2026/7/5 7:39:25 阅读更多 →