谷歌:利用白盒机制引导文化生成
标题Steering LLMs for Culturally Localized Generation来源arXiv, 2603.23301v1️文章简介研究问题现有的大模型文化本地化方法多为黑盒且难以控制如何利用机械可解释性技术揭示并操纵模型内部的文化表征以实现精准的文化引导主要贡献论文提出基于稀疏自编码器SAE的文化嵌入CuE构建了可解释的白盒干预框架显著提升了生成的文化忠实度并激发了长尾文化概念。重点思路利用稀疏自编码器分解模型激活值提取具有单一语义且可人类解读的特征并通过计算特征激活与国家标签的互信息筛选出编码文化显著信息的特征集合。将筛选出的高互信息特征聚合构建为国家级的文化嵌入原型以此作为紧凑的文化知识表示用于分析模型在模糊提示下的隐式文化默认倾向。设计白盒导向干预机制通过计算目标文化原型与非目标文化原型的差异向量将其解码至残差流并在推理时叠加从而以可控强度引导模型向特定文化对齐。分析总结实验发现大模型在无明确提示时存在严重的英美中心主义偏差约 60% 的生成内容默认对齐美国或英国文化而非西方文化极少被激活。基于文化嵌入的导向干预能大幅降低文化偏差集中度相比仅使用显式提示词该方法在文化忠实度和稀有概念上均取得显著胜率。模型内部文化表征呈现层级结构浅层网络主要编码词汇身份标记而深层网络则捕获饮食、制度及地缘政治等丰富的组合式文化语义。导向技术与传统提示增强方法具有互补性即使在已有明确文化提示的情况下叠加白盒干预仍能进一步挖掘潜在的长尾文化知识。个人观点论文将机械可解释性中的稀疏自编码器成功应用于文化对齐领域打破了以往仅靠提示工程或微调的黑盒局限。附录