一、文章主要内容总结本文聚焦大语言模型(LLMs)在编程辅助任务中的性能评估,提出了两套综合基准测试数据集(StackEval 和 StackUnseen),并深入研究了 LLMs 作为编程任务评估者的可行性、准确性及潜在偏差。核心内容如下:基准数据集构建:StackEval:涵盖25种编程语言、4类任务(调试、实现、优化、概念理解),包含925个经过人工验证的Stack Overflow历史问题(2018-2023年),用于全面评估LLMs在传统编程任务中的能力。StackUnseen:动态更新的数据集,聚焦最新Stack Overflow问题(2023年9月后),每半年更新一次,用于评估LLMs对新兴技术、编程语言新版本的适配能力,缓解数据泄露问题。LLMs作为评估者的研究:构建了包含136个问题的LLM-as-a-Judge基准,通过人类标注数据验证LLMs评估编程解决方案的准确性,探索参考答案、思维链(CoT)等提示策略对评估效果的影响。提出“可接受性评分”指标,从准确性、完整性、相关性三方面量化LLM生成答案的质量,最终实现84.4%的评估成功率。实验与发现:顶级LLM(如O1 Preview)在StackEval上表现优异(接受率95.5%),但在StackUnseen上性能显著下降,高容量模型和支持推理链的模型泛化能力更强。/