V2TSA：基于语义角色标注的CVE到ATTCK攻击技术自动化映射方法

张

张建站

2026/5/26 12:14:05

10分钟阅读

1. 项目概述与核心价值在工业控制系统ICS和操作技术OT安全领域我们每天都面临着一个核心矛盾一方面新漏洞以每年超过25%的平均速度增长威胁态势日益严峻另一方面由于OT环境对系统“可用性”的极端要求传统的、从攻击者视角出发的渗透测试等主动评估手段往往无法实施。这就导致了一个严重的安全盲区——防御者很难完整地理解一个漏洞从被利用到产生最终影响的完整攻击链条Attack Flow。我们手里有大量的CVE通用漏洞与暴露描述这些文本里其实隐藏着攻击者会如何利用它的线索但传统的关键词匹配或简单的词向量模型就像只认识单词却不理解句子的孩子经常抓不住重点甚至产生误判。V2TSAVulnerability to Attack Techniques using a Semantic Approach这个项目正是为了解决这个痛点而生。它的核心目标非常明确教会机器“读懂”漏洞描述并自动、准确地告诉我们攻击者最可能用MITRE ATTCK框架中的哪些具体技术Techniques来利用这个漏洞。这不仅仅是简单的文本分类而是深入到语义层面的理解。想象一下面对“某组件中的堆缓冲区溢出允许远程攻击者通过特制的HTTP请求执行任意代码”这段描述人类安全专家能立刻联想到“利用面向公众的应用程序”T1190、“利用客户端执行”T1203等技术。V2TSA要做的就是让AI模型也具备这种基于语义的推理和映射能力。这套方法的技术价值在于它首次系统性地将语义角色标注SRL这类深层自然语言处理技术与业界公认的ATTCK攻击技战术知识库相结合用于漏洞分析。它跳出了“词袋”模型的局限去分析句子中“攻击者”ARG0、“执行”动词、“任意代码”ARG1这些角色之间的关系从而更精准地捕捉攻击意图。其产出不是模糊的威胁评分而是具体的、可行动的ATTCK技术ID这直接打通了漏洞管理VM和威胁检测与响应TDR的链路。安全团队可以据此快速构建或优化针对性的检测规则如Sigma规则、调整安全策略甚至在安全编排与自动化响应SOAR剧本中预设缓解动作实现从“知漏洞”到“防攻击”的闭环。2. V2TSA模型的核心设计思路拆解2.1 为什么是语义分析而不是关键词或简单NLP在V2TSA之前将CVE映射到ATTCK的主流方法大致有三类但各有局限。第一类是基于知识图谱的手工或半自动映射例如利用CVE、CWE通用缺陷枚举、CAPEC通用攻击模式枚举和ATTCK之间已有的关联数据构建图数据库。这种方法逻辑清晰可解释性强能进行因果推理但严重依赖现有、已标注的数据关联对于新出现的、缺乏预置关联的“零日”漏洞或新型攻击手法无能为力扩展性和自动化程度低。第二类是基于传统自然语言处理NLP或深度学习模型的方法。它们将CVE描述文本通过Word2Vec、BERT等模型转化为向量然后通过分类或相似度计算关联到ATTCK技术。这类方法自动化程度高能处理新漏洞。但其根本问题在于“黑盒”性和语义理解浅层。模型可能因为“缓冲区溢出”和“代码执行”这两个词经常在训练数据里共现就将它们关联起来但它并不真正理解“攻击者‘利用’缓冲区溢出‘来’执行代码”这个动作逻辑。这会导致误报将无关技术关联或漏报错过关键但表述不同的技术。此外这类方法通常只给出一个关联列表缺乏“为什么是这个技术”的可解释性。V2TSA选择语义角色标注SRL作为突破口正是为了攻克上述“语义鸿沟”。SRL的任务是解析一个句子标注出其中的谓词通常是动词以及围绕该谓词的各个语义角色如“施事者”Agent谁做的、“受事者”Patient对谁做的、“工具”Instrument用什么做的等。例如对于句子“攻击者通过特制的数据包导致服务崩溃”SRL会识别出谓词导致崩溃施事者攻击者受事者服务方式通过特制的数据包这种分析直击要害。它让模型不再只看孤立的词汇而是理解攻击动作中的“主体-动作-客体”关系。在漏洞描述中攻击者或漏洞本身是“施事者”漏洞利用导致的后果如执行代码、获取权限、造成拒绝服务是核心“谓词-受事者”结构。通过提取这些语义骨架模型能更准确地匹配ATTCK技术描述中同样结构的攻击模式从而做出更精准、更可解释的映射。2.2 整体架构与流程设计V2TSA的完整流程是一个精心设计的管道可以分为四个核心阶段我将其概括为“语义抽取 - 领域适配 - 概率计算 - 阈值过滤”。第一阶段数据准备与语义抽取。模型需要三类数据1) CVE描述从NVD等来源获取2) MITRE ATTCK企业版技术描述3) ATTCK中软件、组织、战役等实体使用的具体技术步骤Procedure描述。对于每一段文本都使用SRL模型研究中使用了AllenNLP的SRL预测器进行处理。处理过程并非简单应用而是包含关键步骤首先将长文本分句然后对每个句子进行SRL解析识别出动词及其语义角色。一个巧妙的处理是“动词标识符添加”因为一个句子中同一动词可能多次出现且含义不同通过添加后缀如logs_1,logs_2来区分。最后基于从大量漏洞和攻击描述中统计出的高频“攻击性”词汇如attacker, adversary, allow, execute, compromise等从SRL结果中过滤出与攻击相关的句子Attack Sentences。这一步相当于从原始文本中抽离出了纯净的、结构化的攻击意图表述。第二阶段句子嵌入与领域微调。得到结构化的攻击句子后需要将它们转化为计算机可计算的向量嵌入。这里没有使用计算代价高昂的Cross-Encoder对句子对进行全注意力交互而是采用了Sentence-BERTSBERT这种Bi-Encoder架构。SBERT能独立将单个句子编码为固定长度的向量之后通过计算向量间的余弦相似度来衡量语义相似性效率极高。但预训练的SBERT是在通用语料上训练的对网络安全领域的特定表述如“lateral movement”、“credential dumping”理解不深。因此V2TSA使用ATTCK技术和步骤描述数据对SBERT进行领域适应性微调Fine-tuning。微调时构造了正负样本对正样本对来自同一个ATTCK技术IDTID下的不同描述句子负样本对来自不同TID的句子。通过这种对比学习让模型学会将语义相近的攻击描述在向量空间中拉近将不相关的推远。第三阶段多分类概率估计。对于一个给定的CVE经过前两步我们得到了一组攻击句子的向量表示。现在需要计算这个CVE与202个ATTCK企业版技术中每一个的关联概率。这里使用多项逻辑回归Multinomial Logistic Regression, MLR模型作为分类器。将CVE的句子向量输入训练好的MLR模型它会输出一个202维的概率向量每个维度对应一个ATTCK技术值代表该CVE属于这个技术的概率。为了解决不同技术类别样本数量不均衡的问题有些技术描述多有些少训练时采用了类别权重调整给样本少的技术更高的权重避免模型偏向于预测样本多的类别。第四阶段最优阈值筛选。MLR模型会为每个技术输出一个概率但并非所有概率都有意义。我们需要一个阈值来判断“何时认为这个技术是相关的”。V2TSA没有随意设定而是基于MITRE Engenuity中心的attack_to_cve项目提供的835条人工标注的CVE-ATTCK映射数据作为测试集进行系统评估。通过分析概率分布均值0.086中位数0.027并计算不同阈值下的精确率、召回率、F1分数最终确定将10%0.1作为最优阈值。概率高于此阈值的技术才被认定为与该CVE相关。这个阈值在精确率和召回率之间取得了最佳平衡。3. 核心环节实现与实操要点3.1 语义角色标注SRL的实战应用与调优在实际操作中直接调用开源的SRL模型如AllenNLP可能无法达到最佳效果需要根据安全领域文本特点进行适配和优化。首先领域词典的构建至关重要。预训练SRL模型在通用文本上表现良好但面对“privilege escalation”、“arbitrary code execution”、“deserialization”等安全术语时可能无法正确识别其核心动词或论元。我们需要构建一个网络安全领域动词与论元词典作为补充。例如将“escalate”标记为可能的核心谓词将“privilege”标记为可能的受事者ARG1。在SRL解析前可以先进行一轮简单的模式匹配或词典查找对文本中的安全领域实体进行预标注引导SRL模型做出更准确的判断。其次处理复杂句和长句。漏洞描述常常是复合句或包含大量技术细节的冗长句子。例如“A vulnerability in the web-based management interface of Cisco Small Business RV系列 routers could allow an authenticated, remote attacker to execute arbitrary code or cause a denial of service condition due to improper validation of user-supplied input.” 直接对整个句子进行SRL可能会丢失细节。更好的做法是在分句之后对每个子句单独进行SRL分析然后根据连接词如“or”、“due to”和语义手动或通过规则将多个子句的SRL结果进行逻辑合并。对于“allow ... to execute ... or cause ...”这样的结构需要识别出“allow”是核心使役动词“attacker”是施事者“execute arbitrary code”和“cause a denial of service”是两个并列的可能结果。一个关键的实操技巧是关注“ARG0”的补全。在漏洞描述中施事者有时是隐含的或被动语态。例如“A buffer overflow can be exploited to execute code.” SRL可能只识别出“exploited”和“execute”而缺失了“攻击者”这个角色。V2TSA的算法中包含了“ARG0 Addition”步骤就是通过上下文推断并补全这个缺失的施事者。在实践中我们可以设定规则如果核心攻击动词如exploit, execute, gain的ARG0缺失且句子描述的是负面安全事件则默认补全为“attacker”或“adversary”。这能极大地提升后续攻击意图提取的准确性。3.2 Sentence-BERT的领域微调数据构造与训练技巧微调SBERT是提升模型性能的核心。这里最大的挑战是如何构造高质量、有代表性的正负样本对。正样本对的构造研究中使用每个ATTCK技术IDTID下的所有攻击描述句。但如果一个TID下有上百个句子全部两两配对会导致正样本数量爆炸且高度冗余。他们的策略是如果某个TID的句子数超过中位数27句则随机抽样组成多个27句的集合在集合内构造样本对如果少于27句则全部用于构造样本对。我的经验是可以更进一步根据句子的语义结构进行聚类后再抽样。例如对于“T1059 命令和脚本解释器”这个技术其描述句可能涵盖“利用PowerShell”、“利用bash”、“利用Python”等多个子主题。可以先使用简单的嵌入聚类如K-means将这些句子按子主题分组然后确保正样本对来自同一个聚类这样能保证语义相似性更高模型学习到的特征更精细。负样本对的构造研究中的方法是从不同TID中随机抽取句子组成负样本对。这固然可以但可能不够“困难”。更好的策略是采用“难负例挖掘”。例如选择那些在ATTCK战术层面相近如同属于“执行”战术TA0002但技术不同的句子作为负样本。或者选择那些动词相同但宾语不同的句子如“execute code” vs. “execute script”。让模型学会区分这些容易混淆的负例能使其生成的嵌入空间更具判别力。训练参数设置使用SentenceTransformer库进行微调非常方便。损失函数推荐使用MultipleNegativesRankingLoss或CosineSimilarityLoss它们特别适合这种句子对相似度学习任务。批次大小batch size不宜过小建议在16-64之间以确保每个批次内有足够的负样本。学习率通常设置得较小如2e-5到5e-5并配合线性预热linear warmup和衰减。训练轮数epoch需要监控验证集上的相似度指标如Spearman相关系数避免过拟合。3.3 多项逻辑回归模型与阈值选择的工程化考量将SBERT输出的句子向量输入MLR模型前需要一个聚合操作。因为一个CVE可能对应多个攻击句子。研究中采用了一种“最大池化”策略对于每个ATTCK技术取所有CVE攻击句子中与该技术相似度概率的最大值作为该CVE与此技术的最终关联概率。这种方法倾向于捕捉最强烈的信号但可能忽略多个弱信号的累积效应。另一种可尝试的方案是“平均池化”或“注意力加权池化”后者可以学习不同句子对于判断某个技术的重要性权重。类别权重计算是处理不平衡数据的关键。公式weight total_samples / (num_classes * class_samples)是标准做法。在代码实现时如使用scikit-learn的LogisticRegression只需设置class_weightbalanced即可自动计算。但需要注意极度不平衡的类别可能会被赋予过大的权重导致模型过于关注稀有类别而牺牲整体性能。一个实用的技巧是进行“平滑处理”例如对类别样本数取平方根后再计算权重或者设置一个权重上限如10.0防止个别类别主导训练过程。关于10%阈值的确定研究给出了基于测试集的评估方法。在实际部署中这个阈值不应是一成不变的。安全团队可以根据自身的风险容忍度和运营重点进行动态调整。例如在威胁狩猎场景中为了尽可能发现所有可能的攻击路径可以适当降低阈值如5%以提高召回率哪怕会引入一些误报供分析师研判。而在自动化阻断规则生成的场景中为了确保高可靠性则应提高阈值如15%或20%以精确率为优先。可以建立一个阈值配置界面允许用户根据不同应用场景如ICS环境 vs. IT环境、漏洞严重等级CVSS评分来动态选择或自定义阈值。4. 效果评估、可解释性与案例深度剖析4.1 性能评估的“两面性”与根本原因研究论文中的性能评估结果非常值得玩味。在835条测试数据上V2TSA模型的整体准确率约为52.83%。单看这个数字似乎并不惊艳。但当我们按CVSS漏洞严重性分数分组评估时发现对于高危漏洞CVSS 7.0 或 9.0模型的识别准确率显著高于中低危漏洞。这个现象揭示了模型的一个关键特性它更擅长分析那些描述清晰、影响直接、攻击路径明确的高危漏洞。这类漏洞的描述文本通常包含更典型、更强烈的攻击语义模式如“execute arbitrary code”、“gain root privileges”SRL模型更容易捕捉到关键结构。反之一些中低危漏洞或描述模糊的漏洞如“information disclosure”可能表述方式多样会给模型带来更多挑战。这引出了V2TSA相较于传统方法的一个巨大优势可解释性。传统的深度学习分类模型是个“黑盒”我们不知道它为什么将某个CVE关联到T1190。而V2TSA通过SRL可以追溯到是哪个具体的“攻击句子”以及该句子中的哪个语义角色组合如ARG0: attacker, V: execute, ARG1: code导致了高概率匹配。例如对于CVE-2019-3723模型可以输出是因为提取出了“allows ... remote attackers ... to execute arbitrary code”这个句子片段并将其与ATTCK中关于“远程代码执行”的技术描述进行了高相似度匹配。这种“白盒”特性对于安全运营至关重要分析师可以信任并验证模型的判断而不是盲目接受一个结果。4.2 工业控制系统漏洞案例实战对比为了深入理解V2TSA的实战价值我们选取论文中提到的几个典型工控漏洞进行对比分析看看V2TSA与基于专家德尔菲法的MITRE CTID项目有何异同。案例一CVE-2016-1409 - Cisco IOS IPv6 NDP拒绝服务漏洞漏洞描述Cisco IOS软件IPv6栈中的NDP实现存在漏洞远程攻击者可借助特制的NDP消息造成拒绝服务。V2TSA输出T1499端点拒绝服务、T1498网络拒绝服务、T1557中间人攻击。CTID输出T1189利用驱动下载、T1203利用客户端软件漏洞。分析与实操意义V2TSA的结果直接紧扣漏洞描述的核心“拒绝服务”给出的T1499和T1498是极其精准的。T1557的关联则展示了语义分析的深度——它从“特制NDP消息”可能被用于拦截或篡改流量这一潜在角度进行了关联虽然非主要利用方式但体现了攻击路径的延伸思考。而CTID给出的T1189和T1203更像是基于漏洞可能存在的后续影响或攻击链的扩展推测假设设备有Web界面且用户访问了恶意页面。在实战中V2TSA的结果能让我们立刻聚焦于网络层的DoS检测和NDP协议异常监控而CTID的结果则提示了更广泛的初始访问和客户端利用可能性。V2TSA更贴近“利用方式”CTID更偏向“潜在影响”。案例二CVE-2018-8835 - Advantech WebAccess HMI Designer MP3解析双重释放漏洞漏洞描述Advantech WebAccess HMI Designer在处理.MP3文件时存在双重释放漏洞允许远程代码执行。V2TSA输出T1190利用面向公众的应用程序、T1203利用客户端软件漏洞、T1210利用远程服务、T1105远程文件复制、T1036伪装。CTID输出T1204用户执行、T1574劫持执行流。分析与实操意义V2TSA几乎勾勒出了一个完整的远程攻击链通过面向公众的服务或客户端软件T1190/T1203/T1210利用漏洞可能传输恶意工具T1105并伪装文件T1036此处关联.MP3文件。这是一个非常贴合远程代码执行场景的、丰富的技术集合。CTID的T1204用户执行与“远程”描述略有出入T1574则更偏向于本地权限提升或持久化后劫持。对于防御方V2TSA提供的技术列表更具直接指导性我们需要在边界防护T1190、端点检测T1203、网络服务监控T1210和文件行为分析T1036, T1105等多个层面布防。从这两个案例可以总结出一个模式V2TSA倾向于基于漏洞描述文本中明确提及的攻击动作和直接后果来映射技术结果更直接、更贴合“利用链”的前半部分。而专家驱动的CTID方法则会结合更广泛的背景知识和攻击链经验推断出漏洞被利用后可能导致的更深层或更后续的攻击阶段TTPs。两者并非孰优孰劣而是互补。V2TSA提供了高置信度的、基于文本证据的直接映射自动化程度高专家分析则提供了更全面的威胁视角但成本高昂且难以规模化。4.3 从攻击技术到检测与缓解策略的落地识别出ATTCK技术的最终目的是指导防御。V2TSA模型的价值在此闭环中得到最终体现。检测策略生成以CVE-2018-7499Advantech WebAccess缓冲区溢出漏洞为例V2TSA关联到T1210利用远程服务、T1190利用面向公众的应用程序等。我们可以立即从MITRE ATTCK知识库中查找这些技术的检测建议。例如对于T1210ATTCK建议检测非常规端口上的服务扫描、异常的网络连接模式、以及服务日志中的失败认证或异常命令。对于T1190则建议监控Web应用防火墙WAF日志、检查HTTP请求中的异常参数或路径遍历尝试。安全团队可以基于这些通用的检测建议快速编写针对该特定漏洞的定制化检测规则如Sigma规则在SIEM或EDR中部署监控是否有利用此漏洞的特定攻击模式出现。缓解策略制定同样ATTCK为每项技术提供了缓解措施。对于上述漏洞关联的技术缓解措施可能包括网络分段将受影响的Advantech WebAccess服务器隔离在独立的网络区域限制横向移动对应T1210等。应用程序隔离与沙箱限制HMI设计器等应用程序的权限防止漏洞利用后执行任意代码对应T1059命令执行。漏洞补丁管理这是最根本的但ATTCK的缓解视角会提醒我们在打补丁前可以通过网络访问控制列表临时阻断对特定端口的访问缓解T1190/T1210。用户培训虽然技术性不强但对于需要用户交互的客户端漏洞如果存在培训用户不要打开来历不明的工程文件也是一种缓解部分关联T1203。V2TSA模型通过自动化映射将海量的CVE信息与结构化的ATTCK防御知识库连接起来为安全运营中心SOC提供了从漏洞公告到可执行防御动作的“快速通道”极大地提升了威胁响应的速度和精准度。5. 局限、挑战与未来演进方向尽管V2TSA代表了漏洞分析自动化的一个重要进步但在实际部署和应用中我们仍需清醒地认识到其当前局限性和面临的挑战。首先语义理解的深度和广度仍有边界。当前的SRL模型虽然能解析句子结构但对网络安全领域特有的隐晦表述、隐喻或高度技术化的缩写理解不足。例如“phoning home”、“C2 traffic”这类行话或者“Use-After-Free”这种特定漏洞类型的名称模型可能无法准确解析其作为攻击动作的核心语义。此外对于描述非常简略或模糊的CVE条目例如仅写“存在一个漏洞可能导致信息泄露”模型难以提取出有效的攻击语义角色导致映射失败或不准。未来的改进需要融入网络安全领域知识图谱在SRL之前或之后加入一个实体链接和关系抽取的步骤将文本中的术语与标准化的安全概念如CAPEC攻击模式、CWE弱点类型对齐从而丰富语义理解的信息源。其次对“攻击影响链”的推断能力弱于专家。正如案例对比所示V2TSA强于映射“直接利用技术”但在推断漏洞利用后可能引发的后续攻击阶段技术如持久化、防御规避、横向移动、数据渗出方面不如具备丰富经验的专家。这是因为当前模型仅基于单一句子或漏洞描述的局部信息进行判断缺乏对整个攻击生命周期Cyber Kill Chain或ATTCK战术链的全局推理能力。一个可能的演进方向是引入图神经网络或知识图谱推理将单个漏洞的映射结果置于一个更大的、描述攻击者行为模式的图谱中进行推理预测更完整的攻击路径。第三数据依赖性和领域泛化能力。模型的性能严重依赖于训练数据的质量和覆盖面。目前主要基于ATTCK企业版技术和CVE描述进行训练对于ICS/OT领域特有的攻击技术MITRE ATTCK for ICS和漏洞描述其映射效果可能下降。OT环境的漏洞描述常涉及物理过程、专有协议如Modbus, DNP3和硬件交互语义模式与IT系统不同。因此构建和标注高质量的OT安全语料库并扩展模型以支持ATTCK for ICS框架是将该方法成功应用于工控安全领域的必经之路。最后工程化落地的挑战。将研究原型转化为稳定、高效的生产系统需要解决一系列工程问题1)处理速度SRL和SBERT推理相对耗时需要对海量CVE流进行实时或近实时处理需要考虑模型优化、流水线并行和硬件加速。2)结果集成如何将模型输出的ATTCK技术列表无缝集成到现有的漏洞管理系统、SIEM、SOAR平台中形成自动化的工作流。3)反馈闭环需要设计机制让安全分析师能够对模型的映射结果进行确认、修正或否决这些反馈数据应能用于模型的持续迭代和优化。我个人在实际研究和尝试复现类似系统时的体会是语义分析是一条充满希望但需耐心耕耘的道路。它不能完全替代安全专家的深度分析但能成为专家的“超级助理”将专家从海量、重复的初级关联工作中解放出来让他们专注于更复杂的威胁研判和策略制定。从“关键词”到“语义角色”是从“识字”到“解意”的关键一跃。V2TSA模型已经迈出了坚实的一步而结合大语言模型在复杂推理和领域知识方面的最新进展未来的自动化漏洞威胁映射系统将不仅能告诉我们“可能用什么技术攻击”还能推测出“最可能的攻击者是谁”、“攻击的最终目标是什么”以及“我们应该优先采取哪三条缓解措施”真正实现智能化的威胁预测与防御。