AI+情报:全生命周期应用探索

发布时间 2024-05-22
自从ChatGPT发布以来,围绕大模型的讨论愈演愈烈,个人、企业乃至国家都陷入了深刻的变革中。它的影响力已经远超技术范畴,成为全球技术、产业和国际竞争的综合战场。然而,大模型的实际落地并非一帆风顺,从行业数据的收集到实际应用场景的结合,每一步推进都面临着诸多挑战。本文基于威胁情报生命周期的迭代进化,探索基于大小模型协同的AI+体系,如何应用于增强威胁情报生产识别、分析判定和推理应用。


在网络安全威胁情报(CTI)的背景下,面临着信息过载、动态性、复杂性、数据质量、数据结构、专业领域的实体关系识别和语境理解、跨语言支持等多方面的挑战,亟待寻找新的解决方案。LLM(大语言模型)作为人工智能(AI)革新的核心,正在彻底改变我们对威胁情报的理解和应对方式。


AI能够以前所未有的速度和规模处理数据,并从中识别出潜在的威胁,从而大大提高了威胁情报的效率和准确性。LLM(大语言模型)通过其独有的理解与思考能力,自动化联动各安全专项小模型,生成全面和可预测性威胁情报,以改善企业安全决策能力。


AI+威胁情报生命周期


威胁情报生命周期是迭代式的持续流程,威胁情报团队使用该流程生产并持续改进威胁情报。整体步骤可以分为目标规划、数据收集、预处理、综合分析、情报应用、反馈与改进。



VenusEye威胁情报中心综合运用沙箱集群、同源性分析、知识图谱、人工智能等先进技术,生产和提供高质量的威胁情报信息。基于威胁情报生命周期的迭代进化,探索基于大小模型协同的AI+体系如何应用于增强威胁情报生产识别、分析判定和推理应用。



威胁情报智能生产识别


在威胁情报生命周期的目标规划阶段,安全分析师与业务相关方共同设定情报需求,AI可以协助任务的快速拆解和分发,加快在规划阶段的响应力。假设业务相关方需要收集针对我国的APT攻击组织信息,分析其相关的TTPs,结合IoC进行闭环响应。这个过程通常由具备一定经验的威胁情报分析人员结合组织架构,对任务进行拆解,形成任务链和人员分工,此过程可引入Multi-Agent框架,包含多个相互作用的情报分析智能体,协作执行复杂的语言处理任务,提高处理速度。


在威胁情报生命周期的数据收集阶段,AI能够自动化和加速数据收集过程。扫描来自多源异构的大量数据,包括开源情报、暗网论坛、专业博客、社交媒体网站和专业分析报告等。通过AI识别特定关键字和特征矩阵,确定数据是否符合规格要求,降低无用数据的干扰。情报生产的目标是确定特定对象的数据处理,而非简单地提取通用数据。因此,替代人工审核结合AI对数据内容的鉴别会更高效。


在威胁情报生命周期的预处理阶段,对收集阶段的数据进行梳理,以提供初步有效信息,如攻击对象、妥协指标 (IoC)、家族标签等。自然语言处理( NLP ) 能够处理人类语言,从非结构化文本源(异构体的论坛、报告)中提取有意义的威胁情报信息,构建初步的图谱信息。基于大语言模型的特性,能够在少量样本训练的情况下识别威胁情报相关对象。结合OCR识别、中心文本识别等AI算法快速从报告、论坛中识别和生成威胁情报结构化数据,形成机读情报。


威胁情报智能分析判定


在威胁情报生命周期的综合分析阶段,机器学习算法能够检测并清除重复或冗余条目,为情报分析过程提供更丰富的路径,支持最终情报数据的多维度标签、威胁度和置信度等。


● 基于AI的恶意软件情报分类分析


利用机器学习模型识别恶意软件的原理是基于恶意软件和良性软件的静态特征(如代码结构、API调用模式)和动态行为(如运行时系统变更、网络活动),构建并训练机器学习模型,以识别和分类未知软件的恶意性和分类归属问题。


● 基于AI的钓鱼分析与情报标注


通过机器学习和自然语言处理技术,对电子邮件内容进行分析,识别和分类钓鱼邮件。通过提取邮件文本的特征并训练分类模型,可以识别邮件中常见的钓鱼特征和欺骗性语言,包括检测诱饵链接、恶意附件和欺诈性言论等内容。分析后对邮件进行情报标注,包括发件人、目标受害者和使用的攻击技术等信息。同时可进行钓鱼网站的识别,通过收集钓鱼网站和正常网站的样本,提取URL特征、页面内容、网络行为等关键信息,训练分类模型以识别和区分钓鱼网站,进而对新的可疑网站进行预测和分类。


● 基于AI的威胁情报决策分析


通过收集和分析各种网络安全数据,利用有监督学习算法对潜在的威胁进行评估和预测。当发现潜在威胁时,自动生成相应的威胁情报报告。决策者可以根据报告制定针对性的防御策略,提高网络安全防御的主动性和准确性。


● 基于AI的威胁情报失效判断


基于情报自生产流程,对数据进行反向追溯,并基于威胁情报研究人员的相关判断逻辑与特征数据,结合预先标注的数据进行AI模型训练,针对IP、域名等数据对当前标签是否存在失效状态进行判断,提高威胁情报的时效性与准确性。


威胁情报智能推理应用


在威胁情报生命周期的情报应用和反馈改进阶段,主要关注向情报使用者推送情报并解决使用者对情报的疑问和召回问题。其中面对威胁情报分析师通常提供的专业技术细节,如IoC、恶意软件、对手战术、技术和流程(TTP)、MITRE ATT&CK框架等,使用者往往难以理解。AI可以根据用户需求结合数据和能力,推理出符合用户需求的内容,并利用生成式、调用式等多种模式,帮助威胁情报团队创建适合不同技术和业务背景的报告和情报集合。同时,结合相应的技术框架,为用户提供更完善的应对策略。 


● 个性化情报生成


AI可以根据用户的业务领域、技术知识水平及特定兴趣定制情报报告。通过分析用户过去的行为和偏好,AI能生成更加贴近用户实际需求的情报内容,确保每份报告都具有高度的相关性和实用性。


● 多模式情报呈现


利用自然语言处理(NLP)和机器学习技术,AI能够将技术性的IoC、TTP等信息转换成图表、流程图、故事板等形式,甚至是交互式报告,使非技术背景的决策者也能迅速把握要点,促进跨部门间的沟通和协作。


● 动态威胁建模与模拟


结合MITRE ATT&CK框架等标准,AI能够帮助构建动态的攻击场景模型,模拟对手可能的攻击路径和策略。这种模拟不仅有助于直观展示威胁态势,还能够依据最新的情报自动调整,确保防御策略的时效性和有效性。


● 自适应学习与优化


通过持续收集用户反馈,AI系统能够自我学习和优化,不断调整其分析模型和报告生成策略,以更好地匹配用户需求。这种反馈循环机制有助于不断提升报告的质量、相关性和及时性。


● 自动化情报整合与关联分析


AI能够自动整合不同来源的威胁情报,利用高级分析算法发现数据之间的隐藏关联,揭示潜在的威胁模式,从而提供更全面的视角和深入的洞察。AI通过增强威胁情报的可解释性、个性化和操作性,有效地桥接了技术专家与业务决策者之间的鸿沟,使企业能够更快地识别威胁、做出决策并采取行动,从而提高整体的安全防护水平。


● IP/域名实时调度研判


AI可以根据用户查询的IP或域名信息,自动基于信息的完备度进行数据补全,并协调相关程序。它还可以调度研判模型,从IP资产情报、开源情报和攻击情报等多个维度进行多维度分析,为用户提供实时判断,增强IP或域名情报的实时性和智能化。


随着大语言模型的技术发展,特别是在自动化、模式识别和预测分析方面的进步,预示着AI在威胁情报领域的应用前景广阔。基于大小模型协同的威胁情报领域应用,不仅能够提高数据处理的效率和准确性,还可通过个性化和多模式的情报呈现,增强情报的可解释性和操作性,为网络安全提供更强大的支持和保护,为更加智能化、自动化的网络安全防护时代保驾护航。