1.5 大数据服务于信息安全
大数据分析技术在为信息安全带来全新挑战的同时,也为信息安全技术带来了发展的契机。大数据分析技术可应用于安全威胁发现、认证,也可应用于大数据的数据真实性分析等。
1.5.1 基于大数据的威胁发现技术
由于大数据分析技术的出现,企业可以超越以往的“保护—检测—响应—恢复”(PDRR)模式,更主动地发现潜在的安全威胁。相比于传统技术方案,基于大数据的威胁发现技术具有如下优点。
(1)分析内容的范围更大。传统的威胁分析主要针对的内容为各类安全事件。而一个企业的信息资产则包括数据资产、软件资产、实物资产、人员资产、服务资产和其他为业务提供支持的无形资产。由于传统威胁检测技术的局限性,其并不能覆盖这6类信息资产,因此,能发现的威胁也是有限的。而通过在威胁检测方面引入大数据分析技术,可更全面地发现针对这些信息资产的攻击。例如,IBM推出了名为IBM大数据安全智能的新型安全工具,可利用大数据来检测企业内外部的安全威胁,包括扫描电子邮件和社交网络,标示出明显心存不满的员工,提醒企业注意预防其泄露企业秘密。
(2)分析内容的时间跨度更长。现有的许多威胁分析技术都是内存关联性的,也就是说实时收集数据,采用分析技术发现攻击。分析窗口通常受限于内存大小,无法应对持续性和潜伏性攻击。而引入大数据分析技术后,威胁分析窗口可以横跨若干年的数据,因此,威胁发现能力更强,可有效应对APT类攻击。
(3)能够预测攻击威胁。传统的安全防护技术或工具大多是在攻击发生后对攻击行为进行分析和归类,并做出响应。而基于大数据的威胁分析可进行超前的预判。它能够寻找潜在的安全威胁,对未发生的攻击行为进行预防。
(4)能够检测未知威胁。传统的威胁分析通常是由经验丰富的专业人员根据企业需求和实际情况展开,然而这种威胁分析的结果很大程度上依赖于个人经验。同时,分析所发现的威胁也是已知的。而大数据分析的特点是侧重于普通的关联分析,而不侧重于因果分析,因此,通过采用恰当的分析模型,可发现未知威胁。
虽然基于大数据的威胁发现技术具有上述优点,但是该技术目前也存在一些问题和挑战,主要集中在分析结果的准确程度上。一方面,大数据的收集很难做到全面,而数据又是分析的基础,它的片面性往往会导致分析结果的偏差。另一方面,大数据分析能力的不足也会影响威胁分析的准确性。例如,纽约投资银行每秒有5000次网络事件,每天会从中捕捉25TB数据。如果没有足够的分析能力,要从如此庞大的数据中准确地发现极少数预示潜在攻击的事件,进而分析出威胁,几乎是不可能完成的任务。
1.5.2 基于大数据的认证技术
身份认证是信息系统或网络中确认操作者身份的过程。传统的认证技术主要通过用户所知的秘密(例如口令)或者持有的凭证(例如数字证书)来鉴别用户。这些技术面临着如下两个问题:
(1)攻击者总是能够找到方法来骗取用户所知的秘密,或窃取用户持有的凭证,从而通过认证机制的认证。例如攻击者利用钓鱼网站窃取用户口令,或者通过社会工程学方式接近用户,直接骗取用户所知的秘密或持有的凭证。
(2)传统认证技术中,认证方式越安全,往往意味着用户负担越重。例如,为了加强认证安全采用多因素认证,用户往往需要记忆复杂的口令,还要随身携带硬件——USB Key。一旦忘记口令或者忘记携带USB Key,就无法完成身份认证。为了减轻用户负担,出现了一些生物认证方式,利用用户具有的生物特征(例如指纹等)来确认其身份。然而,这些认证技术要求设备必须具有生物特征识别功能,例如指纹识别,因此,在很大程度上限制了这些认证技术的广泛应用。
在认证技术中引入大数据分析能够有效地解决这两个问题。基于大数据的认证技术指的是收集用户行为和设备行为数据,并对这些数据进行分析,获得用户行为和设备行为的特征,进而通过鉴别操作者行为及其设备行为来确定其身份。这与传统认证技术利用用户所知的秘密、所持有的凭证或具有的生物特征来确认其身份有很大不同。具体地,这种新的认证技术具有如下优点。
(1)攻击者很难模拟用户行为特征来通过认证,因此,这种技术更加安全。利用大数据技术能收集的用户行为和设备行为数据是多样的,可包括用户使用系统的时间、经常采用的设备、设备所处的物理位置,甚至是用户的操作习惯数据。通过这些数据的分析能够为用户勾画一个行为特征的轮廓。而攻击者很难在方方面面都模仿用户行为,因此,其与真正用户的行为特征轮廓必然存在较大偏差,无法通过认证。
(2)减轻了用户负担。用户行为和设备行为特征数据的采集、存储和分析都由认证系统完成,相比于传统认证技术,极大地减轻了用户负担。
(3)可更好地支持各系统认证机制的统一。基于大数据的认证技术可以让用户在整个网络空间采用相同的行为特征进行身份认证,而避免由于不同系统采用不同认证方式且用户所知的秘密或所持有的凭证也各不相同而带来的种种不便。
虽然基于大数据的认证技术具有上述优点,但同时也存在一些问题和挑战亟待解决,例如:
(1)初始阶段的认证问题。基于大数据的认证技术建立在大量用户行为和设备行为数据分析的基础上,而初始阶段不具备大量数据,因此,无法分析出用户行为特征,或者分析的结果不够准确。
(2)用户隐私问题。基于大数据的认证技术为了能够获得用户的行为习惯,必然要长期持续地收集大量的用户数据。那么如何在收集和分析这些数据的同时确保用户隐私也是亟待解决的问题。它是影响这种新的认证技术是否能够推广的主要因素。
1.5.3 基于大数据的数据真实性分析
目前,基于大数据的数据真实性分析被广泛认为是最为有效的方法。许多企业已经开始了这方面的研究工作,例如Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件,Yelp等社交点评网站用大数据分析来识别虚假评论,新浪微博等社交媒体利用大数据分析来鉴别各类垃圾信息等。
基于大数据的数据真实性分析技术能够提高垃圾信息的鉴别能力。一方面,引入大数据分析可获得更高的识别准确率。例如,对于点评网站的虚假评论,可通过收集评论者的位置信息、评论内容、评论时间等进行分析,鉴别其评论的可靠性。如果某评论者对某品牌多个同类产品都发表了恶意评论,则其评论的真实性就值得怀疑。另一方面,在进行大数据分析时,通过机器学习技术,可发现更多具有新特征的垃圾信息。然而该技术仍然面临一些困难,主要是虚假信息的定义、分析模型的构建等。
1.5.4 大数据与“安全即服务”
前面列举了一些当前基于大数据的信息安全技术,未来必将涌现出更多、更丰富的安全应用和安全服务,大数据也必将充分展现“安全即服务”(Security as a Service)的理念。由于此类技术以大数据分析为基础,因此,如何收集、存储和管理大数据就是相关企业或组织所面临的核心问题。除了极少数企业有能力做到之外,对于绝大多数信息安全企业来说,更为现实的方式是通过某种方式获得大数据服务,结合自己的技术特色领域,对外提供安全服务。一种未来的发展前景是,以底层大数据服务为基础,各个企业之间组成相互依赖、互相支撑的信息安全服务体系,总体上形成信息安全产业界的良好生态环境。