企業(yè)已開始熱衷于利用大數(shù)據(jù)技術(shù)收集和存儲海量數(shù)據(jù),并對其進行分析。企業(yè)所收集的數(shù)據(jù)量也呈指數(shù)級增長,包括交易數(shù)據(jù)、位置數(shù)據(jù)、用戶交互數(shù)據(jù)、物流數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、企業(yè)經(jīng)營數(shù)據(jù)、硬件監(jiān)控數(shù)據(jù)、應(yīng)用日志數(shù)據(jù)等。由于這些海量數(shù)據(jù)中包含大量企業(yè)或個人的敏感信息,數(shù)據(jù)安全和隱私保護的問題逐漸突顯出來。而這些問題由于大數(shù)據(jù)的三大主要特性而被進一步放大:數(shù)據(jù)量大(Volume)、數(shù)據(jù)增長快(Velocity)和數(shù)據(jù)多樣化(Variety)。
現(xiàn)在,當我們說“大數(shù)據(jù)”的時候,已不再是單指海量的數(shù)據(jù)了,而是基礎(chǔ)設(shè)施(云服務(wù)器)、應(yīng)用、數(shù)據(jù)源、分析模型、數(shù)據(jù)存儲和平臺的組合,而正是這些使得大數(shù)據(jù)安全面臨著不同尋常的挑戰(zhàn)。
與傳統(tǒng)數(shù)據(jù)安全相比,大數(shù)據(jù)安全有什么不同
傳統(tǒng)數(shù)據(jù)安全技術(shù)的概念是基于保護單節(jié)點實例的安全,例如一臺數(shù)據(jù)庫或服務(wù)器,而不是像Hadoop這樣的分布式計算環(huán)境。傳統(tǒng)安全技術(shù)在這種大型的分布式環(huán)境中不再有效。另外,在大規(guī)模的Hadoop集群中,各服務(wù)器和組件的安全配置出現(xiàn)不一致的機率將大大增加,這將導致更多的安全漏洞產(chǎn)生。
大數(shù)據(jù)平臺存儲著各種各樣的數(shù)據(jù),每一種數(shù)據(jù)源都可能需要有其相應(yīng)的訪問限制和安全策略。而當需要整合不同數(shù)據(jù)源時,就變得更加難以平衡對數(shù)據(jù)的安全策略的應(yīng)用。同時,快速增長的海量數(shù)據(jù)使得大數(shù)據(jù)平臺中的敏感信息和個人隱私信息無處不在,準確發(fā)現(xiàn)和定位敏感信息并制定針對性的訪問控制策略變得愈加困難,而對敏感信息的訪問的實時監(jiān)控也是保障大數(shù)據(jù)安全的重要任務(wù)之一。
最后,大數(shù)據(jù)技術(shù)很少單獨使用Hadoop,而是會結(jié)合生態(tài)系統(tǒng)中的其它技術(shù)組件如HBase,Spark,Impala,Hive,Pig等對數(shù)據(jù)進行抽取、存儲、處理、計算等。這些技術(shù)使得大數(shù)據(jù)可被訪問和利用,但基本都缺乏企業(yè)級的安全特性。以上從平臺、數(shù)據(jù)、技術(shù)視角對大數(shù)據(jù)安全與傳統(tǒng)數(shù)據(jù)安全進行了簡單的分析,傳統(tǒng)安全工具沒有為數(shù)據(jù)多樣化、數(shù)據(jù)處理及Hadoop的分布式特性而改進,不再足以能保證大數(shù)據(jù)的安全。
如何建立完善的大數(shù)據(jù)安全體系
面對復(fù)雜的大數(shù)據(jù)安全環(huán)境,需要從四個層面綜合考慮以建立全方位的大數(shù)據(jù)安全體系:邊界安全、訪問控制和授權(quán)、數(shù)據(jù)保護、審計和監(jiān)控。
邊界安全:主要包含網(wǎng)絡(luò)安全和身份認證。防護對系統(tǒng)及其數(shù)據(jù)和服務(wù)的訪問,身份認證確保用戶的真實性及有效性。Hadoop及其生態(tài)系統(tǒng)中的其它組件都支持使用Kerberos進行用戶身份驗證。
訪問控制和授權(quán):通過對用戶的授權(quán)實現(xiàn)對數(shù)據(jù)、資源和服務(wù)的訪問管理及權(quán)限控制。Hadoop和HBase都支持ACL,同時也實現(xiàn)了RBAC(基于角色的訪問控制)模型,更細粒度的ABAC(Attibute Based Access Control)在HBase較新的版本中也可通過訪問控制標簽和可見性標簽的形式實現(xiàn)。
數(shù)據(jù)保護:通過數(shù)據(jù)加密和脫敏兩種主要方式從數(shù)據(jù)層面保護敏感信息不被泄露。數(shù)據(jù)加密包括在傳輸過程中的加密和存儲加密。傳輸過程中的加密依賴于網(wǎng)絡(luò)安全協(xié)議而存儲加密可通過相關(guān)加密算法和密鑰對數(shù)據(jù)進行加密存儲。數(shù)據(jù)脫敏是比加密較為折中的辦法,對于大數(shù)據(jù)時代,該方法將更被更為廣泛的采用。因為收集的海量數(shù)據(jù)需要相對開放的共享給內(nèi)部不同團隊或外部機構(gòu)使用,才能發(fā)揮大數(shù)據(jù)的價值。對于敏感信息部分可通過脫敏的方式進行處理以保障信息安全。
審計和監(jiān)控:實時地監(jiān)控和審計可管理數(shù)據(jù)安全合規(guī)性和安全回溯、安全取證等。
如何設(shè)計大數(shù)據(jù)安全框架
基于以上四層的安全體系,結(jié)合大數(shù)據(jù)平臺的特性,企業(yè)在實踐大數(shù)據(jù)平臺安全化時,需要有更詳細的架構(gòu)設(shè)計,四層安全體系對應(yīng)在實際環(huán)境中,應(yīng)是以數(shù)據(jù)為中心,建立完善的管理制度,先治理好大數(shù)據(jù),再從訪問控制和數(shù)據(jù)保護層面加強對數(shù)據(jù)使用的安全防護,最后從網(wǎng)絡(luò)和基礎(chǔ)層加固平臺的安全部署。因此,大數(shù)據(jù)安全框架需包含以下5個核心模塊: 數(shù)據(jù)管理、身份和訪問管理、數(shù)據(jù)保護、網(wǎng)絡(luò)安全、基礎(chǔ)安全。
(一)數(shù)據(jù)管理
企業(yè)實施數(shù)據(jù)安全的首要任務(wù)是先管理好數(shù)據(jù),根據(jù)業(yè)務(wù)要求、合規(guī)性、安全策略及數(shù)據(jù)的敏感性,關(guān)鍵性和關(guān)聯(lián)風險對數(shù)據(jù)進行分類分級管理,有助于對數(shù)據(jù)保護的基準安全控制做出合理的決策。
從大數(shù)據(jù)特性層面對數(shù)據(jù)進行標記(例如分析類型、處理方式、數(shù)據(jù)時效性、數(shù)據(jù)類型、數(shù)據(jù)格式 、數(shù)據(jù)源等維度),就知道數(shù)據(jù)是如何進出大數(shù)據(jù)平臺,將會被如何使用,會被誰使用,數(shù)據(jù)是如何存儲的等等,這些都有助于數(shù)據(jù)發(fā)現(xiàn)的管理和對數(shù)據(jù)訪問控制制定相應(yīng)的策略。
最后,如果缺乏掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺中存在于哪里的意識,這將無疑是把數(shù)據(jù)暴露于風險之下。所以,掌握敏感數(shù)據(jù)在大數(shù)據(jù)平臺中分布情況,并能自動地增量式地發(fā)現(xiàn)找到敏感數(shù)據(jù),并監(jiān)控其使用情況,是否受到保護是能否做到全面保護數(shù)據(jù)安全的關(guān)鍵。
(二)身份認證和訪問控制
身份認證是防護數(shù)據(jù)安全的第一道關(guān)卡,通過身份認證確保訪問大數(shù)據(jù)平臺中的數(shù)據(jù)、資源和服務(wù)的用戶是安全的,大數(shù)據(jù)生態(tài)系統(tǒng)中從Hadoop到HBase、Hive、Pig、Impala、Spark等幾乎都支持利用Kerberos進行身份認證。
Kerberos也可以和企業(yè)的AD/LDAP結(jié)合以快速建立密鑰分發(fā)中心,而無需大數(shù)據(jù)平臺用戶重新建立用戶組、角色和密鑰等。用戶通過身份認證后可獲得訪問大數(shù)據(jù)平臺的資格,為進一步控制用戶對資源的訪問權(quán)限,需要通過授權(quán)機制來管理不同用戶對不同資源的訪問許可。
Hadoop和HBase及其它組件都在一定程度上支持對訪問的控制,RBAC和ABAC是兩個不同粒度的訪問控制模型,前者是基于角色來進行訪問控制,后者是更為細粒度的控制,可控制到被訪問對象的字段級別。在制定訪問控制策略時,應(yīng)依據(jù)合規(guī)要求,結(jié)合敏感數(shù)據(jù)保護策略、數(shù)據(jù)使用場景等針對不同數(shù)據(jù)、不同業(yè)務(wù)需求制定相應(yīng)的訪問限制規(guī)則,高效利用數(shù)據(jù),發(fā)揮大數(shù)據(jù)價值是企業(yè)的最終目的。
(三)數(shù)據(jù)保護
如果說身份認證、授權(quán)和訪問控制是確保了對數(shù)據(jù)訪問的對象的防護和控制,數(shù)據(jù)保護技術(shù)則是從根源層保護信息安全的最重要和最有效的手段。通過數(shù)據(jù)保護技術(shù),對大數(shù)據(jù)的開放共享、發(fā)布、最大化利用等都會有著最直接的積極作用。
數(shù)據(jù)保護技術(shù)的作用不僅局限于企業(yè)內(nèi)部,它是確保整個大數(shù)據(jù)產(chǎn)業(yè)快速發(fā)展的最重要保證。數(shù)據(jù)保護技術(shù)通過對數(shù)據(jù)利用脫敏、失真、匿名化限制發(fā)布等技術(shù)處理后,可讓處理后的數(shù)據(jù)到達安全交易、開放共享的目的。
而對于企業(yè)內(nèi)部,針對脫敏后的數(shù)據(jù),不需再設(shè)定復(fù)雜的訪問控制限制,可讓更多的分析應(yīng)用更高效地實施并優(yōu)化開發(fā)項目,讓大數(shù)據(jù)得到更充分的利用同時,也確保遵從行業(yè)/監(jiān)管數(shù)據(jù)隱私法令和法規(guī)。
(四)網(wǎng)絡(luò)安全
大數(shù)據(jù)的網(wǎng)絡(luò)安全通常是指通過客戶端訪問大數(shù)據(jù)平臺的連接和大數(shù)據(jù)平臺中服務(wù)器節(jié)點之間的網(wǎng)絡(luò)通信安全。 為保證數(shù)據(jù)在傳輸過程中的安全性,節(jié)點之間及客戶端與服務(wù)器之間的通信都需要進行加密,不同的通信使用不同的加密方式,Hadoop平臺支持RPC加密,HDFS數(shù)據(jù)傳輸加密和HTTP通信的加密。
除了對網(wǎng)絡(luò)通信進行加密設(shè)置,還可通過使用網(wǎng)關(guān)服務(wù)器隔離客戶端與大數(shù)據(jù)平臺的直接訪問來進一步升級網(wǎng)絡(luò)安全。網(wǎng)關(guān)服務(wù)器部署在大數(shù)據(jù)平臺和企業(yè)用戶網(wǎng)絡(luò)域之間,用戶通過登錄網(wǎng)關(guān)服務(wù)器來驗證身份,并由網(wǎng)關(guān)服務(wù)代理用戶對大數(shù)據(jù)平臺的訪問,同時,該服務(wù)器還可用來提供訪問控制、策略管理。用戶通過登錄到網(wǎng)關(guān)服務(wù)器來執(zhí)行對大數(shù)據(jù)平臺的操作,所有的客戶端包括Hive,Pig,Oozie等都可安裝在這臺網(wǎng)關(guān)服務(wù)器上,這樣用戶就不必登錄到大數(shù)據(jù)平臺中的服務(wù)器節(jié)點,從而保護大數(shù)據(jù)平臺不會受到非法訪問。
(五)基礎(chǔ)安全
前面我們談到了通過各種方式來保證大數(shù)據(jù)平臺和安全性,包括身份認證、授權(quán)、訪問控制、數(shù)據(jù)保護及網(wǎng)絡(luò)通信安全。但大數(shù)據(jù)平臺仍然有可能會受到非法訪問和特權(quán)用戶的訪問。為確保合規(guī)性的需要,我們需要對大數(shù)據(jù)平臺的一切活動進行審計和監(jiān)控并生成告警信息,也即是安全事故和事件監(jiān)控(SIEM)系統(tǒng)。SIEM系統(tǒng)負責對大數(shù)據(jù)平臺中任何可疑的活動進行收集,監(jiān)控,分析和生成各種安全報告。
以下是大數(shù)據(jù)平臺中需要被監(jiān)控的事件以用來分析識別安全事件:用戶登錄和身份驗證事件、HDFS操作、授權(quán)錯誤、敏感數(shù)據(jù)操作、MapReduce任務(wù)、通過各種客戶端的訪問如Oozie,HUE等以及異常事件。只有全面的收集在大數(shù)據(jù)平臺中的一切活動,才有機會捕捉可能會發(fā)生的安全事故及進行事后分析時有機會進行回溯分析,追蹤事故根源。
來源:機房360
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房