對于深度機(jī)器學(xué)習(xí)的記錄解析和底層設(shè)計
來源:原創(chuàng) 時間:2018-02-27 瀏覽:0 次為了保證系統(tǒng)和系統(tǒng)的信息安全,日志幾乎被內(nèi)置到所有系統(tǒng)中,用于記錄系統(tǒng)運(yùn)行時生成的信息,如日常操作、網(wǎng)絡(luò)訪問、系統(tǒng)警告等。與系統(tǒng)錯誤等事件相關(guān)的屬性和信息。這些信息對于了解系統(tǒng)的性能非常重要,因此經(jīng)常用于異常檢測。隨著計算機(jī)系統(tǒng)的規(guī)模和復(fù)雜性的增加,日志的數(shù)量也在增加。
開發(fā)人員或維護(hù)人員可以根據(jù)豐富的日志信息在運(yùn)行時監(jiān)視系統(tǒng)的行為,以進(jìn)一步跟蹤系統(tǒng)異常值的來源;但是,由于計算機(jī)系統(tǒng)的大小,而且大多數(shù)系統(tǒng)日志都是原始的非結(jié)構(gòu)化文本,當(dāng)出現(xiàn)實(shí)際問題時,他們將面臨大量日志數(shù)據(jù)。如何在最短的時間內(nèi)高效、準(zhǔn)確地解析大量的日志數(shù)據(jù),提取有用的信息,是一個亟待解決的重要問題。
近年來,日志分析得到了越來越多的關(guān)注和迅速的發(fā)展。在傳統(tǒng)的日志分析方法中,開發(fā)人員通常會根據(jù)自身的認(rèn)知情況,手工檢查系統(tǒng)問題或創(chuàng)建正則表達(dá)式以進(jìn)行定期維護(hù),但這些方法高度依賴專家經(jīng)驗(yàn)知識,通常不具備從歷史經(jīng)驗(yàn)中主動學(xué)習(xí)知識的能力。當(dāng)出現(xiàn)新的格式日志時,解析規(guī)則很容易過時,因此,靈活的自動化日志解析方法已經(jīng)成為一種要求。近年來,越來越多的研究者致力于自動化日志解析。納加潘等人提出的離線日志解析方法與線性的運(yùn)行時間和空間,prewett4控制臺日志處理提出了一種基于規(guī)則的方法。
薛文娟提出一種基于層次聚類的日志分析方法。馬爾文等人。設(shè)計了一個安全日志分析系統(tǒng)基于頻繁模式增長(FP-增長)算法。然而,這些方法仍然存在以下缺陷:只適用于嚴(yán)格格式化的結(jié)構(gòu)化日志。它的性能在很大程度上取決于日志信息的格式和結(jié)構(gòu)。它依賴于源程序?qū)θ罩疚谋镜募s束,其適用性不強(qiáng)。日志格式的非結(jié)構(gòu)化特性導(dǎo)致了低分辨率精度。相關(guān)規(guī)則要求日志管理員提前編寫腳本,管理員需要對系統(tǒng)或代碼有深入的了解,否則很難編寫有效的腳本。
針對上述問題,主要有兩種主要的日志解析方法:基于聚類的方法和啟發(fā)式方法?;诰垲惖娜罩窘馕龇椒ㄍǔS扇罩娟P(guān)鍵字提取日志關(guān)鍵字事務(wù)日志(LKE)和LogSigLogSignature表示,它們首先計算日志之間的距離。然后利用聚類技術(shù)形成不同的日志聚類。事件模板是從每個集群生成的。啟發(fā)式日志解析方法由簡單日志聚類工具(SLCT)表示。
然后選擇頻繁項(xiàng)組成事件候選項(xiàng),最后選擇候選項(xiàng)作為日志事件。LKE方法由于其自身的特點(diǎn),不能用于處理數(shù)據(jù)量大的任務(wù),雖然它也能達(dá)到較高的分辨率精度,但在系統(tǒng)異常問題的檢測中,分析結(jié)果通常導(dǎo)致聚類分析,也稱為聚類分析,這是一種無監(jiān)督學(xué)習(xí)方法。它根據(jù)事物的某一屬性將一組樣本對象劃分成簇。聚類中的對象具有盡可能高的相似性,而聚類中的對象具有最小的相似性。
對象的主要目的是劃分一些未標(biāo)記的對象。聚類分析不知道目標(biāo)數(shù)據(jù)集中存在多少類,因此有必要在一定距離測度的基礎(chǔ)上對所有對象進(jìn)行聚類,從而使同一聚類之間的距離最小化。聚類分析可以分析數(shù)據(jù)點(diǎn)之間的內(nèi)在聯(lián)系,而不需要任何先驗(yàn)信息來進(jìn)一步研究。
聚類結(jié)果的評價包括兩個方面:聚類過程評價和聚類結(jié)果評價。后者只需考慮給定的聚類結(jié)果是否合理和有效。內(nèi)部度量和相對度量是利用數(shù)據(jù)集固有的特征和數(shù)量來評價聚類算法的結(jié)果的,通常用于數(shù)據(jù)結(jié)構(gòu)未知和無標(biāo)記數(shù)據(jù)結(jié)構(gòu)的聚類評價。相對度量的重點(diǎn)是聚類算法的有效性。本文對數(shù)據(jù)集的結(jié)構(gòu)進(jìn)行了分析,強(qiáng)調(diào)了聚類算法的準(zhǔn)確性。因此,采用外部度量作為聚類評價指標(biāo)。外部度量假設(shè)聚類算法的結(jié)果是基于一種人工的預(yù)定義結(jié)構(gòu),反映了對數(shù)據(jù)聚類結(jié)構(gòu)的一種直觀的理解。
對于每個數(shù)據(jù)項(xiàng),聚類結(jié)果與手冊更加一致。常用的外部度量指標(biāo)是F度量和Rand索引更多的錯誤警報。本文主要結(jié)合Logsig算法的理論知識。設(shè)計并開發(fā)了一個日志分析系統(tǒng),該系統(tǒng)可以從非結(jié)構(gòu)化原始日志文本中生成H日志事件。該系統(tǒng)具有原始數(shù)據(jù)預(yù)處理、日志解析、聚類分析與評價、聚類結(jié)果散亂顯示等四大功能。系統(tǒng)的結(jié)果可以轉(zhuǎn)換為日志數(shù)據(jù)挖掘任務(wù)和日志事件序列,用于網(wǎng)絡(luò)入侵檢測。
該系統(tǒng)已在大型戰(zhàn)斗比賽的開源防火墻日志數(shù)據(jù)集上進(jìn)行了測試。結(jié)果表明,測井分析的平均精度可達(dá)85%。實(shí)驗(yàn)表明,在原算法中加入數(shù)據(jù)預(yù)處理步驟后,與原Logsig算法相結(jié)合的聚類結(jié)果評價模塊,分辨率提高了60%。用戶可以更直觀地觀察日志解析的效率。
隨著計算機(jī)系統(tǒng)的發(fā)展,日志數(shù)量的增加,日志在各種數(shù)據(jù)挖掘任務(wù)中的作用,日志自動解析成為必然趨勢。然而,缺乏一個系統(tǒng)的處理平臺。本文主要設(shè)計和開發(fā)了一個日志解析系統(tǒng),該系統(tǒng)能夠高效、快速地從日志文本中解析日志事件。該系統(tǒng)實(shí)現(xiàn)了原始數(shù)據(jù)的預(yù)處理和日志解析。聚類分析評價和聚類結(jié)果散點(diǎn)圖具有四大功能,集數(shù)據(jù)處理和結(jié)果分析于一體,提供了更好的用戶體驗(yàn)。通過ⅤAST201l1挑戰(zhàn)的開源防火墻日志數(shù)據(jù)集驗(yàn)證了該系統(tǒng)的可行性。
分析了數(shù)據(jù)預(yù)處理聚類的數(shù)量以及正則表達(dá)式對日志解析精度的影響。還發(fā)現(xiàn)日志大小會影響聚類的時間復(fù)雜度。因此,在接下來的工作中,我們可以考慮程序運(yùn)行的并行性。目前,系統(tǒng)的聚類數(shù)是基于小數(shù)據(jù)集實(shí)驗(yàn)的,接下來的研究可以考慮結(jié)合自適應(yīng)聚類算法來提高系統(tǒng)的性能。