云計算技術(shù)如何應(yīng)用于垃圾短信語義識別系統(tǒng)設(shè)計中的
來源:原創(chuàng) 時間:2018-04-25 瀏覽:0 次隨著手機用戶的增長,垃圾短信日益泛濫。傳統(tǒng)的垃圾短信過濾系統(tǒng)誤判率高,利用基于云計算的分類算法實現(xiàn)垃圾短信的語義識別系統(tǒng)。該系統(tǒng)采用概率分類算法對垃圾消息進行語義識別,并以云計算語料庫為算法的訓(xùn)練集。實驗表明,該系統(tǒng)在垃圾短信識別中具有很高的召回率和正確率,系統(tǒng)的設(shè)計為垃圾過濾提供了一種新的設(shè)計方法。隨著智能手機的普及,個人通信變得非常簡單,短信服務(wù)(SMS)已經(jīng)成為一種高增長服務(wù),其中98.1%的用戶通過短信與其他用戶進行通信和通信。
但是隨著SMS的發(fā)展,垃圾短信的爆炸式增長。垃圾短信是在未經(jīng)收件人同意的情況下侵犯用戶權(quán)益的廣告或非法短信。據(jù)統(tǒng)計,只有0.1%的用戶說他們每周都沒有收到垃圾短信。垃圾短信對人們的正常生活和財產(chǎn)安全產(chǎn)生了影響。
因此,防止垃圾短信是非常重要的。目前短消息過濾的主要方式有兩種:(1)短消息服務(wù)中心短消息標(biāo)識,實時過濾垃圾短信;該方法在短消息中心服務(wù)器上過于沉重。(2)手頭有。終端過濾器使用戶能夠選擇屏蔽的內(nèi)容,實現(xiàn)垃圾短信過濾的個性化。該方法將消耗移動電話資源,因為有限的移動電話資源,短消息過濾并不是足夠的時間,嚴(yán)重的誤判。
信息服務(wù)中心過濾中使用的主要方法有:基于Struts框架的垃圾短信過濾模塊的設(shè)計、基于采樣檢測的過濾方法、基于短信發(fā)送方式的行為過濾算法和離線垃圾過濾方法。短信過濾中的社交網(wǎng)絡(luò)行為模式。這些方法通過對發(fā)送短消息的方式進行建模,并限制垃圾消息的發(fā)送來建立黑白名單。然而,由于SMS服務(wù)中心的數(shù)量眾多,處理效率不高。此外,由于信息用戶的分類不當(dāng),將會阻止SMS消息,無法到達用戶。
由于不同用戶對垃圾短信的接收,加上用戶的個人隱私,垃圾短信誤判會帶來糾紛,短信服務(wù)中心很難實現(xiàn)對垃圾短信的準(zhǔn)確過濾。手機終端的垃圾短信過濾技術(shù)從成熟的垃圾過濾技術(shù)中吸取了教訓(xùn)。目前,手機垃圾短信過濾中使用的主要方法是特征確定和內(nèi)容確定。特征確定技術(shù)包括:基于行為識別和SVM的短過濾方法、基于CAPTCHA和WIN-DOW算法的垃圾短信、基于樸素貝葉斯和支持向量機的自適應(yīng)垃圾短信過濾系統(tǒng)。智能技術(shù)已被用于過濾SMS,它可以自動過濾SMS。
此外,張永軍等提出了基于內(nèi)容的垃圾短信過濾算法,能夠區(qū)分垃圾短信和短信內(nèi)容,分類效果更好。為了防止垃圾消息被阻塞,將處理短消息中的一些關(guān)鍵字,并基于詞法鏈進行中文變體垃圾文本語義識別。然而,SMS與電子郵件之間存在顯著的差異:SMS僅包含文本和數(shù)字,而不是超鏈接和附件,SMS的形式不是標(biāo)準(zhǔn)化的,內(nèi)容是口語的,并且SMS的數(shù)量最多可達140個英文字母或70個漢字。
垃圾郵件SMS的特征識別由于其內(nèi)容較少且具有更相似的特征而容易誤判。由于資源有限,垃圾短信語料庫不夠大,誤判率高。基于上述垃圾短信識別系統(tǒng)的不足,提出了基于云計算的垃圾短信語義識別系統(tǒng)。通過存儲在云中的垃圾短信語料庫來計算每個手機用戶的關(guān)鍵詞,實現(xiàn)系統(tǒng)的實現(xiàn)。個性化垃圾短信過濾系統(tǒng)。系統(tǒng)由手機垃圾短信過濾模塊和云數(shù)據(jù)處理模塊兩部分組成。手機垃圾短信過濾模塊的主要功能是根據(jù)特征詞典中垃圾短信的文字特征將接收到的短信分類為普通短信和垃圾短信。
同時,根據(jù)客戶對SMS的認(rèn)識,其中一些將得到認(rèn)可。將錯誤的文本消息設(shè)置為云。通過對云短信語料庫進行累加,并提出特征詞,可以得到每個用戶的個性化特征詞典。手機通過特征詞下載和更新特征庫,不斷修訂短信的分類。通過云計算的語義識別反饋,系統(tǒng)可以提高垃圾短信分類的成功率。手機垃圾過濾模塊由短信分類、垃圾短信上傳、特征字下載模塊三部分組成。
短信分類模塊的核心模塊主要根據(jù)特征詞典對垃圾短信進行分類,并根據(jù)分類結(jié)果對短信進行屏蔽。垃圾短信上傳模塊的功能是將短信分類模塊和客戶識別垃圾短信上傳至云短信語料庫。特征字下載模塊訪問在線環(huán)境中的云短信處理模塊,下載從云短信語料庫中提取的特征詞,并更新本地特征庫。云語料庫處理由特征提取模塊組成。通過對語料庫的短信進行分析,生成特征詞信息。云短信語料庫是研究短信分類的前提。
普通短信語料庫為新加坡國立大學(xué)計算機學(xué)校的新加坡國立大學(xué)短信語料庫,垃圾短信語料庫來自手機的用戶反饋。短消息的語義分類采用計算機自動技術(shù)。通過對短信文本進行分析,將短信分類為普通短信和垃圾短信。常用的算法是人工神經(jīng)網(wǎng)絡(luò)、KNN、SVM、樸素貝葉斯算法等。與樸素貝葉斯算法相比,樸素貝葉斯算法具有分類精度高、簡單、快速等特點,得到了廣泛的應(yīng)用。語義分類是基于樸素貝葉斯算法。
目前,向量空間模型(VSM)是向量空間模型,通常用于在短消息文本分類的過程中表示文本,也就是說,一個短消息文本被表示為由諸如T={t1,t2,。,tn}的特征項組成的向量,其中ti所述特征項是字符,短信中的詞、短語等。它們在文檔中的重要性由權(quán)重值表示。由于中文短信的特殊性,需要處理文本內(nèi)容的分詞,使用普通文本消息集和垃圾短信集來區(qū)分詞,并對出現(xiàn)的詞的頻率進行計數(shù),并且將它們作為特征項的權(quán)重。漢語詞法分析系統(tǒng)(ICTCLAS)用于分詞算法,由中國科學(xué)院計算技術(shù)研究所開發(fā)。