您的位置:首頁 >  新聞中心 > 云通訊資訊
  云通訊資訊
 

云計(jì)算技術(shù)如何應(yīng)用于垃圾短信語義識(shí)別系統(tǒng)設(shè)計(jì)中的

來源:原創(chuàng)    時(shí)間:2018-04-25    瀏覽:0 次

     隨著手機(jī)用戶的增長(zhǎng),垃圾短信日益泛濫。傳統(tǒng)的垃圾短信過濾系統(tǒng)誤判率高,利用基于云計(jì)算的分類算法實(shí)現(xiàn)垃圾短信的語義識(shí)別系統(tǒng)。該系統(tǒng)采用概率分類算法對(duì)垃圾消息進(jìn)行語義識(shí)別,并以云計(jì)算語料庫為算法的訓(xùn)練集。實(shí)驗(yàn)表明,該系統(tǒng)在垃圾短信識(shí)別中具有很高的召回率和正確率,系統(tǒng)的設(shè)計(jì)為垃圾過濾提供了一種新的設(shè)計(jì)方法。隨著智能手機(jī)的普及,個(gè)人通信變得非常簡(jiǎn)單,短信服務(wù)(SMS)已經(jīng)成為一種高增長(zhǎng)服務(wù),其中98.1%的用戶通過短信與其他用戶進(jìn)行通信和通信。

blob.png

    但是隨著SMS的發(fā)展,垃圾短信的爆炸式增長(zhǎng)。垃圾短信是在未經(jīng)收件人同意的情況下侵犯用戶權(quán)益的廣告或非法短信。據(jù)統(tǒng)計(jì),只有0.1%的用戶說他們每周都沒有收到垃圾短信。垃圾短信對(duì)人們的正常生活和財(cái)產(chǎn)安全產(chǎn)生了影響。

    因此,防止垃圾短信是非常重要的。目前短消息過濾的主要方式有兩種:(1)短消息服務(wù)中心短消息標(biāo)識(shí),實(shí)時(shí)過濾垃圾短信;該方法在短消息中心服務(wù)器上過于沉重。(2)手頭有。終端過濾器使用戶能夠選擇屏蔽的內(nèi)容,實(shí)現(xiàn)垃圾短信過濾的個(gè)性化。該方法將消耗移動(dòng)電話資源,因?yàn)橛邢薜囊苿?dòng)電話資源,短消息過濾并不是足夠的時(shí)間,嚴(yán)重的誤判。

信息服務(wù)中心過濾中使用的主要方法有:基于Struts框架的垃圾短信過濾模塊的設(shè)計(jì)、基于采樣檢測(cè)的過濾方法、基于短信發(fā)送方式的行為過濾算法和離線垃圾過濾方法。短信過濾中的社交網(wǎng)絡(luò)行為模式。這些方法通過對(duì)發(fā)送短消息的方式進(jìn)行建模,并限制垃圾消息的發(fā)送來建立黑白名單。然而,由于SMS服務(wù)中心的數(shù)量眾多,處理效率不高。此外,由于信息用戶的分類不當(dāng),將會(huì)阻止SMS消息,無法到達(dá)用戶。

    由于不同用戶對(duì)垃圾短信的接收,加上用戶的個(gè)人隱私,垃圾短信誤判會(huì)帶來糾紛,短信服務(wù)中心很難實(shí)現(xiàn)對(duì)垃圾短信的準(zhǔn)確過濾。手機(jī)終端的垃圾短信過濾技術(shù)從成熟的垃圾過濾技術(shù)中吸取了教訓(xùn)。目前,手機(jī)垃圾短信過濾中使用的主要方法是特征確定和內(nèi)容確定。特征確定技術(shù)包括:基于行為識(shí)別和SVM的短過濾方法、基于CAPTCHA和WIN-DOW算法的垃圾短信、基于樸素貝葉斯和支持向量機(jī)的自適應(yīng)垃圾短信過濾系統(tǒng)。智能技術(shù)已被用于過濾SMS,它可以自動(dòng)過濾SMS。

    此外,張永軍等提出了基于內(nèi)容的垃圾短信過濾算法,能夠區(qū)分垃圾短信和短信內(nèi)容,分類效果更好。為了防止垃圾消息被阻塞,將處理短消息中的一些關(guān)鍵字,并基于詞法鏈進(jìn)行中文變體垃圾文本語義識(shí)別。然而,SMS與電子郵件之間存在顯著的差異:SMS僅包含文本和數(shù)字,而不是超鏈接和附件,SMS的形式不是標(biāo)準(zhǔn)化的,內(nèi)容是口語的,并且SMS的數(shù)量最多可達(dá)140個(gè)英文字母或70個(gè)漢字。

垃圾郵件SMS的特征識(shí)別由于其內(nèi)容較少且具有更相似的特征而容易誤判。由于資源有限,垃圾短信語料庫不夠大,誤判率高?;谏鲜隼绦抛R(shí)別系統(tǒng)的不足,提出了基于云計(jì)算的垃圾短信語義識(shí)別系統(tǒng)。通過存儲(chǔ)在云中的垃圾短信語料庫來計(jì)算每個(gè)手機(jī)用戶的關(guān)鍵詞,實(shí)現(xiàn)系統(tǒng)的實(shí)現(xiàn)。個(gè)性化垃圾短信過濾系統(tǒng)。系統(tǒng)由手機(jī)垃圾短信過濾模塊和云數(shù)據(jù)處理模塊兩部分組成。手機(jī)垃圾短信過濾模塊的主要功能是根據(jù)特征詞典中垃圾短信的文字特征將接收到的短信分類為普通短信和垃圾短信。

    同時(shí),根據(jù)客戶對(duì)SMS的認(rèn)識(shí),其中一些將得到認(rèn)可。將錯(cuò)誤的文本消息設(shè)置為云。通過對(duì)云短信語料庫進(jìn)行累加,并提出特征詞,可以得到每個(gè)用戶的個(gè)性化特征詞典。手機(jī)通過特征詞下載和更新特征庫,不斷修訂短信的分類。通過云計(jì)算的語義識(shí)別反饋,系統(tǒng)可以提高垃圾短信分類的成功率。手機(jī)垃圾過濾模塊由短信分類、垃圾短信上傳、特征字下載模塊三部分組成。

    短信分類模塊的核心模塊主要根據(jù)特征詞典對(duì)垃圾短信進(jìn)行分類,并根據(jù)分類結(jié)果對(duì)短信進(jìn)行屏蔽。垃圾短信上傳模塊的功能是將短信分類模塊和客戶識(shí)別垃圾短信上傳至云短信語料庫。特征字下載模塊訪問在線環(huán)境中的云短信處理模塊,下載從云短信語料庫中提取的特征詞,并更新本地特征庫。云語料庫處理由特征提取模塊組成。通過對(duì)語料庫的短信進(jìn)行分析,生成特征詞信息。云短信語料庫是研究短信分類的前提。

    普通短信語料庫為新加坡國(guó)立大學(xué)計(jì)算機(jī)學(xué)校的新加坡國(guó)立大學(xué)短信語料庫,垃圾短信語料庫來自手機(jī)的用戶反饋。短消息的語義分類采用計(jì)算機(jī)自動(dòng)技術(shù)。通過對(duì)短信文本進(jìn)行分析,將短信分類為普通短信和垃圾短信。常用的算法是人工神經(jīng)網(wǎng)絡(luò)、KNN、SVM、樸素貝葉斯算法等。與樸素貝葉斯算法相比,樸素貝葉斯算法具有分類精度高、簡(jiǎn)單、快速等特點(diǎn),得到了廣泛的應(yīng)用。語義分類是基于樸素貝葉斯算法。

    目前,向量空間模型(VSM)是向量空間模型,通常用于在短消息文本分類的過程中表示文本,也就是說,一個(gè)短消息文本被表示為由諸如T={t1,t2,。,tn}的特征項(xiàng)組成的向量,其中ti所述特征項(xiàng)是字符,短信中的詞、短語等。它們?cè)谖臋n中的重要性由權(quán)重值表示。由于中文短信的特殊性,需要處理文本內(nèi)容的分詞,使用普通文本消息集和垃圾短信集來區(qū)分詞,并對(duì)出現(xiàn)的詞的頻率進(jìn)行計(jì)數(shù),并且將它們作為特征項(xiàng)的權(quán)重。漢語詞法分析系統(tǒng)(ICTCLAS)用于分詞算法,由中國(guó)科學(xué)院計(jì)算技術(shù)研究所開發(fā)。


免费视频观无码一区,国内精品一区二区无码,99精品无码视频在线播放,ā片国产在线播放