網(wǎng)絡(luò)爬蟲(chóng)無(wú)孔不入,不經(jīng)意間讓你的隱私無(wú)處安放
來(lái)源:原創(chuàng) 時(shí)間:2018-03-03 瀏覽:0 次一位朋友曾困惑地問(wèn):“據(jù)說(shuō)谷歌可以搜索私人郵件,真的嗎?”“在你回答之前,你需要解釋一下網(wǎng)絡(luò)爬蟲(chóng)的作用”。如今,搜索引擎已經(jīng)成為上網(wǎng)沖浪的標(biāo)準(zhǔn),甚至“不問(wèn)百度”。外事不問(wèn)谷歌:“搜索引擎可以根據(jù)用戶的需要提供豐富的在線信息。與傳統(tǒng)的紙質(zhì)信息媒體相比,搜索引擎從根本上改變了人們獲取和處理信息的習(xí)慣。它基于一個(gè)收集大量網(wǎng)絡(luò)信息的網(wǎng)絡(luò)爬蟲(chóng)。在搜索引擎的早期,程序員的小兄弟們互相炫耀的指標(biāo)之一,就是他們自己的爬蟲(chóng)收集的網(wǎng)頁(yè)數(shù)量。
搜索引擎收集在線信息的主要手段是網(wǎng)絡(luò)爬蟲(chóng)(也稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機(jī)器人等)。這是一個(gè)程序,“自動(dòng)瀏覽網(wǎng)頁(yè)”,根據(jù)一定的規(guī)則。自動(dòng)抓取互聯(lián)網(wǎng)信息,如:網(wǎng)頁(yè)、各種文檔、圖片、音頻、視頻等。搜索引擎通過(guò)索引技術(shù)組織這些信息,并根據(jù)用戶的查詢快速提供搜索結(jié)果。如果互聯(lián)網(wǎng)上的網(wǎng)頁(yè)或網(wǎng)站被理解為節(jié)點(diǎn),那么大量的網(wǎng)頁(yè)或網(wǎng)站將通過(guò)超鏈接形成網(wǎng)格結(jié)構(gòu)。當(dāng)人們?yōu)g覽網(wǎng)頁(yè)時(shí),他們通過(guò)點(diǎn)擊頁(yè)面上的鏈接從一個(gè)節(jié)點(diǎn)跳到另一個(gè)節(jié)點(diǎn)。
就像在網(wǎng)上散步。網(wǎng)絡(luò)爬蟲(chóng)模擬了這種行為,但是它更快,跳的節(jié)點(diǎn)更全面,所以它們被生動(dòng)地稱為網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)絡(luò)蜘蛛。不斷優(yōu)化的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)有效地應(yīng)對(duì)了各種挑戰(zhàn),為有效搜索用戶關(guān)注的特定領(lǐng)域和主題提供了強(qiáng)有力的支持,并為推廣中小型網(wǎng)站提供了一種有效的途徑。該網(wǎng)站是針對(duì)搜索引擎爬蟲(chóng)的優(yōu)化曾經(jīng)非常流行。
需要注意的是,Web爬蟲(chóng)開(kāi)始從一些初始Web頁(yè)面(URL)抓取頁(yè)面,并在此過(guò)程中繼續(xù)從當(dāng)前頁(yè)面中提取新鏈接供爬行,并來(lái)回循環(huán)以擴(kuò)展到整個(gè)網(wǎng)絡(luò)。為搜索引擎或大型網(wǎng)絡(luò)服務(wù)提供商收集數(shù)據(jù)。網(wǎng)絡(luò)爬蟲(chóng)的爬行范圍和數(shù)量都很大,爬行速度和存儲(chǔ)空間都很大。同時(shí),因?yàn)橛泻芏囗?yè)面需要刷新,所以通常是并行的。這是一個(gè)常見(jiàn)的爬蟲(chóng)框架。首先,仔細(xì)選擇一些網(wǎng)頁(yè),并使用這些頁(yè)面的鏈接地址作為種子URL放入要獲取的URL隊(duì)列中。
爬蟲(chóng)依次從URL隊(duì)列讀取每個(gè)URL,通過(guò)DNS解析將其解析到相應(yīng)的IP地址。一方面,下載的內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)中,等待后續(xù)處理;另一方面,將頁(yè)面的URL添加到爬行隊(duì)列中(此隊(duì)列記錄下載的頁(yè)面URL以避免重復(fù)爬行)。此外,如果鏈接未被獲取,則從新下載的頁(yè)面中提取新的URL。添加到要獲取的URL隊(duì)列,并在以后的計(jì)劃中下載相應(yīng)的頁(yè)面。這個(gè)循環(huán)來(lái)回循環(huán),直到要獲取的URL隊(duì)列為空(實(shí)際上不是空的。
將有其他條件來(lái)停止爬行,這表示完成了完整的爬行過(guò)程。這是一個(gè)通用爬蟲(chóng)的整個(gè)過(guò)程。由于互聯(lián)網(wǎng)上的網(wǎng)頁(yè)數(shù)量如此之多,所以在實(shí)踐中往往會(huì)有不同的爬行策略。常用的策略有:深度優(yōu)先策略、廣度優(yōu)先策略。
一個(gè)典型的網(wǎng)頁(yè)層次關(guān)系通常就像一棵樹(shù),如果主頁(yè)被認(rèn)為是樹(shù)的根,那么其他的網(wǎng)頁(yè)就會(huì)在樹(shù)枝上留下。具體來(lái)說(shuō),深度優(yōu)先策略是垂直爬行,逐個(gè)分支,然后依次訪問(wèn)頁(yè)面的下一個(gè)級(jí)別,直到您不能更進(jìn)一步為止。返回到上一個(gè)鏈接節(jié)點(diǎn)以搜索其他分支。當(dāng)遍歷所有分支時(shí),爬行任務(wù)就會(huì)結(jié)束。這種策略更適合于垂直搜索或站內(nèi)搜索.。
但是,爬行一個(gè)內(nèi)容層次更深的網(wǎng)站會(huì)造成資源的巨大浪費(fèi)。)廣度優(yōu)先策略是水平地、一個(gè)接一個(gè)地爬行,然后在較低的層次上先爬行。在一定層次上對(duì)所有頁(yè)面進(jìn)行爬行時(shí),該策略可以有效地控制頁(yè)面的爬行深度,避免了不能以無(wú)限深的分支結(jié)束爬行的問(wèn)題。爬蟲(chóng)技術(shù)也面臨著一系列的困難,如:大量的重復(fù)網(wǎng)頁(yè)在互聯(lián)網(wǎng)上,動(dòng)態(tài)頁(yè)面,動(dòng)畫(huà)特效頁(yè)面等?,F(xiàn)有的搜索引擎只能爬行互聯(lián)網(wǎng)上的網(wǎng)頁(yè)總數(shù)的一半,而極限估計(jì)值不到16個(gè)。
堅(jiān)持在這里看到寶寶問(wèn),無(wú)聊的技術(shù)結(jié)束了嗎?爬行動(dòng)物有什么用?眾所周知,許多電子商務(wù)平臺(tái)都具有價(jià)格自動(dòng)調(diào)整的功能。他們將依靠爬蟲(chóng)程序掃描類似網(wǎng)站的價(jià)格,并相應(yīng)地調(diào)整它們,從而獲得價(jià)格優(yōu)勢(shì)。例如,蘇寧的“棱鏡”系統(tǒng)是一個(gè)實(shí)時(shí)的價(jià)格比較工具。它使用網(wǎng)絡(luò)爬蟲(chóng)來(lái)獲取其他電子商務(wù)平臺(tái)上同類產(chǎn)品的價(jià)格、促銷、評(píng)論和其他產(chǎn)品的信息。這對(duì)商人來(lái)說(shuō)是個(gè)極大的方便。事實(shí)上,自從亞馬遜在十多年前推出這種自動(dòng)定價(jià)模式以來(lái),機(jī)器人驅(qū)動(dòng)的定價(jià)已經(jīng)徹底改變了整個(gè)零售業(yè)。零售商店每周最多調(diào)整一次價(jià)格,因?yàn)楦鼡Q標(biāo)簽的成本和時(shí)間成本都很高。
在電子商務(wù)世界里,零售商可以隨時(shí)調(diào)整價(jià)格,有時(shí)一天調(diào)整幾次.。這是由于相互競(jìng)爭(zhēng)的價(jià)格數(shù)據(jù)。在電子商務(wù)中,爬蟲(chóng)的使用已經(jīng)成為一種貓捉老鼠的游戲.。公司希望阻止競(jìng)爭(zhēng)對(duì)手爬上他們的網(wǎng)站。另一方面,我想滲透我對(duì)手的網(wǎng)站。盡管采取了各種技術(shù)措施,但機(jī)器人爬行的數(shù)量仍然令人震驚。
除了競(jìng)爭(zhēng)對(duì)手,一些流量來(lái)自研究機(jī)構(gòu),研究競(jìng)爭(zhēng),搜索引擎,廣告服務(wù),甚至非法分子試圖侵入網(wǎng)站帳戶。在這里,我們必須談?wù)劸W(wǎng)絡(luò)爬蟲(chóng)的安全性。因?yàn)榫W(wǎng)絡(luò)爬蟲(chóng)的策略是盡可能地“抓取”更多的高價(jià)值信息。根據(jù)特定的策略訪問(wèn)盡可能多的頁(yè)面,這將占用網(wǎng)絡(luò)帶寬,增加網(wǎng)絡(luò)服務(wù)器的處理開(kāi)銷。許多小型網(wǎng)站管理員發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)爬蟲(chóng)光顧時(shí),訪問(wèn)流量將明顯增加。
例如,有一個(gè)10 MB的網(wǎng)站(如PDF格式)文件,該文件使用爬蟲(chóng)1000次,將使網(wǎng)站產(chǎn)生大量出站流量(可在幾分鐘內(nèi)達(dá)到GB級(jí)),后果可能是災(zāi)難性的。一旦這種攻擊效果達(dá)到了類似的熟人。聲名狼藉的DDoS攻擊,使Web服務(wù)在獲取大量暴力、資源枯竭的同時(shí)停止提供服務(wù)。此外,惡意用戶還可以通過(guò)Web爬蟲(chóng)對(duì)所有敏感數(shù)據(jù)進(jìn)行不正當(dāng)?shù)淖ト?,主要表現(xiàn)在以下幾個(gè)方面:(1)網(wǎng)站入侵,大部分基于Web服務(wù)的系統(tǒng)都附加到測(cè)試頁(yè)面和調(diào)試后門。
通過(guò)這些頁(yè)面或程序甚至可以繞過(guò)認(rèn)證服務(wù)器敏感的數(shù)據(jù),已經(jīng)成為惡意用戶分析攻擊的有效信息源。文件存儲(chǔ)本身就意味著網(wǎng)站中存在潛在的安全漏洞。(2)搜索管理員登錄頁(yè)面,許多在線管理系統(tǒng)提供了一個(gè)基于Web的界面,使管理員能夠遠(yuǎn)程控制和管理管理員。
如果管理員登錄頁(yè)面被惡意用戶搜索,將面臨巨大的威脅(3)搜索互聯(lián)網(wǎng)用戶的個(gè)人信息,包括姓名、ID號(hào)、電話號(hào)碼、電子郵件地址、QQ地址等個(gè)人信息,惡意用戶可能在實(shí)施攻擊或欺詐后獲得。因此,采取適當(dāng)措施限制對(duì)網(wǎng)頁(yè)爬蟲(chóng)的訪問(wèn),推廣網(wǎng)頁(yè)打開(kāi)網(wǎng)頁(yè)爬蟲(chóng),屏蔽敏感,維護(hù)網(wǎng)站的安全運(yùn)行,保護(hù)用戶的隱私是非常重要的。所以,在正常情況下不應(yīng)該被谷歌抓取一條私密消息,但不排除特例,因?yàn)榉?wù)器管理漏洞和信息可能會(huì)被泄露。
要想看到最后的孩子們,一定要鼓勵(lì)他們推薦一個(gè)叫“黑暗”谷歌的Shodan搜索引擎,它也被稱為世界上最糟糕的搜索引擎。它與一般的搜索引擎相比,可在互聯(lián)網(wǎng)路由器、攝像頭、數(shù)據(jù)采集和打印機(jī)監(jiān)控系統(tǒng)上找到,并根據(jù)各自的國(guó)家、操作系統(tǒng)、分類等品牌屬性進(jìn)行分類。如果谷歌和百度搜索網(wǎng)頁(yè)內(nèi)容,那么就是網(wǎng)絡(luò)設(shè)備的搜索,應(yīng)用探究物聯(lián)網(wǎng)中的場(chǎng)景。