黄网站色视频免费观看,2020国产精品香蕉在线播放

主頁 > 知識(shí)庫 > 防止網(wǎng)頁被搜索引擎爬蟲和網(wǎng)頁采集器收錄的方法匯總

防止網(wǎng)頁被搜索引擎爬蟲和網(wǎng)頁采集器收錄的方法匯總

下面的這些方法是可以標(biāo)本兼治的：
1、限制IP地址單位時(shí)間的訪問次數(shù)
分析：沒有哪個(gè)常人一秒鐘內(nèi)能訪問相同網(wǎng)站5次，除非是程序訪問，而有這種喜好的，就剩下搜索引擎爬蟲和討厭的采集器了。
弊端：一刀切，這同樣會(huì)阻止搜索引擎對(duì)網(wǎng)站的收錄
適用網(wǎng)站：不太依靠搜索引擎的網(wǎng)站
采集器會(huì)怎么做：減少單位時(shí)間的訪問次數(shù)，減低采集效率

2、屏蔽ip
分析：通過后臺(tái)計(jì)數(shù)器，記錄來訪者ip和訪問頻率，人為分析來訪記錄，屏蔽可疑Ip。
弊端：似乎沒什么弊端，就是站長(zhǎng)忙了點(diǎn)
適用網(wǎng)站：所有網(wǎng)站，且站長(zhǎng)能夠知道哪些是google或者百度的機(jī)器人
采集器會(huì)怎么做：打游擊戰(zhàn)唄！利用ip代理采集一次換一次，不過會(huì)降低采集器的效率和網(wǎng)速(用代理嘛)。

3、利用js加密網(wǎng)頁內(nèi)容
Note:這個(gè)方法我沒接觸過，只是從別處看來
分析：不用分析了，搜索引擎爬蟲和采集器通殺
適用網(wǎng)站：極度討厭搜索引擎和采集器的網(wǎng)站
采集器會(huì)這么做：你那么牛，都豁出去了，他就不來采你了

4、網(wǎng)頁里隱藏網(wǎng)站版權(quán)或者一些隨機(jī)垃圾文字，這些文字風(fēng)格寫在css文件中
分析：雖然不能防止采集，但是會(huì)讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說明或者一些垃圾文字，因?yàn)橐话悴杉鞑粫?huì)同時(shí)采集你的css文件，那些文字沒了風(fēng)格，就顯示出來了。
適用網(wǎng)站：所有網(wǎng)站
采集器會(huì)怎么做：對(duì)于版權(quán)文字，好辦，替換掉。對(duì)于隨機(jī)的垃圾文字，沒辦法，勤快點(diǎn)了。

5、用戶登錄才能訪問網(wǎng)站內(nèi)容 *
分析：搜索引擎爬蟲不會(huì)對(duì)每個(gè)這樣類型的網(wǎng)站設(shè)計(jì)登錄程序。聽說采集器可以針對(duì)某個(gè)網(wǎng)站設(shè)計(jì)模擬用戶登錄提交表單行為。
適用網(wǎng)站：極度討厭搜索引擎，且想阻止大部分采集器的網(wǎng)站
采集器會(huì)怎么做：制作擬用戶登錄提交表單行為的模塊

6、利用腳本語言做分頁(隱藏分頁)
分析：還是那句，搜索引擎爬蟲不會(huì)針對(duì)各種網(wǎng)站的隱藏分頁進(jìn)行分析，這影響搜索引擎對(duì)其收錄。但是，采集者在編寫采集規(guī)則時(shí)，要分析目標(biāo)網(wǎng)頁代碼，懂點(diǎn)腳本知識(shí)的人，就會(huì)知道分頁的真實(shí)鏈接地址。
適用網(wǎng)站：對(duì)搜索引擎依賴度不高的網(wǎng)站，還有，采集你的人不懂腳本知識(shí)
采集器會(huì)怎么做：應(yīng)該說采集者會(huì)怎么做，他反正都要分析你的網(wǎng)頁代碼，順便分析你的分頁腳本，花不了多少額外時(shí)間。

7、防盜鏈措施 (只允許通過本站頁面連接查看，如：Request.ServerVariables(“HTTP_REFERER“) )
分析：asp和php可以通過讀取請(qǐng)求的HTTP_REFERER屬性，來判斷該請(qǐng)求是否來自本網(wǎng)站，從而來限制采集器，同樣也限制了搜索引擎爬蟲，嚴(yán)重影響搜索引擎對(duì)網(wǎng)站部分防盜鏈內(nèi)容的收錄。
適用網(wǎng)站：不太考慮搜索引擎收錄的網(wǎng)站
采集器會(huì)怎么做：偽裝HTTP_REFERER嘛，不難。

8、全flash、圖片或者pdf來呈現(xiàn)網(wǎng)站內(nèi)容
分析：對(duì)搜索引擎爬蟲和采集器支持性不好，這個(gè)很多懂點(diǎn)seo的人都知道
適用網(wǎng)站：媒體設(shè)計(jì)類并且不在意搜索引擎收錄的網(wǎng)站
采集器會(huì)怎么做：不采了，走人

9、網(wǎng)站隨機(jī)采用不同模版
分析：因?yàn)椴杉魇歉鶕?jù)網(wǎng)頁結(jié)構(gòu)來定位所需要的內(nèi)容，一旦先后兩次模版更換，采集規(guī)則就失效，不錯(cuò)。而且這樣對(duì)搜索引擎爬蟲沒影響。
適用網(wǎng)站：動(dòng)態(tài)網(wǎng)站，并且不考慮用戶體驗(yàn)。
采集器會(huì)怎么做：一個(gè)網(wǎng)站模版不可能多于10個(gè)吧，每個(gè)模版弄一個(gè)規(guī)則就行了，不同模版采用不同采集規(guī)則。如果多于10個(gè)模版了，既然目標(biāo)網(wǎng)站都那么費(fèi)勁的更換模版，成全他，撤。

10、采用動(dòng)態(tài)不規(guī)則的html標(biāo)簽
分析：這個(gè)比較變態(tài)。考慮到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的，所以 div >和 div >對(duì)于頁面顯示效果一樣，但是作為采集器的標(biāo)記就是兩個(gè)不同標(biāo)記了。如果每次頁面的html標(biāo)簽內(nèi)空格數(shù)隨機(jī)，那么
采集規(guī)則就失效了。但是，這對(duì)搜索引擎爬蟲沒多大影響。
適合網(wǎng)站：所有動(dòng)態(tài)且不想遵守網(wǎng)頁設(shè)計(jì)規(guī)范的網(wǎng)站。
采集器會(huì)怎么做：還是有對(duì)策的，現(xiàn)在html cleaner還是很多的，先清理了html標(biāo)簽，然后再寫采集規(guī)則；應(yīng)該用采集規(guī)則前先清理html標(biāo)簽，還是能夠拿到所需數(shù)據(jù)。

標(biāo)簽：辛集廣西保定葫蘆島延邊呼和浩特濟(jì)源南平

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《防止網(wǎng)頁被搜索引擎爬蟲和網(wǎng)頁采集器收錄的方法匯總》，本文關(guān)鍵詞防止,網(wǎng)頁,被,搜索引擎,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。