今天江西SEO曾慶平寫篇科普文,講講搜索引擎的技術機理和市場競爭的一些特點。當然,作為從事或有興趣從事流量運營的朋友,是可以用另一個角度去理解本文。
搜索引擎的核心技術架構,大體包括以下三塊,第一,是蜘蛛/爬蟲技術;第二,是索引技術;第三是查詢展現(xiàn)的技術; 當然,我不是搜索引擎的架構師,我只能用比較粗淺的方式來做一個結構的切分。
1、蜘蛛/爬蟲技術
蜘蛛,也叫爬蟲,是將互聯(lián)網的信息,抓取并存儲的一種技術實現(xiàn)。
搜索引擎的信息收錄,很多不明所以的人會有很多誤解,以為是付費收錄,或者有什么其他特殊的提交技巧,其實并不是,搜索引擎通過互聯(lián)網一些公開知名的網站,抓取內容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強大的信息抓取能力。
有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創(chuàng)業(yè)者,建議了解一下相關信息,百度,google都有站長平臺和管理后臺,這里很多內容是需要非常非常認真的對待的。
反過來說,在這樣的原理下,一個網站,只有被其他網站所鏈接,才有機會被搜索引擎抓取。如果這個網站沒有外部鏈接,或者外部鏈接在搜索引擎中被認為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。
分析和判斷搜索引擎是否抓取了你的頁面,或者什么時候抓取你的頁面,只能通過服務器上的訪問日志來查詢,如果是cdn就比較麻煩。 而基于網站嵌入代碼的方式,不論是cnzz,百度統(tǒng)計,還是google analytics,都無法獲得蜘蛛抓取的信息,因為這些信息不會觸發(fā)這些代碼的執(zhí)行。
一個比較推薦的日志分析軟件是awstats。
在十多年前,分析百度蜘蛛抓取軌跡和更新策略,是很多草根站長每日必做的功課,比如現(xiàn)在身價幾十億的知名80后上市公司董事長,當年在某站長論壇就是以此準確的分析判斷而封神,很年輕的時候就已經是站長圈的一代偶像。
但關于蜘蛛的話題,并不只基于鏈接抓取這么簡單,延伸來說
第一,網站擁有者可以選擇是否允許蜘蛛抓取,有一個robots.txt的文件是來控制這個的。
一個經典案例是 https://www.taobao.com/robots.txt
你會看到,淘寶至今仍有關鍵目錄不對百度蜘蛛開放,但對google開放。
另一個經典案例是 http://www.baidu.com/robots.txt
你看出什么了?你可能什么都沒看出來,我提醒一句,百度實質上全面禁止了360的蜘蛛抓取。
但這個協(xié)議只是約定俗成,實際上并沒有強制約束力,所以,你們猜猜,360遵守了百度的蜘蛛抓取禁止么?
第二,最早抓取是基于網站彼此的鏈接為入口,但實際上,并不能肯定的說,有可能存在其他抓取入口,比如說,
客戶端插件或瀏覽器, 免費網站統(tǒng)計系統(tǒng)的嵌入式代碼。
會不會成為蜘蛛抓取的入口,我只能說,有這個可能。
所以我跟很多創(chuàng)業(yè)者說,中國做網站,放百度統(tǒng)計,海外做網站,放google analytics,是否會增加搜索引擎對你網站的收錄?我只能說猜測,有這個可能。
第三,無法被抓取的信息
有些網站的內容鏈接,用一些 特殊效果完成,比如浮動的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識別,當然,我只是說有可能,現(xiàn)在搜索引擎比以前聰明,十多年前很多特效鏈接是不識別的,現(xiàn)在會好一些。
需要登錄,需要注冊才能訪問的頁面,蜘蛛是無法進入的,也就是無法收錄。
有些網站會給搜索特殊頁面,就是蜘蛛來能看到內容(蜘蛛訪問會有特殊的客戶端標記,服務端識別和處理并不復雜),人來了要登錄才能看,但這樣做其實是違反了收錄協(xié)議(需要人和蜘蛛看到的同樣的內容,這是絕大部分搜索引擎的收錄協(xié)議),有可能遭到搜索引擎處罰。
所以一個社區(qū)要想通過搜索引擎帶來免費用戶,必須讓訪客能看到內容,哪怕是部分內容。
帶很多復雜參數(shù)的內容鏈接url,有可能被蜘蛛當作重復頁面,拒絕收錄。
很多動態(tài)頁面是一個腳本程序帶參數(shù)體現(xiàn)的,但蜘蛛發(fā)現(xiàn)同一個腳本有大量參數(shù)的網頁,有時候會給該網頁的價值評估帶來困擾,蜘蛛可能會認為這個網頁是重復頁面,而拒絕收錄。還是那句話,隨著技術的發(fā)展,蜘蛛對動態(tài)腳本的參數(shù)識別度有了很大進步,現(xiàn)在基本上可以不用考慮這個問題。
但這個催生了一個技術,叫做偽靜態(tài)化,通過對web服務端做配置,讓用戶訪問的頁面,url格式看上去是一個靜態(tài)頁,其實后面是一個正則匹配,實際執(zhí)行的是一個動態(tài)腳本。
很多社區(qū)論壇為了追求免費搜索來路,做了偽靜態(tài)化處理,在十多年前,幾乎是草根站長必備技能之一。
爬蟲技術暫時說到這里,但是這里強調一下,有外鏈,不代表搜索蜘蛛會來爬取,搜索蜘蛛爬取了,不代表搜索引擎會收錄;搜索引擎收錄了,不代表用戶可以搜索的到;
site語法是檢查一個網站收錄數(shù)的最基本搜索語法,我開始以為是abc的常識,直到在新加坡做一些創(chuàng)業(yè)培訓后交流才發(fā)現(xiàn),大部分剛進入這個行業(yè)的人,或者有興趣進入這個行業(yè)的人,對此并不了解。
一個范例,百度搜索一下 site:qingpingseo.com
2、索引系統(tǒng)
蜘蛛抓取的是網頁的內容,那么要想讓用戶快速的通過關鍵詞搜索到這個網頁,就必須對網頁做關鍵詞的索引,從而提升查詢效率,簡單說就是,把網頁的每個關鍵詞提取出來,并針對這些關鍵詞在網頁中的出現(xiàn)頻率,位置,特殊標記等諸多因素,給予不同的權值標定,然后,存儲到索引庫中。
上一頁12 下一頁 閱讀全文