狼友在线无码免费视频,亚洲www在线免费观看

主頁 > 知識庫 > 科普：搜索引擎的基本工作原理

科普：搜索引擎的基本工作原理

今天江西SEO曾慶平寫篇科普文，講講搜索引擎的技術機理和市場競爭的一些特點。當然，作為從事或有興趣從事流量運營的朋友，是可以用另一個角度去理解本文。

搜索引擎的核心技術架構，大體包括以下三塊，第一，是蜘蛛/爬蟲技術；第二，是索引技術；第三是查詢展現(xiàn)的技術；當然，我不是搜索引擎的架構師，我只能用比較粗淺的方式來做一個結構的切分。

1、蜘蛛/爬蟲技術

蜘蛛，也叫爬蟲，是將互聯(lián)網的信息，抓取并存儲的一種技術實現(xiàn)。

搜索引擎的信息收錄，很多不明所以的人會有很多誤解，以為是付費收錄，或者有什么其他特殊的提交技巧，其實并不是，搜索引擎通過互聯(lián)網一些公開知名的網站，抓取內容，并分析其中的鏈接，然后有選擇的抓取鏈接里的內容，然后再分析其中的鏈接，以此類推，通過有限的入口，基于彼此鏈接，形成強大的信息抓取能力。

有些搜索引擎本身也有鏈接提交入口，但基本上，不是主要的收錄入口，不過作為創(chuàng)業(yè)者，建議了解一下相關信息，百度，google都有站長平臺和管理后臺，這里很多內容是需要非常非常認真的對待的。

反過來說，在這樣的原理下，一個網站，只有被其他網站所鏈接，才有機會被搜索引擎抓取。如果這個網站沒有外部鏈接，或者外部鏈接在搜索引擎中被認為是垃圾或無效鏈接，那么搜索引擎可能就不抓取他的頁面。

分析和判斷搜索引擎是否抓取了你的頁面，或者什么時候抓取你的頁面，只能通過服務器上的訪問日志來查詢，如果是cdn就比較麻煩。而基于網站嵌入代碼的方式，不論是cnzz，百度統(tǒng)計，還是google analytics，都無法獲得蜘蛛抓取的信息，因為這些信息不會觸發(fā)這些代碼的執(zhí)行。

一個比較推薦的日志分析軟件是awstats。

在十多年前，分析百度蜘蛛抓取軌跡和更新策略，是很多草根站長每日必做的功課，比如現(xiàn)在身價幾十億的知名80后上市公司董事長，當年在某站長論壇就是以此準確的分析判斷而封神，很年輕的時候就已經是站長圈的一代偶像。

但關于蜘蛛的話題，并不只基于鏈接抓取這么簡單，延伸來說

第一，網站擁有者可以選擇是否允許蜘蛛抓取，有一個robots.txt的文件是來控制這個的。

一個經典案例是 https://www.taobao.com/robots.txt

你會看到，淘寶至今仍有關鍵目錄不對百度蜘蛛開放，但對google開放。

另一個經典案例是 http://www.baidu.com/robots.txt

你看出什么了？你可能什么都沒看出來，我提醒一句，百度實質上全面禁止了360的蜘蛛抓取。

但這個協(xié)議只是約定俗成，實際上并沒有強制約束力，所以，你們猜猜，360遵守了百度的蜘蛛抓取禁止么？

第二，最早抓取是基于網站彼此的鏈接為入口，但實際上，并不能肯定的說，有可能存在其他抓取入口，比如說，

客戶端插件或瀏覽器，免費網站統(tǒng)計系統(tǒng)的嵌入式代碼。

會不會成為蜘蛛抓取的入口，我只能說，有這個可能。

所以我跟很多創(chuàng)業(yè)者說，中國做網站，放百度統(tǒng)計，海外做網站，放google analytics，是否會增加搜索引擎對你網站的收錄？我只能說猜測，有這個可能。

第三，無法被抓取的信息

有些網站的內容鏈接，用一些特殊效果完成，比如浮動的菜單等等，這種連接，有可能搜索引擎的蜘蛛程序不識別，當然，我只是說有可能，現(xiàn)在搜索引擎比以前聰明，十多年前很多特效鏈接是不識別的，現(xiàn)在會好一些。

需要登錄，需要注冊才能訪問的頁面，蜘蛛是無法進入的，也就是無法收錄。

有些網站會給搜索特殊頁面，就是蜘蛛來能看到內容（蜘蛛訪問會有特殊的客戶端標記，服務端識別和處理并不復雜），人來了要登錄才能看，但這樣做其實是違反了收錄協(xié)議（需要人和蜘蛛看到的同樣的內容，這是絕大部分搜索引擎的收錄協(xié)議），有可能遭到搜索引擎處罰。

所以一個社區(qū)要想通過搜索引擎帶來免費用戶，必須讓訪客能看到內容，哪怕是部分內容。

帶很多復雜參數(shù)的內容鏈接url，有可能被蜘蛛當作重復頁面，拒絕收錄。

很多動態(tài)頁面是一個腳本程序帶參數(shù)體現(xiàn)的，但蜘蛛發(fā)現(xiàn)同一個腳本有大量參數(shù)的網頁，有時候會給該網頁的價值評估帶來困擾，蜘蛛可能會認為這個網頁是重復頁面，而拒絕收錄。還是那句話，隨著技術的發(fā)展，蜘蛛對動態(tài)腳本的參數(shù)識別度有了很大進步，現(xiàn)在基本上可以不用考慮這個問題。

但這個催生了一個技術，叫做偽靜態(tài)化，通過對web服務端做配置，讓用戶訪問的頁面，url格式看上去是一個靜態(tài)頁，其實后面是一個正則匹配，實際執(zhí)行的是一個動態(tài)腳本。

很多社區(qū)論壇為了追求免費搜索來路，做了偽靜態(tài)化處理，在十多年前，幾乎是草根站長必備技能之一。

爬蟲技術暫時說到這里，但是這里強調一下，有外鏈，不代表搜索蜘蛛會來爬取，搜索蜘蛛爬取了，不代表搜索引擎會收錄；搜索引擎收錄了，不代表用戶可以搜索的到；

site語法是檢查一個網站收錄數(shù)的最基本搜索語法，我開始以為是abc的常識，直到在新加坡做一些創(chuàng)業(yè)培訓后交流才發(fā)現(xiàn)，大部分剛進入這個行業(yè)的人，或者有興趣進入這個行業(yè)的人，對此并不了解。

一個范例，百度搜索一下 site:qingpingseo.com