域名注冊(cè) 網(wǎng)站制作
您現(xiàn)在的位置:首頁(yè) >> SEO優(yōu)化 >> 內(nèi)容

搜索引擎工作原理

時(shí)間:2013/12/18 15:31:08 點(diǎn)擊:3885

摘要:在正式學(xué)習(xí)SEO之前,你還需要學(xué)習(xí)一下搜索引擎的工作原理,畢竟SEO是針對(duì)搜索引擎進(jìn)行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些問(wèn)題的時(shí)候,你就可以知道問(wèn)題產(chǎn)生的原因了。一個(gè)搜索引擎,一般由...

在正式學(xué)習(xí)SEO之前,你還需要學(xué)習(xí)一下搜索引擎的工作原理,畢竟SEO是針對(duì)搜索引擎進(jìn)行操作的,那么弄明白搜索引擎的工作原理,那么遇到一些問(wèn)題的時(shí)候,你就可以知道問(wèn)題產(chǎn)生的原因了。一個(gè)搜索引擎,一般由下面幾個(gè)模塊組成:
1、抓取模塊
2、過(guò)濾模塊
3、收錄模塊
4、排序模塊

抓取模塊
搜索引擎在運(yùn)作的時(shí)候,第一個(gè)工作就是要去互聯(lián)網(wǎng)上面抓取頁(yè)面,而實(shí)現(xiàn)這個(gè)工作的模塊,我們稱為抓取模塊。學(xué)習(xí)抓取模塊,我們需要先了解下面幾個(gè)知識(shí)點(diǎn):
1、搜索引擎抓取程序:蜘蛛
搜索引擎為了可以自動(dòng)抓取互聯(lián)網(wǎng)上面數(shù)以萬(wàn)計(jì)的網(wǎng)頁(yè),必須有一個(gè)全自動(dòng)的頁(yè)面抓取程序。而這個(gè)程序我們一般稱之為“蜘蛛”(也可以叫做“機(jī)器人”)。那么不同的搜索引擎的蜘蛛,叫法也就不同了。百度的抓取程序,一般稱為百度蜘蛛。
谷歌的抓取程序,一般稱為谷歌機(jī)器人。
360的抓取程序,一般稱為360蜘蛛。
其實(shí),不管叫做蜘蛛,還是機(jī)器人,你只要知道這個(gè)指的是搜索引擎的抓取程序,就可以了。蜘蛛的任務(wù)很簡(jiǎn)單,就是順著鏈接不斷的抓取互聯(lián)網(wǎng)上,自己還沒(méi)有收錄過(guò)的網(wǎng)頁(yè)和鏈接,然后將抓取到的網(wǎng)頁(yè)信息和鏈接信息存儲(chǔ)到自己的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中。而這些抓取到的網(wǎng)頁(yè),將有機(jī)會(huì)出現(xiàn)在最終的搜索結(jié)果中。
2、怎么讓蜘蛛來(lái)抓取我們的網(wǎng)站
通過(guò)上面對(duì)蜘蛛的解釋?zhuān)覀兡軌蛑溃阂胱约旱捻?yè)面最終出現(xiàn)在搜索結(jié)果中,首先得讓蜘蛛抓取到我們的網(wǎng)站。通過(guò)下面三種方法可以讓蜘蛛來(lái)抓取我們的網(wǎng)站
外部鏈接我們可以在一些已經(jīng)被搜索引擎收錄的網(wǎng)站上面發(fā)布自己網(wǎng)站的鏈接,以此吸引蜘蛛,或者交換友情鏈接也是一個(gè)常用的方法。
提交鏈接:百度為站長(zhǎng)們提供了鏈接提交的工具,通過(guò)這個(gè)工具,我們只需要通過(guò)這個(gè)工具提交給百度,那么百度就會(huì)派出蜘蛛來(lái)抓取我們網(wǎng)頁(yè)了。
百度網(wǎng)址提交工具網(wǎng)址(如圖所示):
http://zhanzhang.baidu.com/linksubmit/URL
搜索引擎工作原理

蜘蛛自己來(lái)抓。如果你希望蜘蛛能夠定期主動(dòng)來(lái)自己的網(wǎng)站抓取網(wǎng)頁(yè),那么你就必須提供優(yōu)質(zhì)的網(wǎng)站內(nèi)容。只有蜘蛛發(fā)現(xiàn)你的網(wǎng)站的內(nèi)容質(zhì)量很好,那么蜘蛛就會(huì)特別關(guān)照你的網(wǎng)站,定時(shí)會(huì)來(lái)你的網(wǎng)站看看是不是新的內(nèi)容產(chǎn)生。如何才能夠確保自己的網(wǎng)站能夠提供優(yōu)勢(shì)的內(nèi)容,這個(gè)話題我們?cè)谥蟮恼鹿?jié)再做闡述。
3、怎么知道蜘蛛來(lái)過(guò)我們網(wǎng)站
通過(guò)下面2個(gè)方式可以知道蜘蛛是否來(lái)過(guò)我們的網(wǎng)站。
(1)百度抓取頻次工具
該工具網(wǎng)址為:http://zhanzhang.baidu.com/pressure/index
搜索引擎工作原理
(2)服務(wù)器IIS日志
如果你的服務(wù)器開(kāi)啟了IIS日志功能,那么也可以通過(guò)IIS日志文件看到蜘蛛來(lái)過(guò)的痕跡。通過(guò)IIS日志我們可以發(fā)現(xiàn)百度蜘蛛抓取我們那些頁(yè)面。
4、影響蜘蛛抓取的因素
好了,我們知道了網(wǎng)站想要有排名,第一步就是必須能夠被蜘蛛抓取到。那么那些因素有可能造成蜘蛛無(wú)法正常抓取我們網(wǎng)頁(yè)呢,我們應(yīng)該注意下面幾個(gè)要點(diǎn):
(1)網(wǎng)址不能過(guò)長(zhǎng):百度建議網(wǎng)址的長(zhǎng)度不要超過(guò)256個(gè)字節(jié)(一個(gè)英文字母(不分大小寫(xiě)))占一個(gè)字節(jié)的空間,一個(gè)中文漢字占兩個(gè)字節(jié)的空間)。
(2)網(wǎng)址中不要包含中文:百度對(duì)于中文網(wǎng)址的抓取效果都是比較差的,所以在網(wǎng)址內(nèi)千萬(wàn)不要帶有中文。
(3)服務(wù)器問(wèn)題:如果你的服務(wù)器質(zhì)量太差,總是打不開(kāi),那么也會(huì)影響蜘蛛的抓取效果。
(4)Robots.txt屏蔽:有的SEO人員由于疏忽。在Robots.txt文件里面屏蔽了想要被百度抓取的路徑或者頁(yè)面。這也會(huì)影響到百度對(duì)于我們網(wǎng)站的抓取效果。
(5)避免出現(xiàn)蜘蛛難以解析的字符,比如/abc/123456;;;;;;;%B9&CE%EDDS$GHWF%.html這種URL蜘蛛無(wú)法理解會(huì)放棄抓取。
(6)注意動(dòng)態(tài)參數(shù)不要太多太復(fù)雜,目前百度對(duì)動(dòng)態(tài)URL已經(jīng)有了很好的處理,但是參數(shù)過(guò)多且復(fù)雜的url有可能被蜘蛛認(rèn)為不重要而拋棄。這點(diǎn)尤為重要,一定注意。

過(guò)濾模塊
由于互聯(lián)網(wǎng)上充斥著大量的垃圾頁(yè)面和無(wú)內(nèi)容頁(yè)面,而這些頁(yè)面不管對(duì)于搜索引擎,還是搜索用戶來(lái)說(shuō),都是不需要的。所以搜索搜索引擎為了避免這些垃圾頁(yè)面占用自己寶貴的存儲(chǔ)資源,所以會(huì)對(duì)蜘蛛抓取回來(lái)的內(nèi)容進(jìn)行過(guò)濾。完成這個(gè)功能的模塊,我們就稱為過(guò)濾模塊。那么那些因素會(huì)影響到過(guò)濾模塊呢,有下面2點(diǎn):
(1)識(shí)別
由于搜索引擎的蜘蛛目前最擅長(zhǎng)的還是分析文字和鏈接,對(duì)于圖片和視頻的識(shí)別還是比較困難的。所以假如一個(gè)頁(yè)面主要都是圖片和視頻話,那么搜索引擎很難識(shí)別出該頁(yè)面的內(nèi)容。而對(duì)于這種頁(yè)面,搜索引擎有可能當(dāng)作垃圾網(wǎng)站進(jìn)行過(guò)濾掉。所以,我們?cè)诰庉嬀W(wǎng)站內(nèi)容的時(shí)候,應(yīng)該多添加一些文字描述,這樣才不容易被過(guò)濾模塊過(guò)濾掉。
(2)內(nèi)容質(zhì)量
在可以識(shí)別內(nèi)容的基礎(chǔ)之上,搜索引擎還會(huì)將抓取到的網(wǎng)頁(yè)內(nèi)容,與已經(jīng)存到數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行對(duì)比。如果搜索引擎發(fā)現(xiàn)你的頁(yè)面內(nèi)容質(zhì)量與數(shù)據(jù)庫(kù)中的內(nèi)容大部分都是重復(fù)的,或者相比之下質(zhì)量更差的話,那么這個(gè)頁(yè)面也會(huì)被過(guò)濾掉。

收錄模塊
將通過(guò)了過(guò)濾模塊“考核”的網(wǎng)頁(yè),進(jìn)行分詞、數(shù)據(jù)格式標(biāo)準(zhǔn)化,然后將其存儲(chǔ)到索引數(shù)據(jù)庫(kù)中程序模塊,我們稱之為收錄模塊。如果你的網(wǎng)站有幸通過(guò)收錄模塊,那么就有機(jī)會(huì)獲得排名了。
1、如何查看某個(gè)網(wǎng)頁(yè)是否被收錄
最簡(jiǎn)單的辦法,就是把該網(wǎng)頁(yè)的網(wǎng)址復(fù)制到百度搜索框中進(jìn)行搜索,如果能夠出現(xiàn)該頁(yè)面的搜索結(jié)果,那么就說(shuō)明該網(wǎng)址已經(jīng)被收錄了。
圖片

2、如何查看一個(gè)網(wǎng)站的收錄量
有2個(gè)方法:
(1)site命令
通過(guò)“site:域名”的命令,我們可以看到搜索引擎抓取了某個(gè)域名下的頁(yè)面收錄量:
圖片

(2)百度“索引量”查詢工具
通過(guò)百度官方提供的“索引量”查詢工具,也可以查詢到我們網(wǎng)站的收錄量。
收錄量少怎么辦?
這個(gè)分兩種情況:
(1)新站
一般來(lái)說(shuō),新站剛上線,起碼要1~2個(gè)月才會(huì)開(kāi)始收錄。前期一般只是收錄一個(gè)首頁(yè)而已。對(duì)于這個(gè)情況,沒(méi)有別的辦法,因?yàn)榘俣葹榱朔乐?*的泛濫,特地把新站的審核時(shí)間拉長(zhǎng)。所以,如果你操作的是新站,那么收錄量少不用緊張,只要你老老實(shí)實(shí)的提供優(yōu)質(zhì)內(nèi)容,那么2個(gè)月之后百度就會(huì)開(kāi)始收錄你的內(nèi)頁(yè)了。
(2)老站
有的老站會(huì)出現(xiàn)收錄量少,甚至是收錄量開(kāi)始減少的時(shí)候。一般都是因?yàn)樵摼W(wǎng)站的內(nèi)頁(yè)內(nèi)容質(zhì)量太差導(dǎo)致的。
這個(gè)時(shí)候站長(zhǎng)應(yīng)該趕緊調(diào)整整站的內(nèi)容質(zhì)量,提供優(yōu)質(zhì)的內(nèi)容才有可能確保自己的網(wǎng)站排名不會(huì)變動(dòng)。

排序模塊
對(duì)存入索引數(shù)據(jù)庫(kù)中的頁(yè)面,通過(guò)一系列算法后得到每個(gè)頁(yè)面的權(quán)重,并且將其進(jìn)行排序處理的程序,稱之為排序模塊。
如果你的頁(yè)面通過(guò)排序模塊的計(jì)算,排在了某個(gè)關(guān)鍵詞的前幾位的話,那么當(dāng)搜索用戶搜索該關(guān)鍵詞的時(shí)候,你的頁(yè)面就可以展現(xiàn)在用戶的面前了。想要讓自己的網(wǎng)站能夠獲得良好的排名,需要做到下面2點(diǎn):
1、完善基礎(chǔ)優(yōu)化
想要獲得良好的排名,那么你的網(wǎng)頁(yè)首先要做好基礎(chǔ)優(yōu)化,這包括網(wǎng)站定位、網(wǎng)站結(jié)構(gòu)、網(wǎng)站布局、網(wǎng)站內(nèi)容等幾個(gè)部分。這些基礎(chǔ)優(yōu)化的內(nèi)容,我們將在后面詳細(xì)闡述。只有把這些基礎(chǔ)部分完善優(yōu)化好了,才算是及格了。
2、綜合數(shù)據(jù)良好
在基礎(chǔ)優(yōu)化做好的基礎(chǔ)上,假如你的百度統(tǒng)計(jì)后臺(tái)數(shù)據(jù)表現(xiàn)良好,用戶的忠誠(chéng)度以及站外推廣的效果顯著的話,就會(huì)在及格線上加分。只要你的加分超過(guò)了所有的競(jìng)爭(zhēng)對(duì)手,那么你的網(wǎng)站就可以排在所有對(duì)手的前面了。

總結(jié)
本文為你講解了搜索引擎的工作原理,那么掌握這一原理對(duì)于你學(xué)習(xí)SEO有什么幫助呢?
幫助就在于當(dāng)你遇到一些SEO技術(shù)問(wèn)題的時(shí)候,可以通過(guò)搜索引擎的工作原理找到原因。
比如你是一個(gè)新站,做了1個(gè)月發(fā)現(xiàn)只收錄了首頁(yè)。這個(gè)時(shí)候你可以知道那是因?yàn)槭珍浤K對(duì)于新站有一個(gè)考核期,所以這屬于正常現(xiàn)象。
有或者你發(fā)現(xiàn)自己網(wǎng)站的文章收錄正常,但是沒(méi)有排名,這個(gè)時(shí)候你就知道你的文章雖然被收錄模塊收錄了,但是由于基礎(chǔ)優(yōu)化和綜合數(shù)據(jù)不夠良好,所以排序模塊沒(méi)有給出良好的排名。因此你可以知道接下來(lái)的工作應(yīng)該是提升網(wǎng)站的內(nèi)容質(zhì)量。
所以,掌握搜索引擎的工作原理,對(duì)于我們學(xué)習(xí)SEO是至關(guān)重要的。

轉(zhuǎn)載請(qǐng)保留原文地址: http://www.biwz.cn/show-762.html

責(zé)編:王麗 作者:不詳 來(lái)源:網(wǎng)絡(luò)