昨天我們聊了SEO的定義,大致知道了SEO的中文意思是“搜索引擎優(yōu)化”,是在研究搜索引擎工作原理的基礎上,對我們自己的網站進行合理的內部優(yōu)化與外部優(yōu)化,使網站的關鍵詞排在搜索引擎的前面,為網站帶來目標流量,產生
銷售額與品牌收益。
那么,我們今天就來分析一下,搜索引擎的工作原理,為我們后期SEO的學習打下堅實基礎。
一、 搜索引擎是什么時候誕生的呢?
搜索引擎的誕生,不是一個偶然,而是一個必然。因為,隨著互聯
網絡的形成,
網絡上會出現越來越的多的網站頁面。上網的用戶,面對這么多的信息,就得考慮,怎么去查找我們想要的信息呢?
在幾千年之前,我們的古人就已經發(fā)明了“搜索引擎”,比如《本草綱目》,上面有成千上萬的藥材條目,為了方便用戶查找,就在書的前面加上了“索引目錄”,其實,這就是搜索引擎技術的一個思維原形。
1. 早在1993年之前,就出現了算不上搜索引擎的搜索引擎,當時的搜索引擎是查詢FTP文件服務器上的相關文件,還不能搜索網站頁面文件。
2. 1994年David Filo和楊致遠共同創(chuàng)辦了超級目錄索引——人工編緝的雅虎目錄
3. 1998年9月Google公司正式成立!
4. 2001年,百度做為搜索引擎正式上線,并提供搜索服務。
5. 2003年-2009年微軟的搜索引擎成立,并 改名為必應——Bing
6. 2004年,8月, Google上市!
7. 2005年,8月,百度上市!
8. 2010年8月25日,雅虎徹底結束了它自己的搜索時代,正式使用Bing搜索數據。
9. 2010年,8月,國際上的搜索
市場,排名第一的谷歌占84%、第二的雅虎占6.35%、第三位的百度占3.31%(主要是因為中國人品眾多)、第四位是Bing占3.30%(應該是第三位)
時至今日,主流的搜索引擎,就是上面四個了。而中文搜索引擎的霸主,當然就是百度了,從世界范圍來看,百度還有很長的坡要爬,更何況,現如今,各個中文搜索引擎都在發(fā)力競爭中文搜索
市場。
二、 搜索引擎工作原理的三大步:
第一步:爬行和抓取 :簡單地說,就是每個搜索引擎都會派出自己的一個程序(蜘蛛或機器人),沿著自己知道的網址庫,去跟蹤網頁上面的所有鏈接,抓取互聯網上面網站頁面的HTML數據,并存入數據庫。當然,在這個過程中,會進行一次簡單的去重,也就是將重復的網頁內容去掉。
這個步驟里面,有幾個名詞:
1. 蜘蛛或機器人指的是搜索引擎編寫的一個小程序,這個程序的主要任務是每天多次去互聯網上的各個網站上去爬行,看是否有能發(fā)現新的網站,或能否發(fā)現老網站上添加了新的文章內容,一旦發(fā)現了新的內容,則會將其拍照,并帶回搜索引擎的數據庫。雖然說叫“爬行”,但實際是,這個蜘蛛程序是不知疲倦地以光速在互聯網上穿梭,尋找新的信息。
2. 地址庫:指的存放是蜘蛛程序計劃去互聯網訪問的網站地址。這就好比你要出遠門旅游時,要帶上一本地圖手冊一樣。
3. 抓取的HTML數據是什么樣子呢?你把任何一個網頁打開,在左右兩邊的空白處,點右鍵,“查看源文件”,你看到的這個內容就是HTML數據,包括了很多代碼和方字。
4. 去重:指的是,互聯網上,有很多人喜歡把別人網站上的文章,直接發(fā)到自己網站上去。完成相同HTML數據,搜索引擎是不會都存到數據庫的。會將重復的、相同的網頁數據去掉。
第二步:建立索引:就是對抓取的數據做一個預處理的過程。為什么要做預處理呢?因為,剛抓取回的HTML數據是不能直接參與排名的,里面有很多代碼和重復的內容。
1、首先,將HTML數據里的文字與代碼分離。留下文字,去除代碼。這個可以用站長工具里的“模擬蜘蛛或機器人抓取”功能查詢看到。
2、其次,去除代碼后,看到的就是一堆網頁里的文字,其次,搜索引擎運用自己的一個相當于新華詞典的虛擬詞典,去對照比較,看這個網頁里的文字中,哪些是一個詞語;另一種方法就是基于統(tǒng)計分析,看哪幾個字經常在一起,則基本可以判斷為一個詞語。這就叫做中文分詞。
只有把一堆文字,分成一個一個的詞語,才可以分析出這個文章跟哪個詞的相關性高。
3、再其次,為了更準確地了解這個HTML數據所反應的實際內容,了解這個內容是跟哪些詞相關,還得將網頁中經常出現的高頻率助詞去掉,將網頁中相關的頭部和底部,或左側內容去掉,只留下網頁中的文章正文內容。去掉無關文章意思的助和和網頁中重復的版塊內容后,再將這個文件與其它文件對比分析,看是否這個文件,之前是否已收錄過。
4、然后,建立索引,也就是經過上面的步驟后,分析有哪些關鍵詞是這個文件里的核心詞。一個文件會重點對應幾個核心詞建立主索引,建好了這個主索引后,當有用戶在搜索這個文件里的主核心詞時,這個主索引就會將相應的文件展示出來;但是,當用戶在搜索一個非核心的詞語時,剛才建立的主索引就用不上了。所以,除了主索引外,還得針對利用分詞技術分出來的文件里的所有詞,建立一個次索引。
5、最后,經過上面的工作后,基本可以判斷抓取的文件內容是和哪幾個關鍵詞相關,但是,在建立索引時,僅憑文件自身中的一些關鍵詞的高頻率是不能準備判斷這個文件與哪個關鍵詞最相關。文件自身關鍵詞的頻率是自己可以隨便增加的(在2008年以前,很多做SEO的前輩都是用“關鍵詞堆砌”的手法來操作排名),所以,搜索引為了尋找一個更科學的方法來判斷這個網頁文件與某幾個關鍵詞的相關性,引入了“鏈接關系計算”,通過從其它網頁上鏈接到你網頁的鏈接文字來判斷,你這個網頁是和哪個詞相關。
其實,這就好比是美國選總統(tǒng),首先自己上臺做競選演講,然后讓民眾來投票。光聽自己說怎么好,是不科學的,如果很多人都說你好,那才更能說明問題。鏈接關系就好比是其它網頁對你這個頁面的投票評比。
6、再最后,就是對抓取文件中的一些特殊文件做處理,比如:除了HTML外,還有PDF、Word、WPS、XLS、PPT、TXT文件等等,目前不能處理圖片、視頻、FLASH、腳本程序。
第三步:顯示排名結果:這個步驟是我們看得見的,是用戶直接操作的。
首先,做為用戶,我們在百度里輸入“搜索引擎優(yōu)化
培訓”,這里百度的搜索程序,第一步要做的不是去索引數據庫里查找相關文件。
1、 對“搜索引擎優(yōu)化
培訓”這句話,做中文分詞處理,確定用戶搜索的是“搜索”、“引擎”、“優(yōu)化”、“
培訓”這四個詞,還是“搜索引擎優(yōu)化
培訓”這一個詞。
2、 要將用戶輸入的這句話里面的助詞、符號和無意義的詞去掉
3、 其次,還會判斷用戶輸入的詞中是否有錯別字,發(fā)現錯字,還得提醒。比如:輸入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。
4、 最后就是開始到索引庫里去查找相應信息
其次,搜索引擎開始查找用戶真正想查找的正確的關鍵詞,找到相匹配的相關文件,這個文件的數量,將是非常巨大的,因為,在互聯網上,針對每一個詞,都會有N多個網頁文件。
不過,搜索引擎不會將這N多的文件拿來計算,應該誰排在前面。而是在計算之前先選出一個了集,百度提供的搜索結果,最多有76頁。這樣算來的話,大概參與最終排名結果應該有700多個記錄,谷歌提供100頁的記錄,就也就有1000多個文件參與某一個關鍵詞的排名。
再其次,選出這些子集后,這700多個或者1000多個文件,倒底哪個文件應該排在前面呢?這就應該先分析這個關鍵詞在文件中出現的次數,出現的位置,有哪些文字鏈接向這個文件等等一些方法來了解文件與某個關鍵詞的相關性。
然后,搜索引擎除了會跟據上面說的來計算相關性以外,還會對某些關鍵詞做特殊處理,特殊處理,主要是指對少數網站做相應的懲罰,指的是用不正當、不合理的手段,為了獲取排名而做排名的網站。比如:百度11位(百度將你網站的關鍵詞長期定格在了第二頁的第一名也就是自然排名的第11名),、谷歌的負6、負30、負950(也就是將你網站的各個關鍵詞統(tǒng)一下降6、30、950位)等算法。
然后,經過了上面步驟以后,就可以顯示用戶的搜索結果了,我們可以看到,搜索任何一個關鍵詞,看到的每一個條目里,都可以看到,網站的標題(title)、描述(Description
)、百度快照、時間等等信息。
最后,在上面的步驟里,已經提供了用戶的搜索結果 ,按道理,整個搜索過程已經完成,但搜索引搜索的工作還沒有完成,搜索引擎會為了節(jié)省用戶的搜索時間,而做一個統(tǒng)計,統(tǒng)計有哪些詞,是很多用戶會經常搜索的詞,將這些詞的索引,做一個緩存。以后,當有用戶搜索這個詞時,搜索引擎能夠更快速地提供搜索結果。
后續(xù)服務,搜索引擎為了做好售后服務,它還會跟蹤用戶對某個排在前面的搜索結果,做相應的點擊次數、停留時間的統(tǒng)計,來分析用戶對于搜索引擎的這個排名結果,做一個分析。看看是否都喜歡點擊排在前面的結果,而且點擊進去以后停留很長的時間。如果能做到這些,說明用戶是喜歡搜索引擎的這些排名結果的。反之,搜索引擎會思考,是否得改變一下排名規(guī)則,將排在后面的,用戶更喜歡的結果排到前面來。
這個原理也說明了,我們網站做了百度競價能提高網站關鍵詞排名,一旦你不做百度競價,有可能你的排名會下降,只是有可能,并不一定,這個因素不是影響排名的主要因素。之前聽說一些客戶,自己不接百度客服的電話,或者說,自己對百度客服人員的態(tài)度不好,結果導致自己網站在百度里搜索不到,說是百度人為故意把自己網站刪除了。其實,了解了搜索引擎的工作原理,應該知道,這個人為控制排名的可能性是很小的,因為百度沒那么多的精力來關注你那個針整個互聯網來說,一個微不足道的網站。
到此為止,我們了解了搜索引擎的工作原理,我們通過分析了解搜索引擎的工作原理,無非就是為了更好地做好SEO。
我個人認為,通過分析搜索引擎的工作原理,我們至少應該明白了,做SEO,應該注意以下一些事項:
1、 在
網絡上抄襲別人的文章發(fā)到自己網站上去,百度是不會收錄的。因為,在第一步抓取的過程中,有一次去重。在第二步索引時又有一次去重,所以重復的內容是很難被百度收錄的。其實,我們在網上查資料時,我們自己也很不喜歡看到幾個網站上都有同一篇文章。
2、 簡單的,現在的搜索引擎不會將簡單的關鍵詞堆砌的文章排到搜索引擎的前面,還會利用鏈接關系來計算相關性。
3、 關鍵詞在網頁中的出現的頻次固然重要,關鍵詞在網頁中出現的位置也很重要。
4、 鏈連關系計算時,外部鏈接比內部鏈接重為重要。