亚洲日本国产,在线观看视频一区二区三区,成人免费精品视频

蔡小兵: 搜索引擎工作原理分析——SEO十日談之二

互聯(lián)網(wǎng)+

2016-01-20 12770

昨天我們聊了SEO的定義，大致知道了SEO的中文意思是“搜索引擎優(yōu)化”，是在研究搜索引擎工作原理的基礎(chǔ)上，對(duì)我們自己的網(wǎng)站進(jìn)行合理的內(nèi)部?jī)?yōu)化與外部?jī)?yōu)化，使網(wǎng)站的關(guān)鍵詞排在搜索引擎的前面，為網(wǎng)站帶來目標(biāo)流量，產(chǎn)生銷售額與品牌收益。

那么，我們今天就來分析一下，搜索引擎的工作原理，為我們后期SEO的學(xué)習(xí)打下堅(jiān)實(shí)基礎(chǔ)。
一、搜索引擎是什么時(shí)候誕生的呢？
搜索引擎的誕生，不是一個(gè)偶然，而是一個(gè)必然。因?yàn)椋S著互聯(lián)網(wǎng)絡(luò)的形成，網(wǎng)絡(luò)上會(huì)出現(xiàn)越來越的多的網(wǎng)站頁(yè)面。上網(wǎng)的用戶，面對(duì)這么多的信息，就得考慮，怎么去查找我們想要的信息呢？
在幾千年之前，我們的古人就已經(jīng)發(fā)明了“搜索引擎”，比如《本草綱目》，上面有成千上萬(wàn)的藥材條目，為了方便用戶查找，就在書的前面加上了“索引目錄”，其實(shí)，這就是搜索引擎技術(shù)的一個(gè)思維原形。
1. 早在1993年之前，就出現(xiàn)了算不上搜索引擎的搜索引擎，當(dāng)時(shí)的搜索引擎是查詢FTP文件服務(wù)器上的相關(guān)文件，還不能搜索網(wǎng)站頁(yè)面文件。
2. 1994年David Filo和楊致遠(yuǎn)共同創(chuàng)辦了超級(jí)目錄索引——人工編緝的雅虎目錄
3. 1998年9月Google公司正式成立！
4. 2001年，百度做為搜索引擎正式上線，并提供搜索服務(wù)。
5. 2003年-2009年微軟的搜索引擎成立，并改名為必應(yīng)——Bing
6. 2004年，8月， Google上市！
7. 2005年，8月，百度上市！
8. 2010年8月25日，雅虎徹底結(jié)束了它自己的搜索時(shí)代，正式使用Bing搜索數(shù)據(jù)。
9. 2010年，8月，國(guó)際上的搜索市場(chǎng)，排名第一的谷歌占84%、第二的雅虎占6.35%、第三位的百度占3.31%（主要是因?yàn)橹袊?guó)人品眾多）、第四位是Bing占3.30%（應(yīng)該是第三位）
時(shí)至今日，主流的搜索引擎，就是上面四個(gè)了。而中文搜索引擎的霸主，當(dāng)然就是百度了，從世界范圍來看，百度還有很長(zhǎng)的坡要爬，更何況，現(xiàn)如今，各個(gè)中文搜索引擎都在發(fā)力競(jìng)爭(zhēng)中文搜索市場(chǎng)。

二、搜索引擎工作原理的三大步：
第一步：爬行和抓取：簡(jiǎn)單地說，就是每個(gè)搜索引擎都會(huì)派出自己的一個(gè)程序（蜘蛛或機(jī)器人），沿著自己知道的網(wǎng)址庫(kù)，去跟蹤網(wǎng)頁(yè)上面的所有鏈接，抓取互聯(lián)網(wǎng)上面網(wǎng)站頁(yè)面的HTML數(shù)據(jù)，并存入數(shù)據(jù)庫(kù)。當(dāng)然，在這個(gè)過程中，會(huì)進(jìn)行一次簡(jiǎn)單的去重，也就是將重復(fù)的網(wǎng)頁(yè)內(nèi)容去掉。
這個(gè)步驟里面，有幾個(gè)名詞：
1. 蜘蛛或機(jī)器人指的是搜索引擎編寫的一個(gè)小程序，這個(gè)程序的主要任務(wù)是每天多次去互聯(lián)網(wǎng)上的各個(gè)網(wǎng)站上去爬行，看是否有能發(fā)現(xiàn)新的網(wǎng)站，或能否發(fā)現(xiàn)老網(wǎng)站上添加了新的文章內(nèi)容，一旦發(fā)現(xiàn)了新的內(nèi)容，則會(huì)將其拍照，并帶回搜索引擎的數(shù)據(jù)庫(kù)。雖然說叫“爬行”，但實(shí)際是，這個(gè)蜘蛛程序是不知疲倦地以光速在互聯(lián)網(wǎng)上穿梭，尋找新的信息。
2. 地址庫(kù)：指的存放是蜘蛛程序計(jì)劃去互聯(lián)網(wǎng)訪問的網(wǎng)站地址。這就好比你要出遠(yuǎn)門旅游時(shí)，要帶上一本地圖手冊(cè)一樣。
3. 抓取的HTML數(shù)據(jù)是什么樣子呢？你把任何一個(gè)網(wǎng)頁(yè)打開，在左右兩邊的空白處，點(diǎn)右鍵，“查看源文件”，你看到的這個(gè)內(nèi)容就是HTML數(shù)據(jù)，包括了很多代碼和方字。
4. 去重：指的是，互聯(lián)網(wǎng)上，有很多人喜歡把別人網(wǎng)站上的文章，直接發(fā)到自己網(wǎng)站上去。完成相同HTML數(shù)據(jù)，搜索引擎是不會(huì)都存到數(shù)據(jù)庫(kù)的。會(huì)將重復(fù)的、相同的網(wǎng)頁(yè)數(shù)據(jù)去掉。

第二步：建立索引：就是對(duì)抓取的數(shù)據(jù)做一個(gè)預(yù)處理的過程。為什么要做預(yù)處理呢？因?yàn)椋瑒傋ト』氐腍TML數(shù)據(jù)是不能直接參與排名的，里面有很多代碼和重復(fù)的內(nèi)容。

1、首先，將HTML數(shù)據(jù)里的文字與代碼分離。留下文字，去除代碼。這個(gè)可以用站長(zhǎng)工具里的“模擬蜘蛛或機(jī)器人抓取”功能查詢看到。
2、其次，去除代碼后，看到的就是一堆網(wǎng)頁(yè)里的文字，其次，搜索引擎運(yùn)用自己的一個(gè)相當(dāng)于新華詞典的虛擬詞典，去對(duì)照比較，看這個(gè)網(wǎng)頁(yè)里的文字中，哪些是一個(gè)詞語(yǔ)；另一種方法就是基于統(tǒng)計(jì)分析，看哪幾個(gè)字經(jīng)常在一起，則基本可以判斷為一個(gè)詞語(yǔ)。這就叫做中文分詞。
只有把一堆文字，分成一個(gè)一個(gè)的詞語(yǔ)，才可以分析出這個(gè)文章跟哪個(gè)詞的相關(guān)性高。
3、再其次，為了更準(zhǔn)確地了解這個(gè)HTML數(shù)據(jù)所反應(yīng)的實(shí)際內(nèi)容，了解這個(gè)內(nèi)容是跟哪些詞相關(guān)，還得將網(wǎng)頁(yè)中經(jīng)常出現(xiàn)的高頻率助詞去掉，將網(wǎng)頁(yè)中相關(guān)的頭部和底部，或左側(cè)內(nèi)容去掉，只留下網(wǎng)頁(yè)中的文章正文內(nèi)容。去掉無關(guān)文章意思的助和和網(wǎng)頁(yè)中重復(fù)的版塊內(nèi)容后，再將這個(gè)文件與其它文件對(duì)比分析，看是否這個(gè)文件，之前是否已收錄過。
4、然后，建立索引，也就是經(jīng)過上面的步驟后，分析有哪些關(guān)鍵詞是這個(gè)文件里的核心詞。一個(gè)文件會(huì)重點(diǎn)對(duì)應(yīng)幾個(gè)核心詞建立主索引，建好了這個(gè)主索引后，當(dāng)有用戶在搜索這個(gè)文件里的主核心詞時(shí)，這個(gè)主索引就會(huì)將相應(yīng)的文件展示出來；但是，當(dāng)用戶在搜索一個(gè)非核心的詞語(yǔ)時(shí)，剛才建立的主索引就用不上了。所以，除了主索引外，還得針對(duì)利用分詞技術(shù)分出來的文件里的所有詞，建立一個(gè)次索引。
5、最后，經(jīng)過上面的工作后，基本可以判斷抓取的文件內(nèi)容是和哪幾個(gè)關(guān)鍵詞相關(guān)，但是，在建立索引時(shí)，僅憑文件自身中的一些關(guān)鍵詞的高頻率是不能準(zhǔn)備判斷這個(gè)文件與哪個(gè)關(guān)鍵詞最相關(guān)。文件自身關(guān)鍵詞的頻率是自己可以隨便增加的（在2008年以前，很多做SEO的前輩都是用“關(guān)鍵詞堆砌”的手法來操作排名），所以，搜索引為了尋找一個(gè)更科學(xué)的方法來判斷這個(gè)網(wǎng)頁(yè)文件與某幾個(gè)關(guān)鍵詞的相關(guān)性，引入了“鏈接關(guān)系計(jì)算”，通過從其它網(wǎng)頁(yè)上鏈接到你網(wǎng)頁(yè)的鏈接文字來判斷，你這個(gè)網(wǎng)頁(yè)是和哪個(gè)詞相關(guān)。
其實(shí)，這就好比是美國(guó)選總統(tǒng)，首先自己上臺(tái)做競(jìng)選演講，然后讓民眾來投票。光聽自己說怎么好，是不科學(xué)的，如果很多人都說你好，那才更能說明問題。鏈接關(guān)系就好比是其它網(wǎng)頁(yè)對(duì)你這個(gè)頁(yè)面的投票評(píng)比。
6、再最后，就是對(duì)抓取文件中的一些特殊文件做處理，比如：除了HTML外，還有PDF、Word、WPS、XLS、PPT、TXT文件等等，目前不能處理圖片、視頻、FLASH、腳本程序。

第三步：顯示排名結(jié)果：這個(gè)步驟是我們看得見的，是用戶直接操作的。
首先，做為用戶，我們?cè)诎俣壤镙斎搿八阉饕鎯?yōu)化培訓(xùn)”，這里百度的搜索程序，第一步要做的不是去索引數(shù)據(jù)庫(kù)里查找相關(guān)文件。
1、對(duì)“搜索引擎優(yōu)化培訓(xùn)”這句話，做中文分詞處理，確定用戶搜索的是“搜索”、“引擎”、“優(yōu)化”、“培訓(xùn)”這四個(gè)詞，還是“搜索引擎優(yōu)化培訓(xùn)”這一個(gè)詞。
2、要將用戶輸入的這句話里面的助詞、符號(hào)和無意義的詞去掉
3、其次，還會(huì)判斷用戶輸入的詞中是否有錯(cuò)別字，發(fā)現(xiàn)錯(cuò)字，還得提醒。比如：輸入“唐醋排骨”，提示如下：您要找的是不是: 糖醋排骨。
4、最后就是開始到索引庫(kù)里去查找相應(yīng)信息
其次，搜索引擎開始查找用戶真正想查找的正確的關(guān)鍵詞，找到相匹配的相關(guān)文件，這個(gè)文件的數(shù)量，將是非常巨大的，因?yàn)椋诨ヂ?lián)網(wǎng)上，針對(duì)每一個(gè)詞，都會(huì)有N多個(gè)網(wǎng)頁(yè)文件。
不過，搜索引擎不會(huì)將這N多的文件拿來計(jì)算，應(yīng)該誰(shuí)排在前面。而是在計(jì)算之前先選出一個(gè)了集，百度提供的搜索結(jié)果，最多有76頁(yè)。這樣算來的話，大概參與最終排名結(jié)果應(yīng)該有700多個(gè)記錄，谷歌提供100頁(yè)的記錄，就也就有1000多個(gè)文件參與某一個(gè)關(guān)鍵詞的排名。

再其次，選出這些子集后，這700多個(gè)或者1000多個(gè)文件，倒底哪個(gè)文件應(yīng)該排在前面呢？這就應(yīng)該先分析這個(gè)關(guān)鍵詞在文件中出現(xiàn)的次數(shù)，出現(xiàn)的位置，有哪些文字鏈接向這個(gè)文件等等一些方法來了解文件與某個(gè)關(guān)鍵詞的相關(guān)性。
然后，搜索引擎除了會(huì)跟據(jù)上面說的來計(jì)算相關(guān)性以外，還會(huì)對(duì)某些關(guān)鍵詞做特殊處理，特殊處理，主要是指對(duì)少數(shù)網(wǎng)站做相應(yīng)的懲罰，指的是用不正當(dāng)、不合理的手段，為了獲取排名而做排名的網(wǎng)站。比如：百度11位（百度將你網(wǎng)站的關(guān)鍵詞長(zhǎng)期定格在了第二頁(yè)的第一名也就是自然排名的第11名），、谷歌的負(fù)6、負(fù)30、負(fù)950（也就是將你網(wǎng)站的各個(gè)關(guān)鍵詞統(tǒng)一下降6、30、950位）等算法。
然后，經(jīng)過了上面步驟以后，就可以顯示用戶的搜索結(jié)果了，我們可以看到，搜索任何一個(gè)關(guān)鍵詞，看到的每一個(gè)條目里，都可以看到，網(wǎng)站的標(biāo)題（title）、描述（Description
）、百度快照、時(shí)間等等信息。
最后，在上面的步驟里，已經(jīng)提供了用戶的搜索結(jié)果，按道理，整個(gè)搜索過程已經(jīng)完成，但搜索引搜索的工作還沒有完成，搜索引擎會(huì)為了節(jié)省用戶的搜索時(shí)間，而做一個(gè)統(tǒng)計(jì)，統(tǒng)計(jì)有哪些詞，是很多用戶會(huì)經(jīng)常搜索的詞，將這些詞的索引，做一個(gè)緩存。以后，當(dāng)有用戶搜索這個(gè)詞時(shí)，搜索引擎能夠更快速地提供搜索結(jié)果。
后續(xù)服務(wù)，搜索引擎為了做好售后服務(wù)，它還會(huì)跟蹤用戶對(duì)某個(gè)排在前面的搜索結(jié)果，做相應(yīng)的點(diǎn)擊次數(shù)、停留時(shí)間的統(tǒng)計(jì)，來分析用戶對(duì)于搜索引擎的這個(gè)排名結(jié)果，做一個(gè)分析。看看是否都喜歡點(diǎn)擊排在前面的結(jié)果，而且點(diǎn)擊進(jìn)去以后停留很長(zhǎng)的時(shí)間。如果能做到這些，說明用戶是喜歡搜索引擎的這些排名結(jié)果的。反之，搜索引擎會(huì)思考，是否得改變一下排名規(guī)則，將排在后面的，用戶更喜歡的結(jié)果排到前面來。
這個(gè)原理也說明了，我們網(wǎng)站做了百度競(jìng)價(jià)能提高網(wǎng)站關(guān)鍵詞排名，一旦你不做百度競(jìng)價(jià)，有可能你的排名會(huì)下降，只是有可能，并不一定，這個(gè)因素不是影響排名的主要因素。之前聽說一些客戶，自己不接百度客服的電話，或者說，自己對(duì)百度客服人員的態(tài)度不好，結(jié)果導(dǎo)致自己網(wǎng)站在百度里搜索不到，說是百度人為故意把自己網(wǎng)站刪除了。其實(shí)，了解了搜索引擎的工作原理，應(yīng)該知道，這個(gè)人為控制排名的可能性是很小的，因?yàn)榘俣葲]那么多的精力來關(guān)注你那個(gè)針整個(gè)互聯(lián)網(wǎng)來說，一個(gè)微不足道的網(wǎng)站。

到此為止，我們了解了搜索引擎的工作原理，我們通過分析了解搜索引擎的工作原理，無非就是為了更好地做好SEO。
我個(gè)人認(rèn)為，通過分析搜索引擎的工作原理，我們至少應(yīng)該明白了，做SEO，應(yīng)該注意以下一些事項(xiàng)：
1、在網(wǎng)絡(luò)上抄襲別人的文章發(fā)到自己網(wǎng)站上去，百度是不會(huì)收錄的。因?yàn)椋诘谝徊阶ト〉倪^程中，有一次去重。在第二步索引時(shí)又有一次去重，所以重復(fù)的內(nèi)容是很難被百度收錄的。其實(shí)，我們?cè)诰W(wǎng)上查資料時(shí)，我們自己也很不喜歡看到幾個(gè)網(wǎng)站上都有同一篇文章。
2、簡(jiǎn)單的，現(xiàn)在的搜索引擎不會(huì)將簡(jiǎn)單的關(guān)鍵詞堆砌的文章排到搜索引擎的前面，還會(huì)利用鏈接關(guān)系來計(jì)算相關(guān)性。
3、關(guān)鍵詞在網(wǎng)頁(yè)中的出現(xiàn)的頻次固然重要，關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的位置也很重要。
4、鏈連關(guān)系計(jì)算時(shí)，外部鏈接比內(nèi)部鏈接重為重要。

上一篇網(wǎng)站結(jié)構(gòu)優(yōu)化—SEO十日談之六

上一篇 SEO是什么?——SEO十日談之一

評(píng)論