hg0088正网,hg0088备用网址,hg0088,hg0088如何开户,hg0088现金,hg0088皇冠,hg0088如何注册,hg0088注册,皇冠hg0088,hg0088开户,hg0088官网,hg0088投注,新2皇冠hg0088,hg0088体育投注,足球hg0088手机版登陆,手机版皇冠hg0088

搜索引擎與抓取索引背后的原理

- 編輯:小平SEO -

搜索引擎與抓取索引背后的原理

蜘蛛抓取流程

1、抓取網頁

(1)蜘蛛

爬蟲Spider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多的網頁。(網頁快照)

(2)蜘蛛Spider

百度蜘蛛:Baiduspider

谷歌機器人:Goolebot

360蜘蛛:360Spider

SOSO蜘蛛:Sosospider

有道蜘蛛:YoudaoBot

搜狗蜘蛛:Sogou New Spider

(3)抓取規則:通過鏈接抓取

①深度優先抓取

②廣度優先抓取

(4)抓取的內容

①鏈接

②文字

③圖片

④視頻/flash

⑤js

⑥iframe框架

<1>百度地圖

<2>盡量不用

不識別

(5)影響抓取的因素:

①需要權限(登錄,權限)

②網站打不開

<1>服務器(空間主機)不穩定

<2>404死鏈

<3>網站被黑

2、處理網頁(過濾)

(1)臨時數據庫:暫時存放抓取回來的網頁

(2)篩選過濾:互聯網大量的無價值的頁面,死鏈接,欺騙頁面(低質量頁面)

節省搜索引擎工作時間,服務器資源

(3)索引

①質量較高的頁面(百度站長平臺)

②查看索引量-百度搜索資源平臺

(4)收錄

①平時大家所說的【收錄】約等于索引

②單個頁面-百度一下頁面網址

③整個網站:site:域名

④注意

索引量大于收錄:一般情況,索引量大于收錄,特別是新站

索引量小于收錄:索引量小于收錄,數據不準,多個快照

3、百度官方說法

(1)收錄:頁面被Baiduspider發現,分析過

(2)索引:Baiduspider經初步分析后認為有意義的,最建庫處理

4、搜索引擎排名的流程

(1)抓取→臨時數據庫→篩選→索引→收錄→提供檢索服務(排名)

(2)排序規則:搜索引擎算法

(3)排名建立在基礎的優化上

①網站定位

②網站TDK

③網站布局

④網站內容

⑤用戶數據

⑥外鏈推廣

(4)影響搜索結果排序的因素

①相關性

②權威性

③時效性

④重要性

⑤豐富性

⑥受歡迎程度

你會喜歡下面的文章? You'll like the following article.
w020 hg0088