網(wǎng)站的SEO以及它和站長工具的之間秘密

2015-09-06 10:48:00 來源:小胡子哥博客 作者:佚名 人氣: 次閱讀 296 條評論

博客遷移沒有注意URL地址的變化,導(dǎo)致百度和google這兩只爬蟲引擎短時間內(nèi)找不到路。近段時間研究了下國內(nèi)最大搜索引擎百度和國際最大搜索引擎google的站長工具,說下...

博客遷移沒有注意 URL 地址的變化,導(dǎo)致百度和 google 這兩只爬蟲引擎短時間內(nèi)找不到路。近段時間研究了下國內(nèi)最大搜索引擎百度和國際最大搜索引擎google的站長工具,說下感受。

  • 百度的站長工具地址:http://zhanzhang.baidu.com/dashboard/index
  • google 的站長工具地址:https://www.google.com/webmasters/tools/home

最近墻的比較厲害,google 不一定能訪問進去(我平時用的GreenVPN,還挺不錯的,速度快,支持的國家也多)。

站長工具的作用是為了輔助開發(fā)者,針對自己的網(wǎng)站做出更加合理的網(wǎng)頁布局和代碼優(yōu)化,以便讓 spider 更好地理解網(wǎng)頁,從而將最準確的信息送達到用戶的熒屏上。它對搜索引擎和開發(fā)者是雙贏的。

Web 發(fā)展極快,由于客戶端廠商紛紜加之開發(fā)者沒把重點放在 web 標準上,直到 2014 年的 10 月底才有了統(tǒng)一的標準。用戶輸入關(guān)鍵詞,搜索引擎要在 0.1s 內(nèi)將網(wǎng)絡(luò)上的資源匯聚起來,這個過程中計算的開銷、數(shù)據(jù)整合的開銷是極大的,如果我們開發(fā)的網(wǎng)頁不能讓 spider 準確理解,最后的結(jié)果就是,寫的東西很難出現(xiàn)在用戶面前。

搜索引擎對網(wǎng)頁的理解

摸索兩個站長工具,感觸最深的是結(jié)構(gòu)化數(shù)據(jù)(Structured Data),結(jié)構(gòu)化數(shù)據(jù)不是把文章段落分清楚、標題寫清楚,實際上你文章段落分的再清晰,爬蟲機器也不知道你在表達什么,所以數(shù)據(jù)結(jié)構(gòu)化是給爬蟲看而不是給人看的。HTML 標簽的數(shù)量很有限,有限的幾個標簽沒辦法表達網(wǎng)頁上每一個元素的含義,比如一個小的圖標、一個廣告位、一個蒙層等,于是網(wǎng)頁上出現(xiàn)了很多 class 名、id 名來標記一個元素。這些內(nèi)容的統(tǒng)一讓爬蟲理解的略微透徹了一些,比如:

.banner: 一張banner廣告位.sidebar: 側(cè)邊導(dǎo)航欄.nav: 主導(dǎo)航.icon: 頁面小圖標.post: 一篇文章.post-title: 文章標題

然而搜索引擎聚合的網(wǎng)頁太多,當(dāng)這些五花八門的 class 出來之后,它又開始迷茫了,難以較好的聚合分類。所以出現(xiàn)一個叫做 Schema 的東西,它用來表示一個結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu),可以看下面一個 schema 示例:

<div itemscope itemtype="http://schema.org/Person">     <span itemprop="name">李靖</span>     <img src="http://barretlee.com/avatar.png" itemprop="image" />      <span itemprop="jobTitle">攻城師</span>     <div itemprop="address" itemscope itemtype="http://schema.org/PostalAddress">         <span itemprop="streetAddress">文一西路969號</span>         <span itemprop="addressLocality">浙江杭州</span>    <span itemprop="postalCode">310000</span>     </div>     <span itemprop="telephone">(0571) 123-4567</span>     <a href="mailto:[email protected]" itemprop="email">[email protected]</a>  李靖的主頁:  <a href="http://barretlee.com" itemprop="url">barretlee.com</a>    </div>

在一個需要表達的塊上加上itemscope屬性和一個itemtype屬性,itemtype 是有固定值的,具體可以參閱schema.org的說明。然后在塊內(nèi)添加詳細的說明,使用itemprop標注。整個操作十分簡單,略微麻煩的是需要對照 schema 的官方網(wǎng)站填寫規(guī)定的itemprop字段。

結(jié)構(gòu)化數(shù)據(jù),通常也可以稱之為元數(shù)據(jù),這些數(shù)據(jù)附著在網(wǎng)頁文本信息內(nèi),厘清了頁面上每個部件的功能、屬性和意義。當(dāng)機器進入網(wǎng)頁的時候,能夠像人一樣,一眼瞄出要表達的內(nèi)容。關(guān)于 schema ,以前翻譯過一篇文章SEO:讓搜索引擎對你的網(wǎng)站更有親和力。

SEO和站長工具的之間秘密

除非搜索引擎能夠猜到你要搜索的具體的 URL 地址,一般地,它都會從自己的數(shù)據(jù)索引庫中扒拉數(shù)據(jù)。對于權(quán)重高、更新頻率高、原創(chuàng)內(nèi)容多的網(wǎng)站,搜索引擎會十分勤快的爬最新內(nèi)容。那么,如何讓搜索引擎知道網(wǎng)站上有多少網(wǎng)頁便成了一件重要的事情。

我們經(jīng)常會聽到一個叫做”網(wǎng)站地圖”的東西。有些網(wǎng)站會在自己的站點中添加一個頁面,這個頁面包括了整站的重要入口,那么這個頁面就是該頁面的網(wǎng)站地圖。這些地圖是給人看的,如果只想給爬蟲引擎看,可以將所有的鏈接按照一定的格式放到sitemap.xml文件中,然后把這個文件放到網(wǎng)站的根目錄下,如http://www.barretlee.com/sitemap.xml。

而最重要的還是robots.txt這個文件,它是所有引擎約定俗成的一個文件,比如我的網(wǎng)站中用到的http://www.barretlee.com/robots.txt,其內(nèi)容為:

Sitemap: http://www.barretlee.com/sitemap.xmlUser-agent: *Allow: /

它告訴搜索引擎,網(wǎng)站地址的位置、允許蜘蛛爬取的內(nèi)容等,它是一個協(xié)議。最近,貌似還多了一個humans.txt,也是一個比較有意思的文件,可以在這里了解它:http://www.humanstxt.org.cn/,它可以描述一些站點和團隊的故事。

SEO上,站長工具主要分為兩個方面,一個是對網(wǎng)頁的抓取,一個是對網(wǎng)頁的分析。

網(wǎng)頁的抓取在百度站長工具中體現(xiàn)的比較多,而網(wǎng)頁的分析,諸如數(shù)據(jù)標注、結(jié)構(gòu)化數(shù)據(jù)等,百度做的還比較搓,目前還在內(nèi)測階段,需要發(fā)送郵件才能申請權(quán)限??吹桨俣日鹃L工具頁面上的幾個數(shù)據(jù)標注示意圖,揣測應(yīng)該比 google 弱一百倍,所以我還是重點說說 google 的吧。

網(wǎng)頁的抓取

這塊上,兩個站長工具都是強調(diào)讓開發(fā)者把網(wǎng)站地圖顯式的暴露給搜索引擎,提供了各種分析網(wǎng)站地圖準確性合理性的工具,搜索引擎如果發(fā)現(xiàn)你的網(wǎng)站上一個地址時有時無,就會覺得你不可信有點飄渺。所以一旦網(wǎng)頁因為改造或遷移導(dǎo)致頁面鏈接丟失,可以在站長工具中填寫這些死鏈。

不要貪婪的讓搜索引擎不停的爬取你的網(wǎng)站,如果它多次過來發(fā)現(xiàn)內(nèi)容是一樣的,它也會很傷心的離開。而如果它發(fā)現(xiàn)每次過來爬你的內(nèi)容都能找到很有意思的、從來沒發(fā)現(xiàn)過的東西,它會對你越來越感興趣,甚至日久天長它會給你定型、定位,然后權(quán)重會越來越高。在站長工具上都是可以設(shè)置的。

網(wǎng)頁的分析

google 的數(shù)據(jù)化標記做的實在是太贊了!輸入網(wǎng)址,它會打開你的網(wǎng)頁,設(shè)置你要標記的類型,比如文章。選中頁面上的元素然后標記。比如選中文章的標題,選中之后有一個菜單,在菜單上選擇 title,選中作者名字,然后菜單上選擇 author,一個頁面標記完了之后,他會分析整站的所有頁面,如果結(jié)構(gòu)相似,也會自動標記其他頁面。

整個標記完成之后,google 就知道你整個網(wǎng)站的信息架構(gòu)了,下次要做的就是對這些信息內(nèi)容做匹配和分類。所以我們可以看到,個人博客在 google 中的搜索是極其靠前的,因為頁面的信息結(jié)構(gòu)簡單,即便你不去標記,它爬取多次之后也能自己理解。

對比百度和 google ,兩者如同屌絲和高富帥。不過高富帥總是要越墻才能看到,所以我平時使用的依然是百度分析。百度分析和百度站長工具還是不一樣的。百度對網(wǎng)頁流量的分析和搜索詞匯的分析還是挺精準,也很有參考價值。

小結(jié)

本文對 SEO 相關(guān)的東西做了一個簡要的概述,同時也概括了搜索引擎做的一些工作,知識量有限,難以面面俱到,如有錯誤還請斧正。

您可能感興趣的文章

相關(guān)文章