將Robots.txt完美應用在網站優化

我們希望您喜歡這篇文章!


如果您希望我們協助您進行數位行銷,請點此

將Robots.txt完美應用在網站優化

為什麼Robots.txt十分重要?

robots.txt也稱為排除協議或標準,是一份用於告訴搜尋引擎抓取網站上哪些頁面的文本文件。假設搜尋引擎即將訪問某網站,在訪問目標頁面前,它將檢查robots.txt中的說明,並對每個頁面進行爬蟲。

但當網頁繁雜,搜尋引擎需要一段時間進行爬蟲,這可能會對排名產生負面影響,由於Google搜尋引擎機器人有一定的「爬蟲預算」,主要取決於爬蟲速度與爬蟲需求,也就是要讓搜尋引擎認定某頁面有價值,並願意採取行動。

如何應用在網站中

找到或創建您的Robots.txt

如果您想快速查看robots.txt文件,在此分享一種超級簡單的查看方法。實際上,此方法適用於任何網站,因此,您可藉機瀏覽其他網站文件並查看其運行狀況。

首先在瀏覽器搜尋欄中輸入網站的基本網址,然後將/robots.txt添加至末端。接著將發生以下三種情況之一:

  1. 您會找到一個robots.txt文件
  2. 您會發現一個空白文件
  3. 您會得到404錯誤文件

當發現空白文件或404文件,則需進行修復。若找到有效文件,則可能為當時創建網站時的內建設置。在無robots.txt文件的情況下,可使用純文本編輯器來創建新的robots.txt文件:

  1. 首先先設置user-agent term。進行設置後,則可適用於所有網絡機器人
  2. 在上述文字後鍵入星號(*)來執行動作
  3. 接下來,輸入“ Disallow:”,但後面切勿輸入任何內容。由於無任何內容接續,此將引導網絡機器人對整個網站進行爬蟲

功能應用

如何優化robots.txt取決於網站內容,有各種方法可使用robots.txt發揮優勢。

robots.txt文件的最佳用途之一是告訴搜尋引擎不要抓取網站中未公開顯示的部分,從而最大程度地提高並不浪費爬蟲預算。另外,也可使用類似指令來防止抓取特定頁面,例如以下幾種頁面類型是建議考慮從索引中排除:

  • 有目的的重複性內容:某些重複內容在少數情況下是必要且可被接受的,但需排除相對不重要的複本被抓取
  • 感謝頁面:透過屏蔽感謝頁面,可確保只有經過既定程序的潛在客戶才可造訪該頁面。
  • 禁止索引頁面:使用noindex指令,與disallow指令配合使用,確保搜尋引擎不會訪問某些禁止頁面或將其編入索引,使該頁面不會顯示在SERP中
  • 禁止追蹤指令:nofollow實際上與nofollow連接相同,旨在告訴網絡機器人不要抓取頁面上的連接

進行測試

測試robots.txt文件,主要是確保所有內容均有效並以正確的方式運行。Google於網站管理員工具中提供免費的robots.txt測試器。若創建成功,則會發現搜索範圍增加。

結語

透過正確設置robots.txt文件動作,不僅可增強SEO,還可提升使用者體驗。當搜尋引擎機器人能明智花費爬蟲預算,則會以最佳方式整理並在SERP中顯示內容,提升網頁能見度。

另外設置robots.txt文件無需花費太多精力,主要是一次性設置,並根據需要進行修改。因此無論您擁有幾個網站,使用robots.txt都會產生很大的不同,若您還從未嘗試,建議不妨立即試試看!