Screaming Frog SEO Spider(網絡爬蟲)是一款網站爬蟲工具,它會通過你提供的網站主域爬取你的網站,并獲取你網站里所有的網頁以及關鍵元素,并實時提供分析結果。它的功能非常強大,對于日常的SEO工作來說,它不僅能提升工作效率,還能清楚的了解到網站的結構及頁面結構。
軟件功能
1、獲取網站內所有的鏈接及導出鏈接
網站內所有的鏈接包括html、css、JavaScript、圖片等,導出鏈接可以獲取網站內容所有導出的鏈接,方便大家清理不想導出的鏈接。
2、列出所有鏈接的信息
尖叫青蛙強大的地方就在于它不僅獲取了網站內所有的鏈接,我們通過鏈接的就能獲取到該鏈接的所有信息,大致包括該鏈接包含鏈接數、狀態(tài)碼、是否被robots屏蔽、該網頁標題、標題長度、描述、關鍵詞、發(fā)布時間等等所有的信息,分析的信息詳細到只有你想不到的,沒有你找不到的。
3、快速找出網站中的死鏈(404鏈接)
上面說到可以查看每個鏈接的狀態(tài)碼,通過狀態(tài)碼,我們就能快速找到網站中存在的死鏈。相信很多小伙伴都會頭疼蜘蛛每天在抓死鏈卻找不出死鏈出現(xiàn)在哪個位置,而這款工具除了能找出網頁中所有的死鏈外,它更厲害的是你可以點擊一個死鏈,在inlink標簽里就能顯示在哪些頁面含有這個死鏈。是不是很方便?
4、生成xml地圖
這款工具可以快速創(chuàng)建XML站點地圖和圖像XML站點地圖,通過URL進行高級配置,包括上次修改,優(yōu)先級和更改頻率。
5、有助審查robots和其他指令
通過尖叫青蛙工具里的indexability欄,你可以清楚的看到每一個鏈接是否被robots屏蔽、是否被nofollow。
6、分析站點架構
通過使用交互式爬網和目錄強制導向圖和樹形圖,可以有助你們分析可視化的評估內部鏈接和URL結構。
7、其他一些功能
除了以上功能外,尖叫青蛙還有其他一些功能,比如查看鏈接是否被重定向、網頁大小、鏈接細節(jié)信息、搜索結果展示頁效果圖、列舉網頁內的h標簽、rel=“next”和rel=“prev”(文章頁上下篇鏈接)、檢查重復的URL等等。
除了以上功能外,尖叫青蛙還有其他一些功能,比如查看鏈接是否被重定向、nofollow、網頁大小、鏈接細節(jié)信息、搜索結果展示頁效果圖、列舉網頁內的h標簽、rel=“next”和rel=“prev”(文章頁上下篇鏈接)、檢查重復的URL等等。
功能介紹
Spider的抓取方式可以分為Spider與URL,簡單點理解就是一個你可以放一個頁面或域名開始抓取,另外一個則是放一個url文件進去抓取。
你在輸入好url或選擇好url文件后則會開始抓取內容,那么問題來了,Spider可以為我們抓取頁面的什么內容呢?
頁面鏈接
文件類型與編碼
HTTP狀態(tài)碼和狀態(tài)
Title與長度
Description與長度
Keywords與長度
H1標簽文本與長度
H2標簽文本與長度
Canonical URL
其他(文件大小,字數,層數,內鏈數量,站外鏈接數量等)
對于鏈接抓取的限制上,Spider也做了許多功能。首先是下面的特殊限制:
檢查圖片
檢查css文件
檢查js文件
檢查swf文件,也就是Flash之類的
檢查外部鏈接
檢查目錄以外的鏈接
跟蹤標識Nofollow的站內鏈接
跟蹤表示Nofollow的外部鏈接
忽略robots.txt
總共抓取數量
總共抓取層數
這里大家可能還是看不太懂,那Adrian為大家簡單舉例解釋一下。
案例一:D姐想要抓UC所有頁面,其中不包括CSS,JS,SWF(因為這些浪費時間和資源)。那么就可以取消勾選四個選項了;
案例二:民工想要像蜘蛛一樣爬取UC的頁面,那么就可以只勾選Ignore robots.txt這一項了;
案例三:何元想要只抓dx的首頁所有鏈接,全部勾選上,除了不要勾Ignore與Limit search toal就可以了,當然記得勾上Limit Search Depth 并設置層級為1;
如果還看不懂,那我也無能為力了,只能是找D姐給你好好培訓一下SEO了。
其實Spider的功能有許多,我就不一一提及了。說幾個我常用的功能吧!
第一個,正則爬行頁面。
在configuration中的include和exclude里都有可以寫正則的地方,在那里你可以設置你想要特定抓取爬行的鏈接。至于怎么使壞,需要你自己想象了。
第二個,速度限制。
在configuration中的Speed中有關于速度的限制,這里需要提一下的是速度上的限制不僅僅指的是線程,還有限制抓取URL速度,例如你想要1 URL/S,又或者是2 URL/S。這個功能可以躲避部分有防重復爬行限制的網站。
第三個,User Agent設置。
在configuration中有一個User Agent里可以設置你的身份,你可以設置為某搜索引擎的蜘蛛或瀏覽器都可以。
第四個,自定義字段檢查功能。
同樣是在configuration中的custom,這個功能可以說是比較好用的功能,主要是可以讓Spider在爬行抓取的同時可以根據你所設置的自定義字段進行篩選。例如:我在Custom設置了包含DVD這個字眼,那么所有出現(xiàn)DVD字眼的頁面都會特別篩選出來。
還有其他的功能,如:代理抓取,制作sitemap,導出url等功能,都是比較實用的。
提取碼:526663