SysNucleus WebHarvy是一款用于抓取網頁數(shù)據(jù)的工具,這款軟件可以幫你自動從網頁中提取數(shù)據(jù),并保存在不同的格式提取內容。軟件可以自動抓取網頁上的文字、圖片、網址和電子郵件等內容,你也可以直接將整個網頁保存為HTML的格式,從而提取網頁里面的所有文本以及圖標內容。
軟件特色:
1、SysNucleus WebHarvy可以讓您分析網頁上的數(shù)據(jù)
2、可以顯示從一個HTML地址上分析連接數(shù)據(jù)
3、可以延伸到下一個網頁頁面
4、可以指定搜索數(shù)據(jù)的范圍以及內容
5、可以將掃描的圖片下載保存
6、支持在瀏覽器上復制鏈接搜索
7、支持配置對應資源項目搜索
8、可以使用項目名稱以及資源名稱查找
9、SysNucleus WebHarvy可以輕松提取數(shù)據(jù)
10、提供更高級的多詞語搜索以及多頁搜索
功能介紹:
1、視覺點和點擊界面
WebHarvy是一個可視化的網頁提取工具。其實完全沒有必要編寫任何腳本或代碼用來提取數(shù)據(jù)。使用WebHarvy的內置瀏覽器瀏覽網頁。您可以選擇用鼠標點擊來提取數(shù)據(jù)。它是那么容易!
2、智能識別模式
自動識別網頁中出現(xiàn)的數(shù)據(jù)模式。所以,如果你需要從一個網頁刮項目(姓名,地址,電子郵件,價格等)的列表,你不需要做任何額外的配置。如果數(shù)據(jù)重復,WebHarvy會自動刮。
3、導出捕獲的數(shù)據(jù)
可以保存從各種格式的網頁中提取的數(shù)據(jù)。 WebHarvy網站刮板的當前版本允許你導出的刮數(shù)據(jù)作為XML,CSV,JSON或TSV文件。您還可以刮下數(shù)據(jù)導出到一個SQL數(shù)據(jù)庫。
4、從多個頁面提取
通常網頁顯示數(shù)據(jù),如在多個頁面中的產品目錄。 WebHarvy可以自動抓取并從多個網頁中提取數(shù)據(jù)。只是指出了“鏈接到下一頁和WebHarvy網站刮板將自動刮從所有頁面的數(shù)據(jù)。
5、基于關鍵字的提取
基于關鍵字的提取可讓您捕捉從搜索結果頁面輸入關鍵字的列表數(shù)據(jù)。您創(chuàng)建的配置將被自動重復所有給定輸入關鍵字,而挖掘的數(shù)據(jù)。可以指定任意數(shù)量的輸入關鍵字
6、通過代{過}{濾}理服務器提取
提取匿名和防止提取網絡軟件被封鎖的Web服務器,您必須通過代{過}{濾}理服務器訪問目標網站的選項?梢允褂靡粋單一的代{過}{濾}理服務器地址或代{過}{濾}理服務器的地址列表。
7、提取分類
WebHarvy網站刮板允許您從一個鏈接列表,從而導致一個網站內的相似頁面抽取數(shù)據(jù)。這使您可以使用一個單一的配置刮網站內的類別或小節(jié)。
8、使用正則表達式提取
WebHarvy可以應用正則表達式(正則表達式)在文本或網頁的HTML源代碼,并提取去匹配的部分。這種強大的技術為您提供了更多的靈活性,同時拼搶的數(shù)據(jù)。