八爪魚(yú)采集器官方版是一款網(wǎng)頁(yè)數(shù)據(jù)采集器,能夠?qū)Ω鞣N不同類(lèi)型的網(wǎng)頁(yè)進(jìn)行大量的數(shù)據(jù)采集工作,八爪魚(yú)采集器官方版類(lèi)型涵蓋廣泛,金融類(lèi)、交易類(lèi)、社交網(wǎng)站、電商商品等的網(wǎng)站數(shù)據(jù)都能夠被規(guī)范性的采集下來(lái),并且可以被導(dǎo)出,軟件界面十分簡(jiǎn)潔明晰,并且軟件使用起來(lái)方便快捷,是一款非常實(shí)用,且又功能性強(qiáng)大的軟件,讓繁瑣復(fù)雜的工作變得簡(jiǎn)單有趣!
功能介紹
簡(jiǎn)單來(lái)講,使用八爪魚(yú)可以非常容易的從任何網(wǎng)頁(yè)精確采集你需要的數(shù)據(jù),生成自定義的、規(guī)整的數(shù)據(jù)格式。八爪魚(yú)數(shù)據(jù)采集系統(tǒng)能做的包括但并不局限于以下內(nèi)容:
1. 金融數(shù)據(jù),如季報(bào),年報(bào),財(cái)務(wù)報(bào)告, 包括每日最新凈值自動(dòng)采集;
2. 各大新聞門(mén)戶網(wǎng)站實(shí)時(shí)監(jiān)控,自動(dòng)更新及上傳最新發(fā)布的新聞;
3. 監(jiān)控競(jìng)爭(zhēng)對(duì)手最新信息,包括商品價(jià)格及庫(kù)存;
4. 監(jiān)控各大社交網(wǎng)站,博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評(píng)論;
5. 收集最新最全的職場(chǎng)招聘信息;
6. 監(jiān)控各大地產(chǎn)相關(guān)網(wǎng)站,采集新房二手房最新行情;
7. 采集各大汽車(chē)網(wǎng)站具體的新車(chē)二手車(chē)信息;
8. 發(fā)現(xiàn)和收集潛在客戶信息;
9. 采集行業(yè)網(wǎng)站的產(chǎn)品目錄及產(chǎn)品信息;
10. 在各大電商平臺(tái)之間同步商品信息,做到在一個(gè)平臺(tái)發(fā)布,其他平臺(tái)自動(dòng)更新。
模板采集
模板采集模式內(nèi)置上百種主流網(wǎng)站數(shù)據(jù)源,如京東、天貓、大眾點(diǎn)評(píng)等熱門(mén)采集網(wǎng)站,只需參照模板簡(jiǎn)單設(shè)置參數(shù),就可以快速獲取網(wǎng)站公開(kāi)數(shù)據(jù)。
智能采集
八爪魚(yú)采集可根據(jù)不同網(wǎng)站,提供多種網(wǎng)頁(yè)采集策略與配套資源,可自定義配置,組合運(yùn)用,自動(dòng)化處理。從而幫助整個(gè)采集過(guò)程實(shí)現(xiàn)數(shù)據(jù)的完整性與穩(wěn)定性。
云采集
由5000多臺(tái)云服務(wù)器支撐的云采集,7*24小時(shí)不間斷運(yùn)行,可實(shí)現(xiàn)定時(shí)采集,無(wú)需人員值守,靈活契合業(yè)務(wù)場(chǎng)景,幫你提升采集效率,保障數(shù)據(jù)時(shí)效性。
API接口
通過(guò)八爪魚(yú)API,可以輕松獲取八爪魚(yú)任務(wù)信息和采集到的數(shù)據(jù),靈活調(diào)度任務(wù),比如遠(yuǎn)程控制任務(wù)啟動(dòng)與停止,高效實(shí)現(xiàn)數(shù)據(jù)采集與歸檔。基于強(qiáng)大的API體系,還可以無(wú)縫對(duì)接公司內(nèi)部各類(lèi)管理平臺(tái),實(shí)現(xiàn)各類(lèi)業(yè)務(wù)自動(dòng)化。
自定義采集
針對(duì)不同用戶的采集需求,八爪魚(yú)可提供自動(dòng)生成爬蟲(chóng)的自定義模式,可準(zhǔn)確批量識(shí)別各種網(wǎng)頁(yè)元素,還有翻頁(yè)、下拉、ajax、頁(yè)面滾動(dòng)、條件判斷等多種功能,支持不同網(wǎng)頁(yè)結(jié)構(gòu)的復(fù)雜網(wǎng)站采集,滿足多種采集應(yīng)用場(chǎng)景。
便捷定時(shí)功能
簡(jiǎn)單幾步點(diǎn)擊設(shè)置,即可實(shí)現(xiàn)采集任務(wù)的定時(shí)控制,不論是單次采集的定時(shí)設(shè)置,還是預(yù)設(shè)某一天或是每周每月的定時(shí)采集,都可以同時(shí)對(duì)多個(gè)任務(wù)自由進(jìn)行設(shè)置,根據(jù)需要對(duì)選擇時(shí)間進(jìn)行多重組合,靈活調(diào)配自己的采集任務(wù)。
全自動(dòng)數(shù)據(jù)格式化
八爪魚(yú)內(nèi)置了強(qiáng)大的數(shù)據(jù)格式化引擎,支持字符串替換、正則表達(dá)式替換或匹配、去除空格、添加前綴或后綴、日期時(shí)間格式化、HTML轉(zhuǎn)碼等多項(xiàng)功能,采集過(guò)程中全自動(dòng)處理,無(wú)需人工干預(yù),即可得到所需格式數(shù)據(jù)。
多層級(jí)采集
很多主流新聞、電商類(lèi)的網(wǎng)站,里面包含一級(jí)商品列表頁(yè),也包含二級(jí)商品詳情頁(yè),還有三級(jí)評(píng)論詳情頁(yè)面;不論網(wǎng)站有多少層級(jí),八爪魚(yú)都可以不限制層級(jí)的采集數(shù)據(jù),滿足各類(lèi)業(yè)務(wù)采集需求。
在本站下載最新安裝包,一鍵安裝,完成即可使用
V8.6.2
采集與數(shù)據(jù)導(dǎo)出
新增“自動(dòng)導(dǎo)出到本地文件”功能。本地或云采集完成后,自動(dòng)導(dǎo)出已采集的數(shù)據(jù)文件(Excel、Csv、Html、Json、Xml)到本地電腦
新增本地采集“等待運(yùn)行”狀態(tài)。批量設(shè)置本地定時(shí)自動(dòng)采集的時(shí)候,超出同時(shí)啟動(dòng)任務(wù)數(shù)限制時(shí)自動(dòng)進(jìn)入排隊(duì)等待采集
新增查看本地采集歷史采集信息。點(diǎn)擊任務(wù)列表的“電腦圖標(biāo)”可以查看最近一次的采集歷史信息
優(yōu)化手動(dòng)導(dǎo)出到數(shù)據(jù)庫(kù)配置流程和交互
自動(dòng)入庫(kù)工具
新增入庫(kù)計(jì)劃批量操作(啟/停、刪除、設(shè)置)
新增入庫(kù)信息字段內(nèi)容(任務(wù)名稱(chēng)、數(shù)據(jù)庫(kù)類(lèi)型、執(zhí)行周期)
新增支持直接修改入庫(kù)計(jì)劃配置信息
新增錯(cuò)誤日志提醒小紅標(biāo)
優(yōu)化入庫(kù)工具操作交互界面
企業(yè)版本協(xié)作
企業(yè)版主賬號(hào)通過(guò)任務(wù)列表“篩選器”查看企業(yè)成員賬號(hào)任務(wù)狀態(tài)
企業(yè)版主賬號(hào)支持管理企業(yè)成員賬號(hào)的任務(wù):?jiǎn)?停止、復(fù)制、定時(shí)、導(dǎo)出數(shù)據(jù)等
其它
新增觸發(fā)器條件“為空”的判斷
修復(fù)部分任務(wù)無(wú)法采集、列表無(wú)數(shù)據(jù)的故障
修復(fù)本地采集日志信息重復(fù)和順序錯(cuò)亂的問(wèn)題
優(yōu)化修復(fù)其它已知bug問(wèn)題
如何使用八爪魚(yú)采集器采集單個(gè)網(wǎng)頁(yè)?
首先打開(kāi)八爪魚(yú)采集器→點(diǎn)擊快速開(kāi)始→新建任務(wù),進(jìn)入到任務(wù)配置頁(yè)面:
選擇任務(wù)組,自定義任務(wù)名稱(chēng)和備注;
上圖配置完畢之后,選擇下一步,進(jìn)入到流程配置頁(yè)面,往流程設(shè)計(jì)器中拖入一個(gè)打開(kāi)網(wǎng)頁(yè)的步驟;
選中瀏覽器中的打開(kāi)網(wǎng)頁(yè)步驟,在右邊的頁(yè)面URL中輸入網(wǎng)頁(yè)URL并點(diǎn)擊保存,系統(tǒng)會(huì)在軟件下方的瀏覽器中自動(dòng)打開(kāi)對(duì)應(yīng)網(wǎng)頁(yè):
下面進(jìn)行數(shù)據(jù)字段的提取,點(diǎn)擊瀏覽器中需要提取的字段,然后在彈出的選擇對(duì)話框中選擇抓取這個(gè)元素的文本;
上述操作之后,系統(tǒng)會(huì)在頁(yè)面的右上方顯示我們將要抓取的字段;
接下來(lái)配置頁(yè)面中其他需要抓取的字段,配置完成之后修改字段名稱(chēng);
修改完成之后點(diǎn)擊上圖中的保存按鈕,再點(diǎn)開(kāi)圖中的數(shù)據(jù)字段可以看到,系統(tǒng)將會(huì)顯示最終的采集列表;
點(diǎn)擊上圖中的下一步→下一步→啟動(dòng)單機(jī)采集(調(diào)試模式),進(jìn)入到任務(wù)檢查頁(yè)面,以確保任務(wù)的正確性;
點(diǎn)擊開(kāi)始單機(jī)采集,系統(tǒng)將會(huì)在本地執(zhí)行采集流程并顯示最終采集的結(jié)果;
白菜蘿卜:
可視化所現(xiàn)即所得操作,無(wú)須編程能力,即可采集任意網(wǎng)頁(yè)數(shù)據(jù)
爺是香坊大呲花:
提供分布式云采集增值服務(wù),支持高并發(fā)大存儲(chǔ)采集,還挺好用!
關(guān)于為什么八爪魚(yú)采集器云采集無(wú)法使用:
云采集是八爪魚(yú)提供的通過(guò)云服務(wù)器集群進(jìn)行多節(jié)點(diǎn)采集的一個(gè)采集模式,它可以提高采集效率,
并且可以高效的避開(kāi)各種網(wǎng)站的IP封鎖策略。
但目前八爪魚(yú)的免費(fèi)版以及專(zhuān)業(yè)版用戶,是不支持云采集功能的,所以無(wú)法啟動(dòng)云采集進(jìn)行數(shù)據(jù)采集。
云采集功能目前只支持旗艦版及私有云的用戶使用。
網(wǎng)友評(píng)論