【智能模式】【流程圖模式】如何批量生成網址
摘要:本文主要給大家介紹如何使用后羿采集器的批量生成網址功能。 免費下載軟件
后羿采集器支持批量生成網址功能,即通過設置一定的規則,自動生成您需要的網址,智能模式和流程圖模式的具體設置位置相同,在新建采集任務界面中,如下圖所示:
批量生成網址一般用于多網址采集的場景,這里又可以分為兩種情況:
第一種:當網頁中沒有翻頁按鈕時,這種情況下無法通過點擊翻頁按鈕進行循環翻頁采集,這種網站各個分頁的網址一般都只有部分參數(例如頁面編號)不同,因此可以通過使用批量生成網址功能來一次性生成所有的分頁網址,然后按照多網址進行采集。
第二種:當你需要采集多個網址,但是這些網址是符合一定的規則的,那么就可以通過批量生成的方式來生成,而無需手動填寫。
一般情況下,網址的基本結構都是:固定網址+變化參數
這里我們用后羿采集器官網作為例子來給大家介紹一下,網址示例如下:
http://www.mimosamay.com/?type=list&cat_id=148
http://www.mimosamay.com/?type=list&cat_id=148&page=2
http://www.mimosamay.com/?type=list&cat_id=148&page=3
http://www.mimosamay.com/?type=list&cat_id=148&page=4
上面幾個網址對應的網頁如下圖所示,我們可以看到除了首頁,其余網址除了紅色部分數字不同,其余部分都是相同的。
(注:針對首頁不符合規則的情況,我們可以嘗試手動修改成符合規則的樣子,即:http://www.mimosamay.com/?type=list&cat_id=148&page=1,如果修改前后都能夠訪問同一個網頁,則可以一起生成,否則第一個網址需要單獨采集,本文這個網址是不滿足的)
下面我們來介紹一下使用批量生成網址的步驟。
步驟一:輸入第一部分的固定網址:
http://www.mimosamay.com/?type=list&cat_id=148&page=
步驟二:點擊添加參數:
步驟三:設置第一個參數,參數類型設為數字,然后對起始值、截止值和步長等參數進行配置(因為這里第一個網址修改之后不能用,所以我們設置為從2到10,步長為1,遞增,數字前不補零)
我們可以在網址預覽中看到最終生成的網址樣式。
溫馨提示:
本文僅以數字類型參數為例進行了描述,后羿采集器支持的參數類型還包括字母和時間,大家可以參考本文進行設置。
在使用批量生成網址時一定要注意是否需要關閉分頁設置,如果不需要翻頁就必須關閉分頁設置,否則會出現大量重復數據。如下圖所示: