20240125-web_srawler_design
Question
再設計爬蟲時,如何避免無限迴圈
Solutions
問題:無限迴圈何時發生?因為我們將鏈結化作graph,所以有可能有無限迴圈,有可能使用
hashtable[v]=true
- 開啟網頁、建立page signature根據 頁面、url
- query database看簽名是否最近被爬取過
- 如果有,新增到db到low priority
- 如果沒有,爬取網頁並新增資料庫
再設計爬蟲時,如何避免無限迴圈
問題:無限迴圈何時發生?因為我們將鏈結化作graph,所以有可能有無限迴圈,有可能使用
hashtable[v]=true
@alanhc