在爬取某站时并做简单分析时,遇到如下问题和大家分享,避免犯错: 一丶网站的path为 /info/1013/13930.htm ,其中13930为不同新闻的 ID 值,但是这个数虽然为升序,但是没有任何规律的升序. 解决办法: 使用 range 顺序爬取,错误的网站在页面会报如图错误: 这时我们首先去判断返回页面是否包含 str 'Sorry, Page Not Found',如果包含则跳过,不包含则爬取页面关键信息 二.在爬取过程中发现有其它页面,该内容已经被撤销,这时我正常去判断页面,并跳过