前面(1)(2)的内容已经足够爬虫如链家网之类的不需要登录可以直接获取数据的网站. 而要爬取社交网站比较鲜明的特点就是需要登录,否则很多东西都无法获取.经过测试发现,微博,知乎都不是很好登录,知乎有时候的验证码会类似12306那样,而微博除了验证码,在传递参数的时候会对用户名进行base64加密.这里讲简单的豆瓣的登录以及简单的爬取. 对于Chrome内核的浏览器来说,可以右键,审查元素,选择network,登录一下自己的账号. 选中login会有各种post还是get,url,连接头各种信息.