简单python爬虫

在创建的python文件中输入下列代码:

# coding:utf-8
import requests
from bs4 import BeautifulSoup def spider(url,headers):
with open('renming.txt', 'w', encoding='utf-8') as fp:
r = requests.get(url, headers=headers)
r.encoding = 'gb2312'
# test=re.findall('<li>< a href= >(.*?)</ a></li>',r.text)
# print(test)
soup = BeautifulSoup(r.text, "html.parser")
for news_list in soup.find_all(class_="list14"):
content = news_list.text.strip()
fp.write(content)
fp.close() if __name__=="__main__":
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '
'AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/55.0.2883.87 Safari/537.36'} url = 'http://www.people.com.cn/'
spider(url, headers)

如果代码中存在报错,请在PyCharm最下边找到Terminal,点击Terminal后Pycharm底部控制台处会出现其自带的命令行窗口,输入下面两条命令即可解决报错:pip install requestspip install bs4解决完报错之后,在代码文件的任意处右击,点击Run,之后就会发现在代码文件目录中出现了renmin.txt,里面是爬取的人民网的数据。

最新文章

  1. UI基础之UIButton相关
  2. Android点击EditText文本框之外任何地方隐藏键盘的解决办法
  3. 在sublime text 中的Emmet快捷键动态图演示
  4. ruby -- 问题解决(一)无法连接mysql数据库
  5. 想做Android Wear开发?你得先搞明白这四件事
  6. 开始Java学习(Java之负基础实战)
  7. Java常量笔记
  8. js算法集合(一) 水仙花数 及拓展(自幂数的判断)
  9. OS X 和iOS 中的多线程技术(下)
  10. Openfire分析之二:主干程序分析
  11. SQL注入详解
  12. gdb命令调试技巧
  13. 小白都会超详细--ELK日志管理平台搭建教程
  14. c# 获取当前时间的微秒
  15. 事务的四大特性(ACID):
  16. PHPEXCEL读出数据是PHPExcel_RichText类型
  17. 操作系统-进程通信(信号量、匿名管道、命名管道、Socket)
  18. Linux基础(六) Vim之vundle插件
  19. hadoop balance工具平衡集群dfs存储及遇到异常Got error, status message Not able to receive block 1073959989 from /192.168.1.37:3004 because threads quota is exceeded
  20. 关于作用域范围Scope

热门文章

  1. SpringSecurity基本使用
  2. Rook Toolbox
  3. SonarQube 插件之 Issues Report &amp; SonarLint 的配置及使用
  4. 【前端必会】单页应用-你的新朋友wepack
  5. aws-cli命令-ec2实例相关的操作
  6. 记一次 .NET 某工控视觉软件 非托管泄漏分析
  7. .NET MAUI 社区工具包 1.3版本发布
  8. ysoserial commonscollections6 分析
  9. linux开放端口并测试
  10. JSP的内置对象 request和response