代码:

# -*- coding:utf-8 -*-

from urllib import request

resp = request.urlopen('http://www.xxx.com')

print(resp.read().decode('utf-8'))

报错:

Traceback (most recent call last):
File "F:/workspace/python/py3/test_urllib.py", line 7, in <module>
print(resp.read().decode('utf-8'))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 201: invalid continuation byte

原因:

  确定要抓取的页面的编码,并不是所有网站的编码都是utf-8的,resp.read().decode()应传入与要抓取的网页一致的编码。

最新文章

  1. Chrome 中的 JavaScript 断点设置和调试技巧
  2. ANSI C 所有的转义字符
  3. C# eval()函数浅谈
  4. 有理数类 Java BigInteger实现
  5. (转)[OSX] 在 OS X 中安装 MacPorts 指南
  6. 利用ant的javac任务来编译java程序
  7. Codeforces Round #246 (Div. 2) D. Prefixes and Suffixes(后缀数组orKMP)
  8. gets()
  9. FZU 2101 大三的美好时光
  10. H5外包团队 2019案例更新
  11. WEB学习笔记5-标准的HTML页面结构
  12. 立即响应ScrollView上的子视图的手势
  13. React半科普文
  14. 【bzoj4259】 残缺的字符串 FFT
  15. 《Head First 设计模式》读后总结:基础,原则,模式
  16. Spring Cloud微服务实战阅读笔记(一) 基础知识
  17. 20179223《Linux内核原理与分析》第一周学习笔记
  18. 给自己的网站加上robots.txt
  19. [bzoj5158][Tjoi2014]Alice and Bob
  20. 在Linux中安装和配置OpenVPN Server的最简便方法!

热门文章

  1. c#中的引用类型和值类型
  2. 一篇在一个Excel表中创建多个sheet的代码
  3. MongoDB数据库初探 --- 认识与安装 &amp;&amp; Mongoose安装
  4. poj 2572 Hard to Believe, but True!
  5. C++要点总结
  6. Django settings.py添加静态文件夹
  7. SQL update 多表连接方法
  8. js时间字符串转时间戳
  9. log4j2分层输出日志
  10. 配置Spring