爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是

亞洲私人珍&#34255

;賣,令仝好分享他為此

所傾注的心血與熱愛。

爬虫源码是:

url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
result = requests.get(url=url).text
except:
result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
result = requests.get(url=url).text

如何处理?

  
url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1'

try:
result = requests.get(url=url).text
except:
result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
result = requests.get(url=url).text
from HTMLParser import HTMLParser
result_HTMLParser = HTMLParser().unescape(result) print result_HTMLParser

打印原始网页代码

发现编码格式正常

html = '<abc>'
用Python可以这样处理: import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
如果还想转回去,可以这样: import cgi
html = cgi.escape(txt) # 这样又回到了 html = '&lt;abc&gt'

最新文章

  1. 转载:Android调用相册、拍照实现缩放、切割图片
  2. asp.net mvc 在视图中获取控制器与动作的名称
  3. jquery 取的单选按钮组的值
  4. Windows下为64位的python3.4.3安装numpy
  5. 【maven项目结构】module 生成独立的jar
  6. VC-关于VC++ 6.0的那些事儿
  7. 利用COM组件IPicture读取jpg、gif、bmp图片文件数据和显示图片
  8. 使用Dropbox+Justwriting+Markdown建立个人博客
  9. WebAPi接口安全之公钥私钥加密
  10. Ajax 调用webservice 解决跨域请求和发布到服务器后本地调用成功外网失败的问题
  11. VM下新建虚拟机并装linux系统
  12. 基于 Django的Ajax实现 文件上传
  13. centos7 设置时区和时间
  14. Linux下安装搜狗拼音输入法
  15. Spring 中PageHelper分页插件使用
  16. 数据库SQL语言学习--上级练习1(数据查询)
  17. 新手必看,史上最全的iOS开发教程集锦,没有之一!
  18. 机器学习基石笔记:15 Validation
  19. [Python] numpy.nonzero
  20. 图像处理之色彩转换(CCM)

热门文章

  1. css规范 - bem
  2. linux加入windows域
  3. HttpLuaModule——翻译(Nginx API for Lua)
  4. flume 集群datanode节点失败导致hdfs写失败(转)
  5. [OpenGL] 斯坦福兔子与显示列表
  6. VB 中 copymemory的有关问题
  7. Oracle NET工作原理、配置及连接问题排查
  8. Java之创建对象&gt;7.Avoid finalizers
  9. 【DB2】表空间相关详细说明
  10. WIN10-修改网卡MAC