Python 爬虫 解决escape问题
2024-09-27 18:33:07
爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是
亞洲私人珍藏
;賣,令仝好分享他為此
所傾注的心血與熱愛。
爬虫源码是:
url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1' try:
result = requests.get(url=url).text
except:
result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
result = requests.get(url=url).text
如何处理?
url = 'http://www.bonhams.com/auctions/24026/lot/120/?category=list&length=100&page=1' try:
result = requests.get(url=url).text
except:
result = requests.get(url=url).text
if 'javascript">setTimeout' in result:
result = requests.get(url=url).text
from HTMLParser import HTMLParser
result_HTMLParser = HTMLParser().unescape(result) print result_HTMLParser
打印原始网页代码
发现编码格式正常
html = '<abc>'
用Python可以这样处理: import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = '<abc>'
如果还想转回去,可以这样: import cgi
html = cgi.escape(txt) # 这样又回到了 html = '<abc>'
最新文章
- 转载:Android调用相册、拍照实现缩放、切割图片
- asp.net mvc 在视图中获取控制器与动作的名称
- jquery 取的单选按钮组的值
- Windows下为64位的python3.4.3安装numpy
- 【maven项目结构】module 生成独立的jar
- VC-关于VC++ 6.0的那些事儿
- 利用COM组件IPicture读取jpg、gif、bmp图片文件数据和显示图片
- 使用Dropbox+Justwriting+Markdown建立个人博客
- WebAPi接口安全之公钥私钥加密
- Ajax 调用webservice 解决跨域请求和发布到服务器后本地调用成功外网失败的问题
- VM下新建虚拟机并装linux系统
- 基于 Django的Ajax实现 文件上传
- centos7 设置时区和时间
- Linux下安装搜狗拼音输入法
- Spring 中PageHelper分页插件使用
- 数据库SQL语言学习--上级练习1(数据查询)
- 新手必看,史上最全的iOS开发教程集锦,没有之一!
- 机器学习基石笔记:15 Validation
- [Python] numpy.nonzero
- 图像处理之色彩转换(CCM)