python爬网页中文乱码问题
2024-08-30 21:14:08
再用python爬取网页时,用模拟浏览器登陆,得到的中文字符出现乱码,该怎么解决呢?
url = “http://newhouse.hfhouse.com/”
req = urllib2.Request(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0" })
reqHtml = urllib2.urlopen(req).read()
#print reqHtml
songtasteHtmlEncoding='utf-8'
soup = BeautifulSoup.BeautifulStoneSoup(reqHtml,fromEncoding=songtasteHtmlEncoding)
#print soup
re_h = re.compile('</?\w+[^>]*>')
s = len(soup.findAll('a',{"class":"area_list"}))
finda = soup.findAll('a',{"class":"area_list"})
i = 0
while(i<s):
quyuz = re_h.sub('',str(finda[i])).strip()
try:
quyu = quyuz.decode('utf-8').encode('gbk')
except:
if quyuz[:3] == codecs.BOM_UTF8:
quyu = quyuz[3:]
print quyu.decode("utf-8").encode('gbk')
#quyu = quyu.decode('utf-8').encode('gbk')
#number = int(filter(str.isdigit, quyuz))
#dir2 = make_dir(dir1,quyu)
value = finda[i]['val']
houseid = finda[i]['href']
print houseid,value,quyu
总是报eUnicodeEncodeError: 'gbk' codec can't encode character u'\xe7' in position 0: illegal multibyte sequence,网页head里编码是utf-8该怎么办呢?
最新文章
- ASP.NET Core 中文文档 第二章 指南(4.3)添加 View
- ios打包ipa的四种实用方法(.app转.ipa)
- LinqPad工具:帮你快速学习Linq
- You know元音字母吗?
- UE4在C++中使用OnComponentBeginOverlap之类的时间
- SVN版本管理系统的安装 CentOS + Subversion + Apache + Jsvnadmin
- 基于XMPP的即时通信系统的建立(六)— 开发环境搭建
- Linux系统常见的压缩命令
- Blocks(POJ 3734 矩阵快速幂)
- 【WebSocket初探 
】
- Java线程:线程状态
- Struts2之访问路径
- Ext3和Ext4文件系统区别
- Spring Boot 2.0(六):使用 Docker 部署 Spring Boot 开源软件云收藏
- Hadoop系列002-从Hadoop框架讨论大数据生态
- new Date()浏览器兼容性问题
- MySQL存储过程 事务transaction
- 路径打印(set以及字符串的相关操作)
- Hive Web Interface的安装
- oracle中用SQL语句创建和管理表
热门文章
- eclipse实现批量修改文件的编码方式
- STL之rb_tree的find函数
- HDU 5187
- Coco2d-js/Cocos2d-html5中Android返回键实现
- hdu2276---Kiki &;amp; Little Kiki 2(矩阵)
- TI C66x DSP 系统events及其应用 - 5.6(INTMUX)
- CentOS 7通过yum安装fcitx五笔输入法
- Codeforces Round #313 (Div. 2)(A,B,C,D)
- oc10--练习
- android 添加新的键值,自定义按键【转】