再用python爬取网页时,用模拟浏览器登陆,得到的中文字符出现乱码,该怎么解决呢?

url = “http://newhouse.hfhouse.com/”
req = urllib2.Request(url,headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0" })
reqHtml = urllib2.urlopen(req).read()
#print reqHtml
songtasteHtmlEncoding='utf-8'
soup = BeautifulSoup.BeautifulStoneSoup(reqHtml,fromEncoding=songtasteHtmlEncoding)
#print soup
re_h = re.compile('</?\w+[^>]*>')
s = len(soup.findAll('a',{"class":"area_list"}))
finda = soup.findAll('a',{"class":"area_list"})
i = 0
while(i<s):
quyuz = re_h.sub('',str(finda[i])).strip()
try:
quyu = quyuz.decode('utf-8').encode('gbk')
except:
if quyuz[:3] == codecs.BOM_UTF8:
quyu = quyuz[3:]
print quyu.decode("utf-8").encode('gbk')
#quyu = quyu.decode('utf-8').encode('gbk')
#number = int(filter(str.isdigit, quyuz))
#dir2 = make_dir(dir1,quyu)
value = finda[i]['val']
houseid = finda[i]['href']
print houseid,value,quyu

总是报eUnicodeEncodeError: 'gbk' codec can't encode character u'\xe7' in position 0: illegal multibyte sequence,网页head里编码是utf-8该怎么办呢?

最新文章

  1. ASP.NET Core 中文文档 第二章 指南(4.3)添加 View
  2. ios打包ipa的四种实用方法(.app转.ipa)
  3. LinqPad工具:帮你快速学习Linq
  4. You know元音字母吗?
  5. UE4在C++中使用OnComponentBeginOverlap之类的时间
  6. SVN版本管理系统的安装 CentOS + Subversion + Apache + Jsvnadmin
  7. 基于XMPP的即时通信系统的建立(六)— 开发环境搭建
  8. Linux系统常见的压缩命令
  9. Blocks(POJ 3734 矩阵快速幂)
  10. 【WebSocket初探 】
  11. Java线程:线程状态
  12. Struts2之访问路径
  13. Ext3和Ext4文件系统区别
  14. Spring Boot 2.0(六):使用 Docker 部署 Spring Boot 开源软件云收藏
  15. Hadoop系列002-从Hadoop框架讨论大数据生态
  16. new Date()浏览器兼容性问题
  17. MySQL存储过程 事务transaction
  18. 路径打印(set以及字符串的相关操作)
  19. Hive Web Interface的安装
  20. oracle中用SQL语句创建和管理表

热门文章

  1. eclipse实现批量修改文件的编码方式
  2. STL之rb_tree的find函数
  3. HDU 5187
  4. Coco2d-js/Cocos2d-html5中Android返回键实现
  5. hdu2276---Kiki &amp;amp; Little Kiki 2(矩阵)
  6. TI C66x DSP 系统events及其应用 - 5.6(INTMUX)
  7. CentOS 7通过yum安装fcitx五笔输入法
  8. Codeforces Round #313 (Div. 2)(A,B,C,D)
  9. oc10--练习
  10. android 添加新的键值,自定义按键【转】