python编码问题(2)
2024-08-29 08:38:13
先上代码:
# -*- coding: utf-8 -*-
import sys
import urllib2
import re
import chardet
import sys
print sys.getdefaultencoding() keyword = u'来源:.+[\u4e00-\u9fa5]+'.encode('CP936') html = 'http://finance.people.com.cn/money/n/2014/1009/c42877-25798373.html'
src = urllib2.urlopen(html).read()
print chardet.detect(keyword)
print chardet.detect(src)
match = re.compile(keyword) list = match.findall( src)
for line in list:
print line
在win7上输出是:
ascii
{'confidence': 0.73, 'encoding': 'windows-1252'}
{'confidence': 0.99, 'encoding': 'GB2312'}
来源:人民网-理财频道 原创稿
来源:<a href="http://finance.people.com.cn/money/" target="_blank">人民网-理财频道</a></span> <a href="http://www.people.com.cn/GB/123231/365208/index.html" target="_blank"><img src="/img/2012wbn/images/peopleclienticon.jpg" />手机看新闻
来源:<a href="http://news.baidu.com/view.html?from=people" target="_blank">百度新闻
windows上的IDLE(python GUI),默认编码为ascii码(第一行);
CP936 -> CP1252 , why????
读取网页的编码貌似取自网页。
为什么,cp1252的编码能够在gb2312的编码的字符串中找到匹配?
============
解答
============
请保持关注,目前无
最新文章
- cassandra-执行请求入口函数
- 接收新信息,在会话中看不到(thread表数据插入/更新失败)
- 你真的了解UIEvent、UITouch吗?
- OC- .h与.m
- 使用IzPack打包JAVA Web应用程序
- 【131031】struts 1 中 <;html:form>;
- JS验证金额
- 产品中 configure/cross compile的一个bug
- Hadoop中操作HDFS出现异常的解决方法
- C语言 中缀转后缀
- “GDI+ 发生一般错误” 解决方法
- 2.定义图形类Shape,该类中有获得面积的方法getArea();定义长方形类Rect,该类是Shape的子类,类中有矩形长和宽的变量double a,double b,设置长和宽的方法setWidth()、setHeight(),使用getArea()求矩形面积;利用getArea方法实现题1中圆面积的求解。
- 8.1 sikuli报错: 提示没有对应的javaw
- windows设置照片查看器为默认的照片查看软件
- Cucumber常用关键字
- leetcode网学习笔记(1)
- 再见了,我最爱的OI~~~
- 浅谈C#语言中的各种数据类型,与数据类型之间的转换
- Ajax使用formdata异步上传文件,报错the request was rejected because no multipart boundary was found
- ffmpag总结_android_to_ios视频转换
热门文章
- C风格字符串与C++风格字符串
- ERROR 2002 (HY000): Can&#39;t connect to local MySQL server through socket &#39;/var/lib/mysql/mysql.sock&#39; (2)--MySQL错误
- PHPstorm设置连接FTP,进行文件上传、下载、比较
- mysql 如何用一条SQL将一张表里的数据插入到另一张表 3个例子
- Android Studio-设置鼠标悬停显示方法声明
- R语言演示功能
- [歪谈]我们该怎么正确面对";批评";
- Backbone☞View中的events...click事件失效
- JAVA之Socket编程
- Android中设定背景图片平铺。