pymssql读取varchar字段中文显示乱码的问题分析
2024-08-30 13:02:32
问题
用python的pymssql模块读取旧业务系统后台SQL Server 2000数据库展示数据为乱码
开发环境
- 操作系统:windows 8
- 数据库 MS SQL Server 2000,默认配置
- python 2.7.6
- pymssql 2.1.1
- 开发工具:PyCharm 4.0
业务逻辑
数据库的[rooms]表记录一些功能房间列表,与其他接口数据进行对比,然后输出对比结果。
rooms表结构:
CREATE TABLE [rooms] (
[id] [int] IDENTITY (1, 1) NOT NULL ,
[name] [varchar] (50) COLLATE Chinese_PRC_CI_AS NULL ,
PRIMARY KEY CLUSTERED ([id] ON [PRIMARY] ,
UNIQUE NONCLUSTERED ([des]) ON [PRIMARY]
) ON [PRIMARY]
GO
模拟代码
# -*- coding: utf-8 -*-
import pymssql rooms=None
with pymssql.connect(host='192.168.1.100',database='builds',
user='sa',password='password',
# charset='utf8',
) as conn:
cur=conn.cursor()
sql="select id,name from rooms"
cur.execute(sql)
rooms=cur.fetchall()
if rooms and isinstance(rooms,(list,tuple)):
for room_id,room_name in rooms:
print "\t".join([str(room_id),room_name])
在通用环境中运行代码,room_name变量列显示乱码
问题分析
- 调整连接字符集
首先想到的解决办法是,指定pymssql.connect参数charset的字符集值,使得内外数据编码一致。
依据,“默认情况下,SQL Server 2000使用ISO字符集(代码页1252)。这个字符集也叫ISO-8859-1 Latin1 或者ANSI字符集。它和Windows9x及Windows NT/2000操作系统相兼容,提供了与大多数语言最大兼容性。SQL Server2000中还包含代码页936(简体中文),该字符集包含对简体中文支持的字符”,将charset设置为gbk或cp936,更为合适。查看pymssql使用文档,发现官方没有给出此参数可接收的实例字符串。进行猜测性调试:
<charset='gbk'>运行抛出异常:pymssql.OperationalError: (20017, 'DB-Lib error message 20017, severity 9:\nUnexpected EOF from the server\nDB-Lib error message 20002, severity 9:\nAdaptive Server connection failed\n')
<charset='cp936'>调试模式下pymsql.connect无异常信息,但程序直接退出
<charset='utf8'>运行正常,输出依然乱码;不指定此参数值时,程序使用默认值'UTF-8'
结论:此路不通 - 特定字符串调试
使用PyCharm调试程序,选定特定room_name值,来进行分析# 注意此时输出标记为u,说明识别为unicode编码,正常时此时print出是真实值
>>> room_name
u'\xbf\xec\xb5\xdd\xbc\xe4\xa3\xa8\xc3\xc5\xc4\xda\xa3\xa9'
# 打印原始值为乱码,所以怀疑实际存储的是被标记为unicode的其他编码
>>> print room_name
¿ìµÝ¼ä£¨ÃÅÄÚ£©
# 这时可以将引号内赋值,再使用chardet.detect()判断
>>> aa='\xbf\xec\xb5\xdd\xbc\xe4\xa3\xa8\xc3\xc5\xc4\xda\xa3\xa9'
>>> aa
'\xbf\xec\xb5\xdd\xbc\xe4\xa3\xa8\xc3\xc5\xc4\xda\xa3\xa9'
# 果然,检测出的结果是GB2312编码
>>> chardet.detect(aa)
{'confidence': 0.99, 'encoding': 'GB2312'}
# 输出正常
>>> print aa.decode('gb2312')
快递间(门内)
# 此时,需要unicode->encode('Latin1')->decode('GB2312')
>>> room_name.encode('latin1').decode('GB2312')
u'\u5feb\u9012\u95f4\uff08\u95e8\u5185\uff09'
>>> print room_name.encode('latin1').decode('GB2312')
快递间(门内)
解决办法
pymssql基础实现使用的是cpython,从GitHub的官方代码文件_mssql.pyx,可以看到一些处理过程。使用strcpy函数对数据交换,因为对cpython不了解,怀疑是在处理双字节文字转码时的一点bug。
这个问题有两个解决办法:
- 代码中显式转码
方法:unicode变量.encode('latin1').decode('gbk'),详细情况可以参考下方的“PYTHON-进阶-编码处理小结”
一般情况下对unicode编码不做encode处理,但必要时可以encode为Latin1,实现脱unicode操作,然后再以合适字符集decode为正确unicodeprint "\t".join([str(room_id),room_name.encode('latin1').decode('gbk')])
- 字符定义使用NVARCHAR
这种方式在存储和读取时都使用unicode编码,和python运转字节码一致,可以很好避免此类问题。当然数据库存储空间要牺牲一些。[room_name] [nvarchar] (50) COLLATE Chinese_PRC_CI_AS NULL
原文:这里
参考:
1)"UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence"
2)水木社区:用pymssql的时候出现了很诡异的字符集问题
最新文章
- Entity Framework 6 开发系列 目录
- JSP 九大内置对象
- IC/RFID/NFC 关系与区别
- git plumbing 更加底层命令解析-深入理解GIT
- btr_cur_t;
- iPhone&;amp;iPad DFU及恢复模式刷机、降级教程
- Nginx配置性能优化与压力测试webbench【转】
- webpack.config.js 参数简单了解
- DB---数据库中Schema的理解
- Android Static分析
- ECMAScript 6 之 let 和 const 命令
- 修改Vim内注释字体颜色
- kettle中的合并记录使用记录
- pstack 故障排除思路
- Install OpenCV3.0 on Eclipse
- 智能指针 - 现代C++新特性总结
- Python学习-28.Python中的列表切片
- hibernate原生sql封装,报错信息:could not find setter for rownum_
- 认识k_BackingField,微软自己的序列化和反序列化
- Delphi数据类型转换
热门文章
- 使用Swagger生成Spring Boot REST客户端(支持Feign)(待实践)
- [转] Python 常用第三方模块 及PIL介绍
- Action Bar详解(二)
- JAVA设计模式之单例模式(转)
- 【转载】.NET Remoting学习笔记(一)概念
- python xmlrpc
- Space for commit to queue couldn&#39;t be acquired
- 【腾讯bugly干货分享】精神哥手把手教你怎样智斗ANR
- Ubuntu 配置 nfsserver
- ajax 提交所有表单内容及上传图片(文件),以及单独上传某个图片(文件)