hadoop编码问题,mapreduce中Tex与string的转化 乱码问题
引用:http://blog.csdn.net/zklth/article/details/11829563
Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。
此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的编码方式在运行。
这里核心代码是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //这里的value是Text类型
若直接使用 String line=value.toString(); 会输出乱码, 这是由Text这个Writable类型造成的。初学时,一直认为和LongWritable对long的封装一样,Text类型是String的Writable封装。但其实Text和String还是有些区别,它是一种UTF-8格式的Writable,而Java中的String是Unicode字符。所以直接使用value.toString()方法,会默认其中的字符都是UTF-8编码过的,因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。
正确的方法是将输入的Text类型的value转换为字节数组(value.getBytes()),使用String的构造器String(byte[] bytes, int offset, int length, Charset charset),通过使用指定的charset解码指定的byte子数组,构造一个新的String。
如果需要map/reduce输出其它编码格式的数据,需要自己实现OutputFormat,在其中指定编码方式,而不能使用默认的TextOutputFormat。
最新文章
- 用Burpsuite破解网站密码
- Linux下用C读取配置文件。类似ini这样。
- devexpress中ASPxGridView控件初始化赋值
- iOS10相册相机闪退bug-b
- 从零教你在Linux环境下(ubuntu)如何编译hadoop2.4
- javaweb学习总结二十一(servlet开发入门、servlet生命周期以及调用过程)
- poj 3984 迷宫问题【bfs+路径记录】
- 【POJ 3614 Sunscreen】贪心 优先级队列
- 获取当前url并指定url中的字符 效果
- SQL Server不能通过外部IP访问,解决方法
- java中this关键字解析
- ubuntu12.04更新到14.04,win7误删BCD引导项,导致两个系统都无法进入
- RecyclerView 实现横向滚动效果
- Android 源码解析 之 setContentView
- JavaEE开发之基于Eclipse的环境搭建以及Maven Web App的创建
- git使用:本地项目推送到gitlab
- C++ 属性类
- Unable to docker login through CLI - unauthorized: incorrect username or password
- Codeforces round 1083
- 使用SpringContextHolder获取bean实例
热门文章
- linux下ejabberd框架搭建
- 利用树的先序和后序遍历打印 os 中的目录树
- Angular1.0路由的Hashbang和HTML5模式
- 可能是目前市面上唯一能够支持全平台的RTMP推流组件:Windows、Linux、Android、iOS、ARM
- JS学习总结之操作文档对象模型
- android菜鸟学习笔记9----Activity(二)
- android菜鸟学习笔记4----android项目结构
- 九度OJ 1069:查找学生信息 (排序、查找)
- 高性能 Socket 组件 HP-Socket v3.2.1-RC1 公布
- appium不支持Android7.0系统设备解决办法