引用:http://blog.csdn.net/zklth/article/details/11829563

Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码。

此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以UTF-8的编码方式在运行。

public static Text transformTextToUTF8(Text text, String encoding) {
String value = null;
try {
value = new String(text.getBytes(), 0, text.getLength(), encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();}
return new Text(value);
}
 

这里核心代码是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //这里的value是Text类型

若直接使用 String line=value.toString(); 会输出乱码, 这是由Text这个Writable类型造成的。初学时,一直认为和LongWritable对long的封装一样,Text类型是String的Writable封装。但其实Text和String还是有些区别,它是一种UTF-8格式的Writable,而Java中的String是Unicode字符。所以直接使用value.toString()方法,会默认其中的字符都是UTF-8编码过的,因而原本GBK编码的数据使用Text读入后直接使用该方法就会变成乱码。

正确的方法是将输入的Text类型的value转换为字节数组(value.getBytes()),使用String的构造器String(byte[] bytes, int offset, int length, Charset charset),通过使用指定的charset解码指定的byte子数组,构造一个新的String。

如果需要map/reduce输出其它编码格式的数据,需要自己实现OutputFormat,在其中指定编码方式,而不能使用默认的TextOutputFormat。

最新文章

  1. 用Burpsuite破解网站密码
  2. Linux下用C读取配置文件。类似ini这样。
  3. devexpress中ASPxGridView控件初始化赋值
  4. iOS10相册相机闪退bug-b
  5. 从零教你在Linux环境下(ubuntu)如何编译hadoop2.4
  6. javaweb学习总结二十一(servlet开发入门、servlet生命周期以及调用过程)
  7. poj 3984 迷宫问题【bfs+路径记录】
  8. 【POJ 3614 Sunscreen】贪心 优先级队列
  9. 获取当前url并指定url中的字符 效果
  10. SQL Server不能通过外部IP访问,解决方法
  11. java中this关键字解析
  12. ubuntu12.04更新到14.04,win7误删BCD引导项,导致两个系统都无法进入
  13. RecyclerView 实现横向滚动效果
  14. Android 源码解析 之 setContentView
  15. JavaEE开发之基于Eclipse的环境搭建以及Maven Web App的创建
  16. git使用:本地项目推送到gitlab
  17. C++ 属性类
  18. Unable to docker login through CLI - unauthorized: incorrect username or password
  19. Codeforces round 1083
  20. 使用SpringContextHolder获取bean实例

热门文章

  1. linux下ejabberd框架搭建
  2. 利用树的先序和后序遍历打印 os 中的目录树
  3. Angular1.0路由的Hashbang和HTML5模式
  4. 可能是目前市面上唯一能够支持全平台的RTMP推流组件:Windows、Linux、Android、iOS、ARM
  5. JS学习总结之操作文档对象模型
  6. android菜鸟学习笔记9----Activity(二)
  7. android菜鸟学习笔记4----android项目结构
  8. 九度OJ 1069:查找学生信息 (排序、查找)
  9. 高性能 Socket 组件 HP-Socket v3.2.1-RC1 公布
  10. appium不支持Android7.0系统设备解决办法