如果有大型数据文件(如每行为url或者ip或者单词等的),以G为单位的,处理的时候需先切分。普通切分方法直接根据数据条数切分,得到的每个文件大小相近。

但是有时需要将相同数据放到相同文件中。可以使用hash切分法。

public class Test {

	static int HASHLEN = 1000;

	public static void main(String[] args) {
// TODO Auto-generated method stub
String words [] = {"yes" ,"an" ,"go"};
for(String word:words){
int temp = hash(word.toCharArray());
System.out.println(temp);
}
}
public static int hash(char[] word) {
int index = 0;
int i=0;
while(i<word.length) {
index += index * 31 + word[i];
i++;
}
return index % HASHLEN;
}
}

相同单词一定得到相同的返回值,不同单词也可能得到相同返回值

最新文章

  1. 完全卸载oracle11g步骤
  2. ivy 配置 maven代理
  3. 深入理解CSS中的层叠上下文和层叠顺序(转)
  4. [python实现设计模式]-1. 单例模式
  5. SQL Server 2000: 维护计划无法执行
  6. silverlight5开发的翻牌游戏
  7. mysql 权限分配及创建新用户
  8. 记录一下八款开源 Android 游戏引擎
  9. 了解 : angular ng-messages
  10. 安装lnmp集成环境
  11. Ipython自动导入Numpy,pandas等模块
  12. 在linux下,怎么去查看一个运行中的程序, 到底是占用了多少内存
  13. Android绘图机制(四)——使用HelloCharts开源框架搭建一系列炫酷图表,柱形图,折线图,饼状图和动画特效,抽丝剥茧带你认识图表之美
  14. ORM基础之ORM介绍和基础操作
  15. 【QT】二进制读取图像文件测试
  16. 五分钟带你走入MP
  17. 请求报错:“应以Content-Type: application/x-www-form-urlencoded为请求类型,在form表单中提交登录信息。&quot;
  18. activemq5.14+zookeeper3.4.9实现高可用
  19. mac安装mysql8.0的错误
  20. Jedis cluster集群初始化源码剖析

热门文章

  1. 如何查看FQDN
  2. sklearn学习小结
  3. windows10 mysql主从复制配置
  4. 使用C#表达式树为两个对象的相同属性赋值
  5. pkg-config --libs libusb-1.0
  6. Mongodb数据模型
  7. 理解 Cookie、Session、Token
  8. python字典的setdefault的妙用
  9. win10 去掉资源管理器左侧的Creative Cloud Files
  10. 关于enter事件的触发