谷歌simhash算法过滤重复文本