import java.io.*;
import java.util.*;
import java.util.regex.*;

class Spelling {

private final HashMap<String, Integer> nWords = new HashMap<String, Integer>();

public Spelling(String file) throws IOException {
BufferedReader in = new BufferedReader(new FileReader(file));
Pattern p = Pattern.compile("\\w+");
for(String temp = ""; temp != null; temp = in.readLine()){
Matcher m = p.matcher(temp.toLowerCase());
while(m.find())
nWords.put((temp = m.group()), nWords.containsKey(temp) ? nWords.get(temp) + 1 : 1);
}
in.close();
// System.out.println(nWords.size());
}

private final ArrayList<String> edits(String word) {
ArrayList<String> result = new ArrayList<String>();
for(int i=0; i < word.length(); ++i) result.add(word.substring(0, i) + word.substring(i+1));
for(int i=0; i < word.length()-1; ++i) result.add(word.substring(0, i) + word.substring(i+1, i+2) + word.substring(i, i+1) + word.substring(i+2));
for(int i=0; i < word.length(); ++i) for(char c='a'; c <= 'z'; ++c) result.add(word.substring(0, i) + String.valueOf(c) + word.substring(i+1));
for(int i=0; i <= word.length(); ++i) for(char c='a'; c <= 'z'; ++c) result.add(word.substring(0, i) + String.valueOf(c) + word.substring(i));
return result;
}

public final String correct(String word) {
//如果词袋子里面含有这个词直接返回
if(nWords.containsKey(word)) return word;
//没有这个词的话,那就认为这个词拼写错误 找到所有的可能的基于这个词的可能词汇
ArrayList<String> list = edits(word);
HashMap<Integer, String> candidates = new HashMap<Integer, String>();
//在猜想的词汇表中如果与字典中的词重合,那就放进候选列表里面
for(String s : list) if(nWords.containsKey(s)) candidates.put(nWords.get(s),s);
//如果在候选列表里面有候选
if(candidates.size() > 0) return candidates.get(Collections.max(candidates.keySet()));
//没有候选的时候怎么办?
for(String s : list)
for(String w : edits(s))
//进行第二次匹配,拿出猜想的可能词汇,再进行一次猜想, 再不行的话,直接返回原来的word
if(nWords.containsKey(w))
candidates.put(nWords.get(w),w);
return candidates.size() > 0 ? candidates.get(Collections.max(candidates.keySet())) : word;
}

public static void main(String args[]) throws IOException {
if(args.length > 0) System.out.println((new Spelling("big.txt")).correct(args[0]));
}

}

http://raelcunha.com/spell-correct.php

最新文章

  1. Java连接SqlServer2008数据库(转)
  2. Nginx Debug Log
  3. 手把手教你调试Linux C++ 代码(一步到位包含静态库和动态库调试)
  4. php正则表达式治疗结巴
  5. 自然语言6_treebank句子解析
  6. 洛谷P1475 控制公司 Controlling Companies
  7. Xcode插件筛选
  8. Js之Screen对象
  9. 解决ecshop进入后台服务器出现500的问题
  10. 从Git到GitHub,详细教程
  11. macos 远程 windows 10
  12. [2]朝花夕拾-JAVA注解、PHP注解?
  13. VC++封装的时间类
  14. java虚拟机学习-Java常量池理解与总结(13-2)
  15. TensorFlow图像识别(物体分类)入门教程
  16. Xtreme8.0 - Back to Square 1 数学
  17. Ionic Js二:背景层
  18. bzoj 3282
  19. 2.aop中几个注解的含义
  20. request.getQueryString()代表的含义

热门文章

  1. 数据分析R语言(1)
  2. 移动端web常见问题解决方案
  3. 图片加载控件Fresco
  4. python 3 并发编程多进程 paramiko 模块
  5. 用css完成根据子元素不同书写样式
  6. 【转】BNF和EBNF的含义与用法
  7. Qt之任务栏系统托盘图标
  8. node cluster模块的使用和测试
  9. 十 Django框架,Cookie
  10. 关于ios::sync_with_stdio(false);和 cin.tie(0)加速c++输入输出流