使用Levenshtein计算相似度距离,装下模块,调用下函数就好. 拿idf还得自己去算权重,而且不一定准确度高,一般做idf还得做词性归一化,把动词形容词什么全部转成名词,很麻烦. Levenshtein.distance(str1,str2) 计算编辑距离(也称Levenshtein距离).是描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入.删除.替换.如 例如将eeba转变成abac: ① eba(删除第一个e) ② aba(将剩下的e替换成a) ③ abac(在末尾插