1. 问题描述 记录关联问题(Record Linkage):有大量从一个或多个源系统来的记录,其中有些记录可能代表了相同的基础实体. 每个实体有若干个属性,比如姓名.地址.生日.我们需要根据这些属性找到那些代表相同实体的记录. 不幸的是,有些属性值有问题:格式不一致,或有笔误,或信息缺失.如果简单的对这些属性做相等性测试,就会漏掉很多重复记录. 可以看出,下面两条记录看起来是两个不同的咖啡店,其实是同一个咖啡店: 而下面两条记录看起来是两条相同的记录,却是两个不同的业务部门: 2. 样例数据: