这个要看你想抓取的网页数量是哪种规模的.如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的......嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下面是我的一个想法,欢迎大家讨论.布隆过滤器,大概几十行代码就可以实现.可以节省很多内存(我自己写了一个没有太多优化,占用内存大概是hash存储的1/4甚至更小).-------------------分割-------------------- http://www.xxx.com/path/fil