转自:孤影醉残阳 http://hi.baidu.com/siyupy/item/e4bb218fedf4a0864414cfad 随机抽样问题(蓄水池问题Reservoir Sampling) 随即抽样问题: 要求从N个元素中随机的抽取k个元素,其中N无法确定. 是在 <计算机程序设计与艺术> 中看到的这个题目,书中只给出了解法,没给出证明. 解决方法是叫Reservoir Sampling (蓄水池抽样) Init : a reservoir with the size: k for i=
最近由于需要大概研究了一下MYSQL的随机抽取实现方法.举个例子,要从tablename表中随机提取一条记录,大家一般的写法就是:SELECT * FROM tablename ORDER BY RAND() LIMIT 1. 但是,后来我查了一下MYSQL的官方手册,里面针对RAND()的提示大概意思就是,在ORDER BY从句里面不能使用RAND()函数,因为这样会导致数据列被多次扫描.但是在MYSQL 3.23版本中,仍然可以通过ORDER BY RAND()来实现随机. 但是真正测试一下
起因:之前用蓄水池抽样,算法精简,但直观性很差. 所以这次采用了简单的,为没一个行,赋值一个随机值,然后取 最大的K个作为,随机样本. 基本思路:为每一个行(record,记录,实体) 赋一个random值. 每个map取一个Top K 值. 由于是求topk,可以设置一个reduce,再求 Top K map阶段:一般思路, 读取所有的,sort,取前 10000.------>运行时发现巨慢. 之后换成了 小顶堆 求TopK.速度就很快了. import heapqimport random
select a.* from ( select a.*,rand(12345) as random from tripdata a ) a where random between 0 and 0.2; a.country a.city a.visitors a.random 阿联酋 迪拜 268 0.3618031071604718 阿联酋 迪拜 108 0.932993485288541 澳大利亚 墨尔本 230 0.8330913489710237 澳大利亚 墨尔本 188 0.3264