spark源码解读2之水塘抽样算法(Reservoir Sampling)_spark用limit是水潭抽样吗-CSDN博客

网站介绍:文章浏览阅读3.4k次。更多代码请见:https://github.com/xubo245/SparkLearningspark源码解读系列环境:spark-1.5.2、hadoop-2.6.0、scala-2.10.41.理解  问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行?  首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的获_spark用limit是水潭抽样吗