pyspark单词计数_pyspark对给定数据集进行单词计数的目的-CSDN博客

网站介绍:文章浏览阅读1k次。一、shell模式# 输入数据data = ["hello", "world", "hello", "world"]# 将collection的data转为spark中的rdd并进行操作rdd = sc.parallelize(data)res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# 将rdd转为collection并打印res_rdd_coll = res_rdd.collect()f_pyspark对给定数据集进行单词计数的目的