网站介绍:文章浏览阅读1k次。一、shell模式# 输入数据data = ["hello", "world", "hello", "world"]# 将collection的data转为spark中的rdd并进行操作rdd = sc.parallelize(data)res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# 将rdd转为collection并打印res_rdd_coll = res_rdd.collect()f_pyspark对给定数据集进行单词计数的目的
- 链接地址:https://blog.csdn.net/u010916338/article/details/106132757
- 链接标题:pyspark单词计数_pyspark对给定数据集进行单词计数的目的-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:8117
- 网站标签:pyspark对给定数据集进行单词计数的目的