基于HDFS,Spark Stream的实时统计_spark-streaming对hdfs的数据进行热搜词统计-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读3k次。最近在搞一个小功能，具体要求是：数据到了hdfs，然后统计。需求很简，程序实现也挺简单的，但是目录有点复杂，如base目录下面有/业务/省/yyyyMMdd/h/aa.txt文件如果是按照之前的约定的方式的话，是可以实现的，但是这个文件夹太复杂了，所以按照约定的方式来弄好像难度也挺复杂的，所以这种方法我放弃了。还有一种方案就是把文件目录放到kafka中，然后订阅kafka的内容，取得了之后将参_spark-streaming对hdfs的数据进行热搜词统计

链接地址：https://blog.csdn.net/fjr_huoniao/article/details/51769594
链接标题：基于HDFS,Spark Stream的实时统计_spark-streaming对hdfs的数据进行热搜词统计-CSDN博客
所属网站：blog.csdn.net
被收藏次数：180
网站标签：spark-streaming对hdfs的数据进行热搜词统计

分享到各大网站