基于HDFS,Spark Stream的实时统计_spark-streaming对hdfs的数据进行热搜词统计-CSDN博客

网站介绍:文章浏览阅读3k次。最近在搞一个小功能,具体要求是:数据到了hdfs,然后统计。需求很简,程序实现也挺简单的,但是目录有点复杂,如base目录下面有/业务/省/yyyyMMdd/h/aa.txt文件如果是按照之前的约定的方式的话,是可以实现的,但是这个文件夹太复杂了,所以按照约定的方式来弄好像难度也挺复杂的,所以这种方法我放弃了。还有一种方案就是把文件目录放到kafka中,然后订阅kafka的内容,取得了之后将参_spark-streaming对hdfs的数据进行热搜词统计