spark流数据处理:SparkStreaming的使用_sparksparkling真打实践资源-CSDN文库

网站介绍:资源浏览查阅101次。spark流数据处理:SparkStreaming的使用,SparkStreaming是Spark核心API的扩展,用于可伸缩、高吞吐量、可容错地处理在线流数据。SparkStreaming可以从很多数据源获取数据,比如:Kafka、Flume、Twitter、ZeroMQ、Kinesis或TCP连接等,并可以用很多高层算子(map/reduce/join/window等)来方便地处理这些数据。最后处理过的数据还可以推送到文件系统、数据库和在线监控页面等。实际上,你也可以在数据流上使用Spark的机器学习和图计算算法。SparkStreaming内部工作机制概图如下所示。SparkStreaming接收在线数据流并将其划分成批(batch),然后通过更多下载资源、学习资料请访问CSDN文库频道