文章浏览阅读668次。官网地址1、简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从......
2024-01-24 07:04 阅读 阅读全文文章浏览阅读1.7k次。本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、......
2024-01-23 23:26 阅读 阅读全文文章浏览阅读7k次,点赞2次,收藏6次。package com.donewsimport scala.util.parsing.json.JSONobject Test { def regixJson(json:Option[Any]) =json match { case Some(map: Map[String, Any]) => map } def main(args: Array[String]): Unit_spark sql解析json字符串并获取所有key...
2024-01-22 15:21 阅读 阅读全文文章浏览阅读2.7k次。spark版本:2.4.0用 spark-submit 提交任务到 yarn 报错 :错误显示是 scala 环境中找不到某个类,应该是 jar 包的 scala 编译环境和 spark 的 scala 环境版本不一致。spark 的 scala 版本为 : 2.11.12而我的 sbt 编译的 scala 版......
2024-01-22 22:01 阅读 阅读全文文章浏览阅读178次。Spark 核心编程Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:➢ RDD : 弹性分布式数据集➢ 累加器:分布式共享只写变量➢ 广......
2024-01-23 02:36 阅读 阅读全文文章浏览阅读1.6k次。Scala中并发编程Actor讲解及编码实战_scala-actors.jar,scala-actors-migration.jar...
2024-01-23 18:27 阅读 阅读全文文章浏览阅读2.3k次,点赞4次,收藏7次。01_Spark 快速入门【Anaconda 软件安装】[掌握]使用Python编写Spark代码,首先需要安装Python语言包,此时安装Anaconda科学数据分析包。Anaconda指的是一个开源的Python发行版本,其包含了conda、Pytho......
2024-01-24 05:59 阅读 阅读全文文章浏览阅读2.1w次,点赞36次,收藏34次。Spark SQL之RDD, DataFrame, DataSet详细使用_分别使用sparkrdd、dataframe、dataset、sparksql的方式计算一张离线文本的指标统...
2024-02-29 17:18 阅读 阅读全文文章浏览阅读563次,点赞2次,收藏6次。基于Spark GraphX的图形数据分析为什么需要图计算图(Graph)的基本概念图的术语(一)图的术语(二)图的术语(三)图的术语(四)图的经典表示法Spark GraphX简介GraphX核心抽象GraphX API示......
2024-01-22 14:08 阅读 阅读全文文章浏览阅读1.6k次。出现provided omitted for duplicate的主要原因是这几个包会相互交集甚至包含的关系,意思就是一个包下面的子jar包在另外一个包中也出现。比如:spark core包和spark streaming就出现大量的重复jar包,其实streaming中可......
2024-01-23 09:34 阅读 阅读全文