文章浏览阅读167次。目录DStream、RDD、DataFrame 的相互转换spark 比 MapReduce 快的原因1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来2、spark -- 粗粒度的资源调度,MapReduce -- 细粒度的资源调度3、DAG有向无环图DStream、RDD、DataFr......
2024-01-24 00:23 阅读 阅读全文文章浏览阅读506次。1、基本方法封装,可以自行扩展package utilsimport java.sql.ResultSetimport dataSource._object BaseDaoFactory { /** * 根据数据源类的名称获取连接 * @p..._scala dataframe......
2024-01-23 03:30 阅读 阅读全文文章浏览阅读123次。目录DataFrameDemoDataSetDemoSparkToHiveSparkToMysqlDataFrameDemopackage cn.kgc.dsimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark......_spark dataset mysql...
2024-01-23 04:56 阅读 阅读全文注意:下面的例子均在scala shell中演示的一、数据结构介绍对于Scala来说,同时支持可变集合和不可变集合,不可变集合一直都不会发生变化,可以安全的并发访问。Scala优先采用不可变集合,同时几乎所有的集合类,Scala都同时......
2023-10-10 03:22 阅读 阅读全文文章浏览阅读687次。spark dataframe的某列转为 scala list[string]_spark sql 取出某列转list...
2024-01-23 09:54 阅读 阅读全文文章浏览阅读199次。文章目录Spark面试八股文1. Spark 的运行流程?1. Spark 的运行流程?Spark运行流程具体运行流程如下:1. SparkContext 向资源管理器注册并向资源管理器申请运行 Executor2. 资源管理器分配 Executor,然后资源管理器启......
2024-01-22 17:34 阅读 阅读全文文章浏览阅读6.4k次,点赞23次,收藏70次。RDD代表弹性分布式数据集。它是记录的只读分区集合。RDD是Spark的基本数据结构。它允许程序员以容错方式在大型集群上执行内存计算。与RDD不同,数据以列的形式组织起来,类似于关......
2024-01-24 00:13 阅读 阅读全文文章浏览阅读10w+次,点赞54次,收藏231次。把dataframe转换为list输入多维dataframe: df = pd.DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9], 'b':[3,5,6,2,4,6,7,8,7,8,9]})把a列的元素转换成list:# 方法1df['a'].values.tolist()# 方法2df['a'].tolist()把a列中不重复的元......
2024-03-05 10:02 阅读 阅读全文文章浏览阅读463次。 什么是Scala?一种强大且功能强大的编程语言,改变了大数据的世界。 Scala的能力足以超越现有最快的编程语言的速度。AAA教育小编待着大家深入的认识一下什么是Scala以及Scala在大数据分析中意义价值,......
2024-01-22 14:09 阅读 阅读全文文章浏览阅读975次。DataFrame与RDD的区别看上图,左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构,而右侧的DataFrame就不一样了,它更像是一个二维表格,在这个二维表格里面,有行有列。使得Spark......
2024-01-23 20:39 阅读 阅读全文