spark的结构化API_sparkapi_一智哇的博客-CSDN博客

网站介绍:1.结构化API概述Apache Spark是一个用于大规模数据处理的快速,可靠,容错的分布式计算框架。Spark有两套基本的API(Application Programming Interface,应用程序编程接口):低级的“非结构化”API:弹性分布式数据集(RDD)高级的“结构化”API:类型安全的结构化数据API——Dataset结构化API是处理各种数据类型的工具,可处理非结构化的日志文件,半结构化的CSV文件,以及高度结构化的Parquet文件。结构化API指以下三种核心分布集_sparkapi