网友收藏 文章浏览阅读559次。标示符:就是程序员定义的变量名、函数名注意:标识符可以由字母、下划线、和数字组成;不能以数字开头;不能与关键字重名。关键字:就是在 Python 内部已经使用的标识符;具有特殊的功能和含义;开......
2024-01-22 17:50 阅读
阅读全文 网友收藏 文章浏览阅读301次。大数据学习之路(一) JAVA篇(1)正文篇JVM (总体概述)什么是 JVM ?JVM它是Java Virtual Machine 的缩写,主要是通过在实际计算机模仿各种计算机功能来实现的,组成部分包括堆、方法区、栈、本地方法栈、程......
2024-01-23 08:29 阅读
阅读全文 网友收藏 一、场景在用maven对 hadoop,spark等进行源码编译的时候,经常会遇到编译报错。以下为一些解决办法。二、报错与分析排查:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-remote-resources-plugin:1.5:process (default) on project spark_maven 编......
2023-10-11 14:22 阅读
阅读全文 网友收藏 文章浏览阅读9.4k次,点赞80次,收藏231次。花了5个小时,为你整理出了这几个牛X 的 github大数据项目_github优秀的flink项目...
2024-01-22 14:23 阅读
阅读全文 网友收藏 文章浏览阅读220次。根据官网介绍DataFrame、DataSet:Dataset是一个分布式的数据集合。是spark1.6版本才出来的。它提供RDD中的有点(强类型、lambda表达式、优化SparkSQL执行引擎)。DataFrame中能用的东西大部分在DataSet都能用。DataSet能......
2024-01-23 20:39 阅读
阅读全文 网友收藏 文章浏览阅读392次。学习目标:理解Spark框架的使用创建Maven项目:为了方便,将创建的新项目当成父项目,删除src创建子项目提示:这里可以添加要学的内容例如:1、 增加Scala插件当jdk版本为1.8时,选用scala2.1.0创建scala项目进......
2024-01-23 20:01 阅读
阅读全文 网友收藏 1.代码和原理驱动讲解Spark2.4的各个技术点(全部手敲代码),全程图文解读,2.能够对常见的Spark2.4性能问题,使用各种技术进行性能调优,3.熟练掌握Spark2.4全体系的知识和操作,可以开发各种复杂的大数据离线批处理程序,4.透彻......
2024-01-22 23:10 阅读
阅读全文 网友收藏 文章浏览阅读168次。1、解压缩文件将spark-2.4.5-bin-without-hadoop-scala-2.12.tgz文件上传到Linux并解压缩,放置在指定位置,路径中不要包含中文或空格,课件后续如果涉及到解压缩操作,不再强调。 tar -zxvf spark-2.4.5-bin-without-hadoop-scala-......
2024-01-24 05:58 阅读
阅读全文 网友收藏 文章浏览阅读153次。一、大数据相关工作介绍大数据方向的工作目前主要分为三个主要方向:1. 大数据工程师2. 数据分析师3. 大数据科学家4. 其他(数据挖掘等)二、大数据工程师的技能要求附上大数据工程师技能图:必须掌握......
2024-01-23 10:45 阅读
阅读全文 网友收藏 文章浏览阅读2.2k次。外部表和内部表区别和实际运用:前提知识储备:1、hive存储的数据在hdfs上,建表的时候实际上是在hdfs上创建目录而已。2、hive的元数据信息实际上是存在于mysql中(通常的做法)3、访问hive的数据是先访问......
2024-01-12 19:42 阅读
阅读全文