1.代码和原理驱动讲解Spark2.4的各个技术点(全部手敲代码),全程图文解读,2.能够对常见的Spark2.4性能问题,使用各种技术进行性能调优,3.熟练掌握Spark2.4全体系的知识和操作,可以开发各种复杂的大数据离线批处理程序,4.透彻......
2024-01-22 23:10 阅读 阅读全文文章浏览阅读401次。一:当有需要CDH安装Apache Spark 2时:老规矩,从官网开始:https://www.cloudera.com/documentation.htmlhttps://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html注意几个重要的提示:二:按步骤进行安装:2.1:查看......
2024-01-23 05:06 阅读 阅读全文文章浏览阅读1.5k次。今天在写spark代码时,遇到一个问题,在进行数据过滤时,总是特别的慢,后来分析了一下代码。 主业务逻辑就是用一个较小的文本数据过滤“大数据”,然后我用spark textFile进行加载然后collect形成一个集......
2024-01-24 04:48 阅读 阅读全文文章浏览阅读5.9k次。将使用过程中遇到的问题,汇总下来以免1个月之后就忘了。程序人生是短暂,新人总会将前人拍倒再沙滩上,只能默默转型,将技术慢慢的移交给年轻人,不从正面竞争,才能保证自己立足之地的稳固。 1 F......
2024-01-24 05:19 阅读 阅读全文文章浏览阅读359次。Hive依赖的前提组件 HDFS 用来存储Hive中表的内容数据(文件) MySQL 用来存储Hive中库和表的结构信息 Hive的安装 下载解压修改名字 修改配置文件 hive-env.sh HADOOP_HOME=/opt/hadoop-2.7.7HIVE_CONF_DIR=/opt/hive-2.3.9/confJAVA_H......
2024-01-24 05:31 阅读 阅读全文在公司6个节点的测试集群运行得好好的,结果也很正常,然后放上60个节点的预生产环境,我勒个擦,搞了我两天,主要是生产环境的那些家伙不配合,一个问题搞得拖啊拖,首先是安全认证问题,截取一两个有意义的吧: ......
2023-10-10 03:35 阅读 阅读全文✒️ 前 言大数据技术栈思维导图大数据常用软件安装指南一、Hadoop分布式文件存储系统——HDFS分布式计算框架——MapReduce集群资源管理器——YARNHadoop单机伪集群环境搭建Hadoop集群环境搭建HDFS常用Shell命令HDFS Java API的使用基于......
2023-10-11 14:30 阅读 阅读全文文章浏览阅读7.1k次,点赞3次,收藏43次。第一关 Scala语言开发环境的部署 1.下载解压在Scala官网根据平台选择下载Scala的安装包scala-2.17.7.tgz解压到/app目录下:mkdir /app //创建 app 目录cd /opttar -zxvf scala-2.12.7.tgz -C /appeducoder平台已......
2024-01-21 12:52 阅读 阅读全文文章浏览阅读1.2k次。昨天装了一天,出现各种问题,比如版本不对应,hadoop的配置文件修改错误等等,我出现了问题照着网上的教程一步步走,最终还是死在了spark版本应该改低点【传送门】的问题上,这个问题我没有找到其他......
2024-01-22 21:48 阅读 阅读全文文章浏览阅读2.3k次。引言这一小节我们将就之前写的几篇博文,从提交Job,到Stage划分,到任务分发,再到任务的执行,这一完整过程做一系统的回顾。在这一过程中理清思路,明确几篇文章中涉及到的调度关系和逻辑关系。Spa......
2024-01-23 10:41 阅读 阅读全文