文章浏览阅读409次。大数据技术之_19_Spark学习_08_Spark 机器学习_02_凸优化算法 + 线性回归算法 + FPGrowth 关联规则算法 + 决策树 + 随机森林算法_关联算法 优化方案...
2024-01-23 16:54 阅读 阅读全文资源浏览查阅39次。大数据:Apache技术和大数据实践(Hadoop,Spark,Scala,Hbase,Cassandra...),大数据:Apache技术和大数据实践(Hadoop,Spark,Scala,Hbase,Cassandra...)更多下载资源、学习资料请访问CSDN文库频道...
2024-01-23 08:29 阅读 阅读全文文章浏览阅读800次。基于SparkStreaming对银行日志分析,实时技术架构图通过flume实时采集原日志,送到kafka缓存,SparkStreaming准实时从kafka拿数据,经过ETL、聚合计算送到redis,供前端展示,具体技术及代码见后面博客;除了实时部......
2024-01-23 20:37 阅读 阅读全文数据采集传输主要技术分为两类,一类是离线批处理、另一类是实时数据采集和传输离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和KafkaSqoop:一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据......
2023-10-11 21:53 阅读 阅读全文文章浏览阅读556次。第4章 凸优化算法4.1 梯度下降4.2 牛顿法4.3 拟牛顿法4.4 BFGS 算法第5章 L1、L2 正则化5.1 从经验风险最小化到结构经验最小化5.2 范数与正则项5.3 贝叶斯先验第6章 线性回归算法6.1 数学模型6.2 线性回归的应用6.2 S......
2024-01-22 22:00 阅读 阅读全文文章浏览阅读178次。一. 概述SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,......
2024-01-23 16:50 阅读 阅读全文文章浏览阅读408次。2.4 Action2.4.1 reduce(func)案例1. 作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。2. 需求:创建一个RDD,将所有元素聚合得到结果(1)创建一个RDD[Int]scala> val rdd1 = sc.makeRDD(1 to ......
2024-01-23 13:12 阅读 阅读全文前言Scala是以JVM为运行环境的面向对象的函数式编程语言,它可以直接访问Java类库并且与Java框架进行交互操作。正如之前所介绍,Spark是用Scala语言编写的,Kafka server端也是,那么深入学习Scala对掌握Spark、Kafka是必备掌握技能。......
2023-10-10 03:10 阅读 阅读全文文章浏览阅读943次。大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank_http://47.105.120.152/res/html/page/member/page/log...
2024-01-23 16:54 阅读 阅读全文Spark机器学习:核心技术与实践是由Alex Tellez,Michal Malohlava著作,机械工业出版社出版,本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的......
2023-10-13 06:53 阅读 阅读全文