文章浏览阅读6.3k次,点赞47次,收藏10次。 大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了......
2024-01-24 00:05 阅读 阅读全文文章浏览阅读241次。两大能力:1 维护waiting jobs和active jobs,维护waiting stages、active stages和failed stages,以及与jobs的映射关系;2 .面向stage的切分_spark dagscheduler java demo...
2024-01-22 15:06 阅读 阅读全文文章浏览阅读621次。数据文件为:“JsonTest02.json”用SparkCore或SparkSQL实现均可,需求如下:统计每个用户充值总金额并降序排序(10分)统计所有系统类型登录总次数并降序排序(10分)统计所有用户在各省登录的次数的Top3(20分......
2024-01-22 22:32 阅读 阅读全文文章浏览阅读1.2k次。需求案例数据格式* 编号 字段名称 字段类型 字段含义 * 1 date String 用户点击行为的日期 * 2 user_id Long 用户的ID * 3 session_id String Session的ID * 4 page_id Long 某个页面的ID * 5 action_time String 动作的时......
2024-01-23 20:01 阅读 阅读全文文章浏览阅读8.5w次,点赞8次,收藏49次。前言:我们来学习Spark基础吧!一、搭建学习环境1、下载spark我使用的是spark1.6.2,下载地址我们直接下载,然后解压。我们看看里面的目录2、python-shell我们运行bin/pyspark之后就进入了spark......
2024-01-23 23:46 阅读 阅读全文文章浏览阅读7.5k次。Standalone集群模式集群角色介绍:Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么我们先来学习Spark自带的standalone集群模式了解一下它的架构及运行机制。Standalone集......
2024-01-24 04:15 阅读 阅读全文文章浏览阅读5.1k次,点赞10次,收藏54次。1 Spark背景 Spark是一个加州大学伯克利分校(UC Berkeley AMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰......
2024-01-24 04:30 阅读 阅读全文文章浏览阅读981次。本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Python编写独立程序。 你可以查看Spark编程指南了解完整的参考。开始下面的快速......
2024-01-24 08:08 阅读 阅读全文文章浏览阅读683次。1. 什么是Spark StreamingSpark Streaming类似于Apache Strom, 用于流式数据的处理.根据其官网解释, Spark Streaming有着高吞吐量和高容错的特点.Spark Streaming支持的数据源有很多, 例如:Kafka, Flume, Twitter, ZeroMQ和简单的TCP套接......
2024-01-23 23:00 阅读 阅读全文文章浏览阅读1.5k次。scalaapply方法apply方法既不是主构造函数,也不是辅助构造函数,他只是一个语法糖方便创建对象。 没有在伴随对象实现apply的方法,必须用new关键字创建对象 apply方法必须实现在伴随对象里面 class Person(name......
2024-01-23 10:54 阅读 阅读全文