网友收藏 文章浏览阅读460次。楔子《Spark快速大数据分析》学习11 基于MLlib的机器学习 MLlib是Saprk中提供机器学习函数的库。它是专门在集群上并行的情况而设计的。MLlib中包含许多机器学习算法,可以在Spark支持的所有编程语言中使用......
2024-01-23 23:16 阅读
阅读全文 网友收藏 文章浏览阅读134次。在Hadoop的学习当中,不管是自学还是在专业的大数据培训班学习,都需要对Hadoop整体的技术架构里的东西,都做到熟练掌握,这样才能在未来的工作上更加轻松应对。Hadoop技术体系庞杂,开始学习最好还是跟......
2024-01-22 14:27 阅读
阅读全文 网友收藏 文章浏览阅读181次。========== Spark GraphX 概述 ==========1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一......
2024-01-22 22:00 阅读
阅读全文 网友收藏 文章浏览阅读381次。Spark介绍Apache Spark™ is a fast and general engine for large-scale dataprocessing.Spark IntroduceRun programs up to 100x faster than Hadoop MapReduce in memory,or 10x faster on disk.Apache Spark..._带你入门spark...
2024-01-23 08:59 阅读
阅读全文 网友收藏 文章浏览阅读205次。大数据分析引擎:Hive大数据的终极目标:使用SQL语句处理大数据1、Hadoop的终极目标:使用SQL语句来处理大数据()Hive:支持SQL;()Pig:支持PigLatin2、Spark的体系架构中:(*)Spark SQL:类似Hive支持SQL、支......
2024-01-23 01:15 阅读
阅读全文 网友收藏 能够在关系型数据库和hadoop之间,进行数据的双向传输–导入和导出。当导入的时候,可以导到hdfs的路径中,也可以导到hive和hase的一张表里。2.3 Sqoop安装底层是mapreduce。2.3.1 下载并解压1)sqoop官网地址:http://sqoop.apache.org2)下......
2023-10-11 21:53 阅读
阅读全文 网友收藏 文章浏览阅读99次。Java的代理对象废话不多说上手源码public interface MyBusiness { public void method1(); public void method2();}public class MyBusinessImpl implements MyBusiness { @Override public void method1() { Sys..._hdfs的底层rpc方式...
2024-01-23 01:15 阅读
阅读全文 网友收藏 文章浏览阅读88次。好程序员大数据学习路线分享Scala系列之映射Map首先我们先来看一下什么是映射(map)在Scala中,把哈希表这种数据结构叫做映射。1.构建映射在Scala中,有两种Map,一个是immutable包下的Map,该Map中的内容不可......
2024-01-23 12:20 阅读
阅读全文 网友收藏 文章浏览阅读6.1k次,点赞3次,收藏19次。一:俩种时间戳1. 十位时间戳十位时间戳代表的是到秒级别。例如:16442067091582. 十三位时间戳十三位时间戳代表的是到毫秒级别。例如:1644206709二:时间戳相互转化1. 十三位转为十位###......
2024-01-25 07:50 阅读
阅读全文 网友收藏 文章浏览阅读2.6k次,点赞6次,收藏10次。案例一:分析tomcat的访问日志,求访问量最高的两个网页 1、对每个jps的访问量求和 2、排序 3、取前两条记录 结果:ArrayBuffer((oracle.jsp,9), (hadoop.jsp,9))案例二:分析tomcat的访问日志,根据......
2024-01-23 01:13 阅读
阅读全文