文章浏览阅读4.9k次。本实验任务主要完成基于ubuntu环境使用flume对linux系统进行数据采集工作。通过完成本实验任务,要求学生了解并掌握基本的flume采集数据方法以及配置格式,为后续进一步学习flume其它知识点做基础,也为从......
2024-01-22 23:20 阅读 阅读全文文章浏览阅读3.3k次,点赞2次,收藏32次。【学习笔记】尚硅谷大数据项目之Flink实时数仓---数据采集_实时数仓3.0笔记...
2024-01-22 17:47 阅读 阅读全文文章浏览阅读5.5k次。演示Demo:使用Spark处理数据:WordCount 单词计数sc.textFile("hdfs://192.168.157.11:9000/input/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect一、Scala语言基础 1、Scala是一种多范式的编程语言 支持多......
2024-01-22 23:12 阅读 阅读全文大数据技术用了多年时间进行演化,才从一种看起来很炫酷的新技术变成了企业在生产经营中实际部署的服务。其中,数据采集产品迎来了广阔的市场前景,无论国内外,市面上都出现了许多技术不一、良莠不齐的采集软件。...
2024-01-22 23:32 阅读 阅读全文文章浏览阅读1.1k次。文章目录第1章 数据仓库概念第2章 项目需求2.1 项目需求分析第1章 数据仓库概念第2章 项目需求2.1 项目需求分析_大数据项目之电商数仓复购率...
2024-01-12 19:50 阅读 阅读全文项目背景陕西某科技有限公司主要经营数字化信息采集;计算机系统集成;节能环保设备及产品、风力发电设备、安防监控设备、工业自动化设备、电力设备、机电设备、通讯设备、电子产品、仪器仪表、消防设备的研发、销售......
2024-01-22 23:32 阅读 阅读全文文章浏览阅读648次。数据同步工具datax也有集群模式了,现在性能应该还好。sqoop就是调度了map任务集群加机器了记得要在数据库那边加入白名单Flume几十上百台日志服务器的话,直接往hdfs上写也不现实,一般会做两层flume,第二......
2024-01-22 16:23 阅读 阅读全文文章浏览阅读8k次,点赞4次,收藏6次。一、环境配置 IDEA作为常用的开发工具使用maven进行依赖包的统一管理,配置Scala的开发环境,进行Spark Streaming的API开发; 1、下载并破解IDEA,并加入汉化的包到lib,重启生效; 2、在IDEA中......
2024-01-22 23:12 阅读 阅读全文文章浏览阅读2k次,点赞2次,收藏2次。本实验任务主要完成基于ubuntu环境的使用kettle采集excel表格中的数据的工作。通过完成本实验任务,要求学生熟练掌握使用kettle采集excel表格中的数据的方法,为后续实验的开展奠定ETL平台......
2024-01-22 23:22 阅读 阅读全文文章浏览阅读554次。本实验任务主要完成基于ubuntu环境的flume+Nginx+Pig数据采集预处理应用的工作。通过完成本实验任务,要求学生熟练掌握使用flume+Nginx+Pig数据采集预处理应用的方法,为后续实验的开展奠定大数据平台基础,也......
2024-01-22 23:24 阅读 阅读全文