【spark】metrics信息的获取(监听器等)_spark metrics-CSDN博客

网站介绍:文章浏览阅读2.2k次。一、背景最近看到了一篇文章,说的是spark小文件合并的问题Spark 小文件合并优化实践:https://mp.weixin.qq.com/s/195nFBH0kpZEXekHiQAfrA(作者:偷闲小苑)其实关于小文件合并我之前也写过类似的文章,大体的方案也就是1、存之前做一个数据量的预估,然后repartition/coalesce2、存完之后,触发一个merge合并小文件(可以是hive也可以是spark任务)3、使用一些数据湖(delta lake,hudi,iceber_spark metrics