Spark成长之路(6)-Correlation_org.apache.spark.ml.stat.correlation-CSDN博客

网站介绍:文章浏览阅读2.1k次。spark mlspark准备彻底支持DataFrame特性,所以重新了ml的api,原先的以RDD为基础的api都放在了mllib中,但是都是维护阶段,推荐使用ml下的api。相关性有2种相关性,皮尔森积矩相关系数和斯皮尔曼等级相关,具体原理请自行搜索,主要是判断两个向量的关联性。样例import org.apache.spark.ml.linalg.{Matrix, Vectors}impo_org.apache.spark.ml.stat.correlation