SparkSQL数据清洗API_spake sql 如何过滤负数-CSDN博客

网站介绍:文章浏览阅读1.2k次。一、去重方法 dropDuplicates功能:对DF的数据进行去重,如果重复数据有多条,取第一条# 去重API dropDuplicates,无参数是对数据进行整体去重df.dropDuplicates().show()# API 同样可以针对字段进行去重,如下传入age字段,表示只要年龄一样,就认为是重复数据df.dropDuplicates(['age', 'job']).show()二、删除有缺失值的方法 dropna功能:如果数据中包含null,通过dropna来进行判_spake sql 如何过滤负数