网站介绍:文章浏览阅读1.2k次。一、去重方法 dropDuplicates功能:对DF的数据进行去重,如果重复数据有多条,取第一条# 去重API dropDuplicates,无参数是对数据进行整体去重df.dropDuplicates().show()# API 同样可以针对字段进行去重,如下传入age字段,表示只要年龄一样,就认为是重复数据df.dropDuplicates(['age', 'job']).show()二、删除有缺失值的方法 dropna功能:如果数据中包含null,通过dropna来进行判_spake sql 如何过滤负数
- 链接地址:https://blog.csdn.net/feizuiku0116/article/details/121527017
- 链接标题:SparkSQL数据清洗API_spake sql 如何过滤负数-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:576
- 网站标签:spake sql 如何过滤负数