基于Pyspark 的 Spark structured streaming 项目 <<数据实时流清洗>>_spark structured streaming pyspark kafka-CSDN博客

网站介绍:文章浏览阅读552次。项目描述:概要:从Kafka中读取数据,在DataFrame 中用 spark.sql() 方法内写 业务逻辑,对数据进行清洗,包含解析 IP 地址,解析 电话号码。(通过调用Hive 的 UDF 函数来实现)项目代码:# -*- coding: utf-8 -*-""" @CreateTime :2020/12/14 18:33 @Author : Liangde @Description : 数据上游 Kafka topic_sip_full_r1._spark structured streaming pyspark kafka