python常用的udf的简要说明

说明

udf是在pandas数据处理和pyspark数据处理开发过程一个常用的逻辑，即自定义函数。
虽然pandas和pyspark都提供了强大和灵活的内置处理逻辑，但是在遇到一些复杂的处理过程的时候，udf还是无法绕过的一步。

作用范围	方法名	备注
pd.Series	map	把自定义函数映射到每一个元素上，同时可以把dict映射到元素上，通过key自动映射value
pd.Series	apply	只能把自定义函数映射到每一个元素上
pd.DataFrame	map	其实就是pd.Series的map，只能作用在pd.DataFrame的指定列，也就是一个Series上
pd.DataFrame	apply	把自定义函数映射到指定的坐标轴上，axis=0，纵轴，axis=1, 横轴
pd.DataFrame	applymap	把自定义函数映射到每一个元素上
pd.DataFrame	assign	为pd.DataFrame拓展列
pyspark.sql.DataFrame	mapInPandas	把df的每个分区当成pd.DataFrame来处理，需要返回一个df的可迭代器
pyspark.sql.DataFrame	applyInPandas	把group之后的每个分区内容当成pd.DataFrame来处理，返回df

python

#python #udf

python常用的udf的简要说明

https://zermzhang.github.io/2024/05/24/python/udf/python常用的udf的简要说明/

作者

知白

发布于

2024年5月24日

许可协议