spark.read的使用

spark在读取csv文件的时候，会涉及到许多参数，这些参数的作用各有不同，这里进行一个简单的介绍。

1. spark读取csv文件

df = spark.read.format('csv').option('sep', '\t').schema(schemas).load(path)

参数	解释	默认值
sep	读取文件内容后，对同一行内容实用该参数指定的分割符进行分割	`,`
encoding	解码方式	`utf-8`
quote	通过当前配置值包裹的内容，不通过sep进行分割	`"`
escape	当quote字符内部还有quote字符时，可以通过当前字符进行转义	`\`
header	是否将文件的第一行作为列名	`false`
inferSchema	从数据进行schema推断	`false`

spark

#spark #read

spark.read的使用

https://zermzhang.github.io/2022/08/31/spark/spark.read的使用/

作者

知白

发布于

2022年8月31日

许可协议