728x90
만들어 놓은 데이터프레임이 몇개로 분할되어 있는지 확인하고 싶을 때는 아래와 같이 실행하면 파티션 수를 확인할 수 있다.
df.rdd.getNumPartitions()
추가로 파티션을 조정하고 싶다면
repartition() 이나 Coalesce()를 사용할 수 있다.
df = df.repartition(5)
또는
df = df.coalesce(5)
참고
sparkbyexamples.com/pyspark/pyspark-repartition-vs-coalesce/
728x90