빅데이터(BigData)/Spark

dataframe의 partition 수 확인하기

leebaro 2020. 10. 16.
728x90

 

만들어 놓은 데이터프레임이 몇개로 분할되어 있는지 확인하고 싶을 때는 아래와 같이 실행하면 파티션 수를 확인할 수 있다.

 

 

df.rdd.getNumPartitions()

 

 

추가로 파티션을 조정하고 싶다면

 

repartition() 이나 Coalesce()를 사용할 수 있다.

 

df = df.repartition(5)

또는

df = df.coalesce(5)

 

참고

sparkbyexamples.com/pyspark/pyspark-repartition-vs-coalesce/

 

728x90