빅데이터(BigData)/Spark

pyspark에서 agg에서 multiple columns 사용하기

leebaro 2021. 4. 13.
728x90


아래와 같은 방법을 사용하면 복수개의 컬럼에 집계 함수를 사용할 수 있다.

 

from pyspark.sql.functions import countDistinct
df.groupBy("col1").agg(countDistinct("col2").alias("col2"), avg("col3").alias("col3"), ...)

 

728x90