pyspark에서 agg에서 multiple columns 사용하기 아래와 같은 방법을 사용하면 복수개의 컬럼에 집계 함수를 사용할 수 있다. from pyspark.sql.functions import countDistinct df.groupBy("col1").agg(countDistinct("col2").alias("col2"), avg("col3").alias("col3"), ...) 빅데이터(BigData)/Spark 2021.04.13