728x90
아래와 같은 방법을 사용하면 복수개의 컬럼에 집계 함수를 사용할 수 있다.
from pyspark.sql.functions import countDistinct
df.groupBy("col1").agg(countDistinct("col2").alias("col2"), avg("col3").alias("col3"), ...)
728x90
'빅데이터(BigData) > Spark' 카테고리의 다른 글
ModuleNotFoundError: No module named 'pyspark' 에러 발행할 때 findspark로 해결하기 (0) | 2021.06.14 |
---|---|
pyspark에서 비어있는 DataFrame 만들기 (0) | 2021.04.28 |
스파크에서 로그 레벨 정의하기 (0) | 2021.04.12 |
spark에서 parquet 파일 데이터 조회하기 (0) | 2021.03.24 |
toPandas() 후 조회 시 index 2 is out of bounds for axis 0 with size 에러가 발생할 때 (0) | 2021.03.16 |