pyspark에서 agg에서 multiple columns 사용하기

빅데이터(BigData)/Spark

pyspark에서 agg에서 multiple columns 사용하기

leebaro 2021. 4. 13.

아래와 같은 방법을 사용하면 복수개의 컬럼에 집계 함수를 사용할 수 있다.

from pyspark.sql.functions import countDistinct
df.groupBy("col1").agg(countDistinct("col2").alias("col2"), avg("col3").alias("col3"), ...)

'빅데이터(BigData) > Spark' 카테고리의 다른 글

ModuleNotFoundError: No module named 'pyspark' 에러 발행할 때 findspark로 해결하기 (0)	2021.06.14
pyspark에서 비어있는 DataFrame 만들기 (0)	2021.04.28
스파크에서 로그 레벨 정의하기 (0)	2021.04.12
spark에서 parquet 파일 데이터 조회하기 (0)	2021.03.24
toPandas() 후 조회 시 index 2 is out of bounds for axis 0 with size 에러가 발생할 때 (0)	2021.03.16

현재글pyspark에서 agg에서 multiple columns 사용하기

부모 역할 훈련, Machine Learning, 추천 시스템, 빅데이터, 맥북, Recommendation System, scikit-learn, pandas, git, python, airflow, 파이썬, pyspark, 머신러닝, Association Rule, 추천시스템, 부모역할훈련, 손자병법, PET, spark,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

프로도의 블로그

pyspark에서 agg에서 multiple columns 사용하기

'빅데이터(BigData) > Spark' 카테고리의 다른 글

'빅데이터(BigData)/Spark'의 다른글

티스토리툴바

pyspark에서 agg에서 multiple columns 사용하기

'빅데이터(BigData) > Spark' 카테고리의 다른 글

'빅데이터(BigData)/Spark'의 다른글

관련글

티스토리툴바