빅데이터(BigData)/Spark

pyspark dataframe join 후 원하는 column 선택하기

leebaro 2020. 12. 1.
728x90

spark에서 df를 조인한 후에 원하는 컬럼을 선택해야 한다.

이때 sql처럼 편하게 "*" 기호를 쓰거나, 원하는 컬럼을 선택하기를 원한다.

 

이 때는 아래와 같이 하면된다. "*"를 쓰기 위해서는 alias로 df의 별칭을 지정해줘야 한다. 

df = (df_a.alias("a").join(df_b.alias("b"), df_a.prd_no == df_b.prd_no)
            .selectExpr("a.*", "b.mem_no"))
728x90