빅데이터(BigData)/Spark

pyspark dataframe에서 join하고 컬럼을 select 하거나 drop 하기

leebaro 2020. 10. 26.
728x90

spark dataframe에서 조인을 하면 동일한 컬럼이 2개 생길 수 있다. 안 생길 때도 있다.

 

어쨌든 동일한 컬럼이 중복으로 생기면 제거해줘야 한다.

 

이 때는 2가지 방법이 있다. .select()를 이용해 사용할 컬럼만 선택하거나 .drop을 이용해서 필요없는 컬럼을 제거해야 한다.

 

여러 개의 컬럼을 선택하거나 삭제할 때는 아래와 같은 방법을 이용해야  한다.

 

df = (df.join(df_b, (df.mem == df_b.mem) & (df.prd == df_b.prd), "left_anti")

.drop("df_b.mem_no,df_b.prd_no"))

 

 

 

 

spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=join

 

pyspark.sql module — PySpark 3.0.1 documentation

how – str, default inner. Must be one of: inner, cross, outer, full, fullouter, full_outer, left, leftouter, left_outer, right, rightouter, right_outer, semi, leftsemi, left_semi, anti, leftanti and left_anti.

spark.apache.org

 

728x90