728x90
spark dataframe에서 조인을 하면 동일한 컬럼이 2개 생길 수 있다. 안 생길 때도 있다.
어쨌든 동일한 컬럼이 중복으로 생기면 제거해줘야 한다.
이 때는 2가지 방법이 있다. .select()를 이용해 사용할 컬럼만 선택하거나 .drop을 이용해서 필요없는 컬럼을 제거해야 한다.
여러 개의 컬럼을 선택하거나 삭제할 때는 아래와 같은 방법을 이용해야 한다.
df = (df.join(df_b, (df.mem == df_b.mem) & (df.prd == df_b.prd), "left_anti")
.drop("df_b.mem_no,df_b.prd_no"))
spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=join
728x90
'빅데이터(BigData) > Spark' 카테고리의 다른 글
spark-submit 중 spark config 값 변경하기 (0) | 2020.11.20 |
---|---|
spark에서 string으로 날짜 데이터 만들기 (0) | 2020.11.19 |
spark에서 list로 dataframe 만들기 (0) | 2020.10.19 |
spark에서 master node로 데이터를 모으기 위해서 collect를 사용하는 방법 (0) | 2020.10.19 |
dataframe의 partition 수 확인하기 (0) | 2020.10.16 |