pyspark dataframe에서 join하고 컬럼을 select 하거나 drop 하기

빅데이터(BigData)/Spark

pyspark dataframe에서 join하고 컬럼을 select 하거나 drop 하기

leebaro 2020. 10. 26. 17:17

spark dataframe에서 조인을 하면 동일한 컬럼이 2개 생길 수 있다. 안 생길 때도 있다.

어쨌든 동일한 컬럼이 중복으로 생기면 제거해줘야 한다.

이 때는 2가지 방법이 있다. .select()를 이용해 사용할 컬럼만 선택하거나 .drop을 이용해서 필요없는 컬럼을 제거해야 한다.

여러 개의 컬럼을 선택하거나 삭제할 때는 아래와 같은 방법을 이용해야 한다.

df = (df.join(df_b, (df.mem == df_b.mem) & (df.prd == df_b.prd), "left_anti")

.drop("df_b.mem_no,df_b.prd_no"))

spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=join

pyspark.sql module — PySpark 3.0.1 documentation

how – str, default inner. Must be one of: inner, cross, outer, full, fullouter, full_outer, left, leftouter, left_outer, right, rightouter, right_outer, semi, leftsemi, left_semi, anti, leftanti and left_anti.

spark.apache.org

'빅데이터(BigData) > Spark' 카테고리의 다른 글

spark-submit 중 spark config 값 변경하기 (0)	2020.11.20
spark에서 string으로 날짜 데이터 만들기 (0)	2020.11.19
spark에서 list로 dataframe 만들기 (0)	2020.10.19
spark에서 master node로 데이터를 모으기 위해서 collect를 사용하는 방법 (0)	2020.10.19
dataframe의 partition 수 확인하기 (0)	2020.10.16

현재글pyspark dataframe에서 join하고 컬럼을 select 하거나 drop 하기

프로도의 블로그

EPL, 스포츠뉴스, 축구, 프리미어리그, 축구소식, 유럽축구, 정치, pyspark, 부모 역할 훈련, 해외축구, airflow, 파이썬, 스포츠, PET, 배우, 야구, spark, python, 선거, 프로야구,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

프로도의 블로그