pyspark dataframe join 후 원하는 column 선택하기 spark에서 df를 조인한 후에 원하는 컬럼을 선택해야 한다. 이때 sql처럼 편하게 "*" 기호를 쓰거나, 원하는 컬럼을 선택하기를 원한다. 이 때는 아래와 같이 하면된다. "*"를 쓰기 위해서는 alias로 df의 별칭을 지정해줘야 한다. df = (df_a.alias("a").join(df_b.alias("b"), df_a.prd_no == df_b.prd_no) .selectExpr("a.*", "b.mem_no")) 빅데이터(BigData)/Spark 2020.12.01
pyspark dataframe에서 join하고 컬럼을 select 하거나 drop 하기 spark dataframe에서 조인을 하면 동일한 컬럼이 2개 생길 수 있다. 안 생길 때도 있다. 어쨌든 동일한 컬럼이 중복으로 생기면 제거해줘야 한다. 이 때는 2가지 방법이 있다. .select()를 이용해 사용할 컬럼만 선택하거나 .drop을 이용해서 필요없는 컬럼을 제거해야 한다. 여러 개의 컬럼을 선택하거나 삭제할 때는 아래와 같은 방법을 이용해야 한다. df = (df.join(df_b, (df.mem == df_b.mem) & (df.prd == df_b.prd), "left_anti") .drop("df_b.mem_no,df_b.prd_no")) spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=join pyspark.. 빅데이터(BigData)/Spark 2020.10.26