728x90
spark를 실행 중에 config 값을 변경해야하는 경우가 있다.
필자 같은 경우에는 처음 spark submit을 할 때는 spark.master를 yarn을 사용하다가 중간에 local mode로 변경해야 하는 경우가 있다.
조금 더 자세히 이야기를 하자면 yarn cluster에서는 필자가 접근하려는 db에 방화벽이 있기 때문에 접속을 못하고 driver node에서만 접근이 가능했기 때문에 사용했다.
# spark session을 stand alone node로 변경
conf = spark.sparkContext._conf.setAll([('spark.master', 'local[10]'),('spark.driver.memory','8g')])
spark.sparkContext.stop()
spark = SparkSession \
.builder \
.config(conf=conf) \
.appName("name") \
.enableHiveSupport() \
.getOrCreate()
아래 명령어를 이용하면 현재 설정된 config 값을 확인할 수 있다.
sc.getConf().getAll()
참고
stackoverflow.com/questions/41886346/spark-2-1-0-session-config-settings-pyspark
728x90
'빅데이터(BigData) > Spark' 카테고리의 다른 글
spark에서 pandas 대신 databricks의 koalas 이용하기 (0) | 2020.12.03 |
---|---|
pyspark dataframe join 후 원하는 column 선택하기 (0) | 2020.12.01 |
spark에서 string으로 날짜 데이터 만들기 (0) | 2020.11.19 |
pyspark dataframe에서 join하고 컬럼을 select 하거나 drop 하기 (0) | 2020.10.26 |
spark에서 list로 dataframe 만들기 (0) | 2020.10.19 |