728x90
반응형

분류 전체보기 256

pyspark에서 비어있는 DataFrame 만들기

loop를 돌면서 DF된 새로운 데이터를 만들고 모든 데이터를 합치려고 할 때 loop 안에서 변수를 정의하면, 기존에 변수에 저장된 데이터가 없어진다. 이런 경우 전역변수를 만들어서 해결해야 한다. 그렇게 하기 위해서는 비어있는 Dataframe을 만들어야하는데 번거로운 작업일 수 있다. 그래서 필자는 아래와 같이 진행했다. 비어있는 문자열 변수 A를 정의한다. for문에서 Dataframe 타입의 변수 B에 새로운 데이터를 삽입한다. A 변수가 문자열 타입이면 첫 번째 반복이므로 변수 B를 삽입한다. A 변수가 DF 타입이면, 두 번째 이후의 반복이므로 unionAll을 이용해서 데이터를 추가한다. from pyspark.sql import DataFrame df_all = '' for _ in ra..

anaconda가 유료화 된 것을 알고 계신가요?

일반적으로 파이썬을 이용해서 머신러닝, 딥러닝 등을 구현할 때 가장 먼저 설치하는 것이 anaconda이다. 아래와 같이 anaconda는 2020년 9월 30일부터 유료화 됐다.(모두가 유료로 써야하는 것은 아니다.) FAQ 페이지 일부 발췌 How do you define commercial usage? We clarified our definition of commercial usage in our Terms of Service in an update on Sept. 30, 2020. The new language states that use by individual hobbyists, students, universities, non-profit organizations, or businesses..

카테고리 없음 2021.04.12

anaconda 유료화에 따른 대안으로 miniconda를 이용하자.

앞에서 언급한 포스팅에서 anaconda가 유료화 된 것을 말씀드렸습니다. 그럼 현재 anaconda를 사용하고 있고, 유료로 써야하는 조건에 해당한다면 아래와 같은 방법을 이용해야합니다. miniconda를 이용하자 docs.conda.io/en/latest/miniconda.html Miniconda — Conda documentation Miniconda Miniconda is a free minimal installer for conda. It is a small, bootstrap version of Anaconda that includes only conda, Python, the packages they depend on, and a small number of other useful pac..

파이썬(Python) 2021.04.12

스파크에서 로그 레벨 정의하기

spark submit을 하면 spark와 관련된 로그들을 확인할 수 있다. 이 때 너무 많은 로그가 나온다면 필요한 로그를 확인할 수 없다. 보통 정상적으로 수행하고 있는 코드라면 경고, 에러인 데이터만 확인하면 될 것이다. 이럴 때는 아래와 같은 코드를 pyspark 코드 상단에 추가하면 원하는 수준의 로그를 확인할 수 있다. from pyspark.sql import SparkSession spark = SparkSession.builder.\ master('xxx').\ appName('xxx').\ getOrCreate() spark.sparkContext.setLogLevel('WARN') 위에서 보여줄 로그의 수준은 아래 유형중에 선택하면 된다. ALL, DEBUG, ERROR, FATAL,..

pandas에서 describe() 사용하면 전체 숫자가 안나올 때

전체 숫자를 확인하고 싶지만 아래와 같이 나오는 경우가 있다. a b c 0 1.005544e+05 1.226455e+04 2.643200e+03 1 5.542502e+03 7.135909e+03 5.435605e+02 이 경우 아래와 같은 코드를 먼저 입력하면 전체 숫자를 볼 수 있다. pd.set_option('float_format', '{:.2f}'.format) a b c 0 10055 12264 2643 1 5542 7135 543 참고 stackoverflow.com/questions/41328633/how-do-i-print-entire-number-in-python-from-describe-function How do I print entire number in Python from de..

728x90
반응형