'분류 전체보기' 카테고리의 글 목록 (16 Page)

728x90

분류 전체보기 256

아래와 같은 코드를 사용하면 데이터프레임을 쉽게 만들 수 있다. import pandas as pd order_data = {'mem_no': [1, 2, 3, 4], 'prd_no': [10, 20, 30, 40] } df = pd.DataFrame(order_data) print(df)

파이썬(Python)/Pandas 2021.02.03

pandas dataframe에 row 추가하기

mem_no prd_no 0 100 1000 1 200 2000 위와 같은 df라는 이름의 DataFrame이 있을 때 한 행을 추가하고 싶을 수 있다. 이 때는 아래와 같이 진행하면 된다. import pandas as pd list1 = [300, 3000] df2 = df.append(pd.Series(list1, index=df.columns), ignore_index=True) df2 위와 같이 처리하면 한 행이 추가된 것을 확인할 수 있다. 참고 emilkwak.github.io/dataframe-list-row-append-ignore-index

파이썬(Python)/Pandas 2021.02.03

airflow에서 sql_sensor 사용하기

sql_sensor는 airflow에서 sql 조회 결과에 따라서 다음 task로 넘어갈지 여부를 체크하는 작업입니다. wait_sql = SqlSensor( task_id = 'wait_sql', conn_id='oracle_db', sql=""" select 1 from BATCH_TABLE where batch_nm = '{batch_nm}' and batch_date = '{batch_date}'""".format(batch_nm = 'ORDER', batch_date = current_part_date), poke_interval=wait_poke_intervql, timeout=wait_timeout, dag=dag ) poke_interval은 얼마 주기로 쿼리를 실행할지 정하는 것입니다.시..

빅데이터(BigData)/Airflow 2021.01.20

airflow의 connections에서 oracle 연결 정보 설정하기

airflow 에서 oracle에 연결하기 위해서는 아래와 같이 세팅하면 된다. 모든 컬럼 값을 입력하고, 추가적으로 Extra에 SID와 dns를 입력하면 된다. dns는 Host와 같은 IP를 입력하면 된다. 정상적으로 입력됐는지 확인은 아래와 같이 Data Profiling에서 Ad Hoc Query를 선택 후 해당 connection으로 쿼리를 날려보면 된다.

빅데이터(BigData)/Airflow 2021.01.20

spark에서 oracle로 데이터 입력 시 ORA-01861 오류가 발생할 때

pyspark에서 oracle로 데이터를 넣을 때 아래과 같은 에러가 발생할 때가 있다. ORA-01861 : 리터럴이 형식 문자열과 일치하지 않음 직접적인 원인은 spark의 데이터 타입과 오라클의 데이터 타입이 일치하지 않는 경우에 발생한다. 필자와 같은 경우에는 날짜타입의 컬럼일 때 위와 같은 에러가 발생했다. 이 문제를 해결하기 위해서는 spark에서 data frame의 컬럼의 데이터 타입을 변경해야 한다. 수정 전에 DF의 컬럼 타입을 보면 아래와 같다. DataFrame[visit_dt : string] spark에서 날짜타입이 string일 때 timestamp로 변경하면 oracle의 컬럼이 date 타입일 때 문제가 해결된다. 데이터 타입을 수정하는 방법은 아래와 같다. df_rslt ..

빅데이터(BigData)/Spark 2021.01.18

measure와 metric의 차이

measure : 측정값 metric : 측정항목 metric은 measure에서 파생된 용어라고 볼 수 있다고 한다. 즉, 같은 의미로 써도 된다는 것으로 볼 수 있다. 하지만 아래 정의를 보며 궂이 나누자면 measure는 측정하는 값 자제에 중심을 두고, metric은 측정하는 항목에 중심을 둔다고 볼 수 있을 것 같다. A measure As defined in the Merriam-Webster dictionary, a measure is “an amount or degree of something.” Let’s have a look at an example to make things clear: As a result of a quantification we have two measures: “..

번역 2021.01.08

visual studio code에서 열 선택 모드 단축키 이용하기

맥북 기준 option + command + (방향키 위 또는 방향키 아래) 참고 code.visualstudio.com/docs/editor/codebasics

개발환경 2021.01.07

spark에서 pandas 대신 databricks의 koalas 이용하기

pandas는 spark에서 분산 병렬 처리가 되지 않기 때문에 대용량 데이터를 다루기에는 한계가 있다. 그렇다고 spark의 dataframe을 이용하면 pandas에 비해서 기능이 부족하거나 불편한 경우가 있다. 이런 경우에는 databricks에서 만든 koalas를 이용하면 된다. koalas는 분산 병렬처리가 가능하고, 문법도 pandas와 유사해서 어려움 없이 이용할 수 있다. 아래는 koalas를 이용해 df의 describe() 함수를 이용하는 방법이다. import databricks.koalas as ks sdf = spark.sql("select cnt from table") # koalas df로 변환 kdf = sdf.to_koalas() kdf.describe() ##결과 cou..

빅데이터(BigData)/Spark 2020.12.03

python에서 코드 중간에서 종료하기

아래와 같이 exit() 함수를 이용하면 파이썬 코드를 종료할 수 있다. import sys sys.exit() sys.exit("종료")

파이썬(Python) 2020.12.02

pyspark dataframe join 후 원하는 column 선택하기

spark에서 df를 조인한 후에 원하는 컬럼을 선택해야 한다. 이때 sql처럼 편하게 "*" 기호를 쓰거나, 원하는 컬럼을 선택하기를 원한다. 이 때는 아래와 같이 하면된다. "*"를 쓰기 위해서는 alias로 df의 별칭을 지정해줘야 한다. df = (df_a.alias("a").join(df_b.alias("b"), df_a.prd_no == df_b.prd_no) .selectExpr("a.*", "b.mem_no"))

빅데이터(BigData)/Spark 2020.12.01

1 ··· 13 14 15 16 17 18 19 ··· 26

spark, scikit-learn, Association Rule, airflow, pandas, Machine Learning, 부모 역할 훈련, pyspark, Recommendation System, 파이썬, 머신러닝, 부모역할훈련, 손자병법, 추천 시스템, PET, 추천시스템, git, 맥북, python, 빅데이터,

Today :
Yesterday :

728x90

프로도의 블로그

분류 전체보기 256

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28