728x90
반응형

전체 글 254

"전문가를 위한 파이썬" 리뷰

"전문가를 위한 파이썬"이라는 책의 1판을 봤었는데 도움이 됐었다. 2판을 읽으며 파이썬에 대해 더 깊이 알고 싶었다. 전에 쓰던 기능 말고, 파이썬이 숨겨놓은 진짜 힘을 끌어낼 수 있을 것이라는 기대감에 이 책을 읽기 시작했다.결론부터 말하자면, 이 책은 내 기대를 훨씬 뛰어넘었다. 그냥 문법이나 기본적인 사용법만 알려주는 것이 아니라, 파이썬 언어 자체를 엄청 깊게 파고들어갔다. 마치 파이썬의 핵심으로 들어가는 듯한 느낌이었다.가장 인상 깊었던 건 파이썬 객체 모델에 대한 설명이었다. 1장에서 설명하는 객체 모델은 파이썬 코드를 더 잘 쓰고, 효율적으로 만들 때 꼭 필요한 기초 지식이었다. 이 부분을 읽으면서 내가 그동안 파이썬을 얼마나 겉핥기식으로 썼는지 깨달았다.책이 두껍긴 하지만 평소에 헷갈렸거..

독서(Reading) 2024.12.28

[서평] 테라폼으로 시작하는 IaC

"테라폼으로 시작하는 IaC"는 인프라를 코드로 관리하는 혁신적인 접근 방식을 제시하는 책이다. 이 책은 테라폼의 기초부터 심화 내용까지 폭넓게 다루며, 독자가 이 도구를 통해 클라우드 환경을 효과적으로 관리할 수 있도록 돕는다. 초보자도 쉽게 이해할 수 있도록 구성되어 있어, 복잡한 인프라 설정을 간편하게 자동화할 수 있는 방법을 제시한다.책의 첫 부분에서는 테라폼의 설치와 기본적인 설정 방법을 상세히 설명한다. 이후에는 명령어와 코드의 다양한 속성을 하나하나 짚어가며, 독자가 실질적으로 활용할 수 있는 지식을 쌓을 수 있도록 돕는다. 각 장에서는 프로바이더, 상태 관리, 모듈화, 협업, 워크플로우 등 실제 업무에서 자주 접하는 주제를 다루며, 특히 다중 리소스 구성과 의존성 관리에 대한 심도 있는 설..

독서(Reading) 2024.11.05

GCP 데이터 파이프라인 구축 여정: 성능 최적화와 자연어 처리의 도전

안녕하세요! 오늘은 제가 구글 클라우드 플랫폼(GCP)에서 데이터 파이프라인을 개선하면서 경험한 이야기를 공유하려고 합니다. 특히 데이터 레이크하우스 최적화와 자연어 처리 파이프라인 구축 과정에서 겪은 고민들을 이야기해 보겠습니다. 💡 BigQuery의 성능을 끌어올리다: 파티션과 클러스터링 최적화 BigQuery는 놀라운 성능을 자랑하지만, 장기적인 운영을 위해서는 신중한 설계가 필요합니다. 작은 데이터셋으로는 성능 차이를 체감하기 어려웠지만, 데이터가 쌓일수록 최적화의 중요성은 커질 수밖에 없죠. 이를 위해 다양한 파티션과 클러스터링 구성을 테스트해 보았습니다. 🔄 자연어 처리 파이프라인의 진화: 정규식에서 NLP API로 기존에 정규식으로 처리하던 텍스트 분석을 NLP API를 활용하는 방식으로 전..

카테고리 없음 2024.10.30

Vertex AI를 이용한 AI 답변 엔진 개발: 시행착오와 배움

최근 저는 Vertex AI의 검색 기능을 활용해 Perplexity AI와 유사한 서비스를 만들기 위한 여정을 계속하고 있습니다. 이번 글에서는 이 과정에서 겪은 시행착오와 배운 점을 공유하고, 향후 계획에 대해 이야기하고자 합니다. 1. Vertex AI와 Perplexity AI의 차이점 이해하기 Vertex AI(search agent)는 AI 검색 엔진입니다. AI를 활용해 더 정확한 검색 결과를 제공하는 것을 목표로 하며, 시맨틱 검색 기술을 사용해 질의의 의미를 파악하고 관련된 정보를 추천합니다. 예를 들어, 사용자가 "화사한 날에 입으면 좋은 셔츠"라고 검색할 경우, '화사한'이라는 단어의 의미를 이해하여 밝은 색상이나 화려한 무늬의 셔츠를 추천할 수 있습니다. 반면, Perplexity ..

카테고리 없음 2024.10.08

[서평]챗GPT API를 활용한 챗봇 만들기

이 책은 챗GPT API를 활용한 챗봇 개발에 필요한 다양한 기술을 체계적으로 다루고 있습니다. 개발 환경 구성부터 챗봇 제작, 그리고 실시간 기억 저장과 같은 고급 기능까지 단계별로 차근차근 배우게 되며, 특히 파이썬 기초부터 벡터DB 활용까지 폭넓은 주제를 포괄합니다. 실용적인 예제로 가장 많이 사용하는 메신저인 카카오톡에 챗봇을 연동하는 부분도 실습 위주로 진행되어 독자가 쉽게 따라갈 수 있도록 구성되었습니다.챕터별로 다루는 주요 내용은 챗봇 개발에 필요한 핵심 기술을 이해하고 응용할 수 있도록 설계되었으며, 특히 프롬프트 엔지니어링과 같은 최신 기술을 집중적으로 학습할 수 있는 점이 큰 장점입니다. 챗GPT API의 기본 개념을 설명하는 것에서 출발하여, 이후 벡터DB와 같은 고급 데이터 관리 기..

카테고리 없음 2024.09.17

시간대별로 데이터를 고르게 샘플링 하는 방법

2340건의 데이터에서 시간 순위를 기준으로 골고루 100개의 데이터를 추출하려면, 데이터를 시간대별로 나눈 후 각 시간대에서 비례적으로 데이터를 샘플링해야 합니다. 이렇게 하면 데이터가 시간대별로 균형 있게 선택됩니다. BigQuery에서는 ROW_NUMBER()와 NTILE() 윈도우 함수를 사용하여 데이터를 시간순으로 나눈 후, 각 그룹에서 데이터를 샘플링할 수 있습니다.  WITH time_partitioned_data AS ( SELECT *, NTILE(100) OVER (ORDER BY transaction_time) AS time_group FROM `your_project.your_dataset.transactions`),sampled_data AS ( SELECT ..

코헨의 카파 계수

코헨의 카파 계수는 두 명의 평가자(또는 두 가지 평가 방법)가 동일한 항목을 평가할 때, 그 평가의 일치도를 측정하는 통계적 방법입니다. 단순한 일치율과는 달리, 코헨의 카파 계수는 우연에 의한 일치를 고려하여 계산됩니다.  코헨의 카파 계수는 다음과 같은 공식을 사용하여 계산됩니다:   ​​\[ \kappa = \frac{P_o - P_e}{1 - P_e} \]   여기서:  - \( P_o \)는 관찰된 일치율입니다.   - \( P_e \)는 우연에 의한 기대 일치율입니다.   카파 계수의 값은 -1에서 1 사이의 값을 가지며, 다음과 같이 해석할 수 있습니다:   1: 완벽한 일치0: 우연에 의한 일치음수: 평가자 간의 일치가 우연보다 나쁨  일반적으로 카파 계수의 값이 0.6 이상이면 "좋은"..

통계(Statistics) 2024.08.19
728x90
반응형