728x90
반응형

전체 글 252

[서평] 테라폼으로 시작하는 IaC

"테라폼으로 시작하는 IaC"는 인프라를 코드로 관리하는 혁신적인 접근 방식을 제시하는 책이다. 이 책은 테라폼의 기초부터 심화 내용까지 폭넓게 다루며, 독자가 이 도구를 통해 클라우드 환경을 효과적으로 관리할 수 있도록 돕는다. 초보자도 쉽게 이해할 수 있도록 구성되어 있어, 복잡한 인프라 설정을 간편하게 자동화할 수 있는 방법을 제시한다.책의 첫 부분에서는 테라폼의 설치와 기본적인 설정 방법을 상세히 설명한다. 이후에는 명령어와 코드의 다양한 속성을 하나하나 짚어가며, 독자가 실질적으로 활용할 수 있는 지식을 쌓을 수 있도록 돕는다. 각 장에서는 프로바이더, 상태 관리, 모듈화, 협업, 워크플로우 등 실제 업무에서 자주 접하는 주제를 다루며, 특히 다중 리소스 구성과 의존성 관리에 대한 심도 있는 설..

독서(Reading) 2024.11.05

GCP 데이터 파이프라인 구축 여정: 성능 최적화와 자연어 처리의 도전

안녕하세요! 오늘은 제가 구글 클라우드 플랫폼(GCP)에서 데이터 파이프라인을 개선하면서 경험한 이야기를 공유하려고 합니다. 특히 데이터 레이크하우스 최적화와 자연어 처리 파이프라인 구축 과정에서 겪은 고민들을 이야기해 보겠습니다. 💡 BigQuery의 성능을 끌어올리다: 파티션과 클러스터링 최적화 BigQuery는 놀라운 성능을 자랑하지만, 장기적인 운영을 위해서는 신중한 설계가 필요합니다. 작은 데이터셋으로는 성능 차이를 체감하기 어려웠지만, 데이터가 쌓일수록 최적화의 중요성은 커질 수밖에 없죠. 이를 위해 다양한 파티션과 클러스터링 구성을 테스트해 보았습니다. 🔄 자연어 처리 파이프라인의 진화: 정규식에서 NLP API로 기존에 정규식으로 처리하던 텍스트 분석을 NLP API를 활용하는 방식으로 전..

카테고리 없음 2024.10.30

Vertex AI를 이용한 AI 답변 엔진 개발: 시행착오와 배움

최근 저는 Vertex AI의 검색 기능을 활용해 Perplexity AI와 유사한 서비스를 만들기 위한 여정을 계속하고 있습니다. 이번 글에서는 이 과정에서 겪은 시행착오와 배운 점을 공유하고, 향후 계획에 대해 이야기하고자 합니다. 1. Vertex AI와 Perplexity AI의 차이점 이해하기 Vertex AI(search agent)는 AI 검색 엔진입니다. AI를 활용해 더 정확한 검색 결과를 제공하는 것을 목표로 하며, 시맨틱 검색 기술을 사용해 질의의 의미를 파악하고 관련된 정보를 추천합니다. 예를 들어, 사용자가 "화사한 날에 입으면 좋은 셔츠"라고 검색할 경우, '화사한'이라는 단어의 의미를 이해하여 밝은 색상이나 화려한 무늬의 셔츠를 추천할 수 있습니다. 반면, Perplexity ..

카테고리 없음 2024.10.08

[서평]챗GPT API를 활용한 챗봇 만들기

이 책은 챗GPT API를 활용한 챗봇 개발에 필요한 다양한 기술을 체계적으로 다루고 있습니다. 개발 환경 구성부터 챗봇 제작, 그리고 실시간 기억 저장과 같은 고급 기능까지 단계별로 차근차근 배우게 되며, 특히 파이썬 기초부터 벡터DB 활용까지 폭넓은 주제를 포괄합니다. 실용적인 예제로 가장 많이 사용하는 메신저인 카카오톡에 챗봇을 연동하는 부분도 실습 위주로 진행되어 독자가 쉽게 따라갈 수 있도록 구성되었습니다.챕터별로 다루는 주요 내용은 챗봇 개발에 필요한 핵심 기술을 이해하고 응용할 수 있도록 설계되었으며, 특히 프롬프트 엔지니어링과 같은 최신 기술을 집중적으로 학습할 수 있는 점이 큰 장점입니다. 챗GPT API의 기본 개념을 설명하는 것에서 출발하여, 이후 벡터DB와 같은 고급 데이터 관리 기..

카테고리 없음 2024.09.17

시간대별로 데이터를 고르게 샘플링 하는 방법

2340건의 데이터에서 시간 순위를 기준으로 골고루 100개의 데이터를 추출하려면, 데이터를 시간대별로 나눈 후 각 시간대에서 비례적으로 데이터를 샘플링해야 합니다. 이렇게 하면 데이터가 시간대별로 균형 있게 선택됩니다. BigQuery에서는 ROW_NUMBER()와 NTILE() 윈도우 함수를 사용하여 데이터를 시간순으로 나눈 후, 각 그룹에서 데이터를 샘플링할 수 있습니다.  WITH time_partitioned_data AS ( SELECT *, NTILE(100) OVER (ORDER BY transaction_time) AS time_group FROM `your_project.your_dataset.transactions`),sampled_data AS ( SELECT ..

코헨의 카파 계수

코헨의 카파 계수는 두 명의 평가자(또는 두 가지 평가 방법)가 동일한 항목을 평가할 때, 그 평가의 일치도를 측정하는 통계적 방법입니다. 단순한 일치율과는 달리, 코헨의 카파 계수는 우연에 의한 일치를 고려하여 계산됩니다.  코헨의 카파 계수는 다음과 같은 공식을 사용하여 계산됩니다:   ​​\[ \kappa = \frac{P_o - P_e}{1 - P_e} \]   여기서:  - \( P_o \)는 관찰된 일치율입니다.   - \( P_e \)는 우연에 의한 기대 일치율입니다.   카파 계수의 값은 -1에서 1 사이의 값을 가지며, 다음과 같이 해석할 수 있습니다:   1: 완벽한 일치0: 우연에 의한 일치음수: 평가자 간의 일치가 우연보다 나쁨  일반적으로 카파 계수의 값이 0.6 이상이면 "좋은"..

통계(Statistics) 2024.08.19

말로 풀어내는 글쓰기: LLM을 활용한 쉽고 편한 새로운 접근법

안녕하세요. 프로도입니다. 이번 주제도 글쓰기입니다. 이번에는 글을 쓰고 싶은 글감은 있지만 글쓰기가 익숙치 않아서 쉽게 글을 쓰지 못하는 경우에 사용할 수 있는 방법을 이야기해 보려고 합니다. 글쓰기가 어려울 때, 어떻게 할까요? 글쓰기는 많은 사람들이 어려워하는 일 중 하나입니다. 주제와 아이디어는 있지만, 글을 어떻게 시작하고 풀어나갈지 막막해서 쉽게 글을 쓰지 못하는 경우가 많습니다. 특히 글쓰기 경험이 적거나 자신감이 부족한 분들에게 이러한 문제는 더 크게 다가오곤 합니다. 다행히도, 최근에는 이런 문제를 해결해 줄 수 있는 좋은 도구들이 많이 나와 있습니다. 그중 하나가 바로 라지 랭귀지 모델(LLM)입니다. Perplexity를 선택한 이유는? 많은 LLM 도구 중에서 제가 Perplexit..

카테고리 없음 2024.08.17

git에서 자주 쓰는 명령어

#원격 저장소(origin)에서 최신 변경 사항을 가져와 로컬 저장소의 원격 추적 브랜치에 업데이트합니다. 이 명령어는 원격 저장소의 변경 사항을 로컬 저장소에 반영하지만, 로컬 브랜치에는 자동으로 병합하지 않습니다. 이를 통해 원격 저장소의 최신 상태를 확인하고, 필요에 따라 로컬 브랜치에 병합할 수 있습니다.git fetch origin# 서버의 orgin/main 브랜치의 코드를 기준으로 새로운 브랜치를 생성함git checkout -b new-branch-name origin/main

728x90
반응형