카테고리 없음

GCP 데이터 파이프라인 구축 여정: 성능 최적화와 자연어 처리의 도전

leebaro 2024. 10. 30.
728x90


안녕하세요! 오늘은 제가 구글 클라우드 플랫폼(GCP)에서 데이터 파이프라인을 개선하면서 경험한 이야기를 공유하려고 합니다. 특히 데이터 레이크하우스 최적화와 자연어 처리 파이프라인 구축 과정에서 겪은 고민들을 이야기해 보겠습니다.

💡 BigQuery의 성능을 끌어올리다: 파티션과 클러스터링 최적화
BigQuery는 놀라운 성능을 자랑하지만, 장기적인 운영을 위해서는 신중한 설계가 필요합니다. 작은 데이터셋으로는 성능 차이를 체감하기 어려웠지만, 데이터가 쌓일수록 최적화의 중요성은 커질 수밖에 없죠. 이를 위해 다양한 파티션과 클러스터링 구성을 테스트해 보았습니다.

🔄 자연어 처리 파이프라인의 진화: 정규식에서 NLP API로
기존에 정규식으로 처리하던 텍스트 분석을 NLP API를 활용하는 방식으로 전환하는 작업을 진행했습니다. 주요 기능으로는:

텍스트에서 엔티티(Entity) 추출
감정 분석
차원 테이블과의 키 값 매핑
🤔 고민의 지점: API 처리 단계 설계
API 처리 단계를 결정하는 데 있어 두 가지 접근 방식을 고려했습니다:

통합 처리 방식

Bronze에서 Silver 레이어로 전환 시 동시 처리
장점: 단순한 파이프라인 구조
단점: API 처리로 인한 병목 현상 우려
분리 처리 방식

Silver 레이어에 중간 테이블 생성 후 단계적 처리
장점: 작업 단계 분리로 인한 유연성
단점: 추가 테이블 관리 필요
⚠️ API 쿼터 관리의 묘수
API 쿼터 제한으로 인한 문제 해결을 위해 다음과 같은 전략을 수립했습니다:

728x90