728x90
반응형

전체 글 260

Association Analysis / Association Rule / Apriori 알고리즘 - 3 of 3

연관글 보기Association Analysis / Association Rule / Apriori 알고리즘 - 1 of 3Association Analysis / Association Rule / Apriori 알고리즘 - 2 of 3Association Analysis / Association Rule / Apriori 알고리즘 - 3 of 3 시각화를 이용하면 수 많은 데이터에서는 보이지 않는 특징이 쉽게 눈에 띈다는 장점이 있다. 그래프를 그리기 위해 상관관계를 보여주는 행렬을 구해서SNA(social Network Analysis) 라이브러리의 gplot 함수를 이용해 weighted graph를 그려보도록 하자.상관관계를 그리기 위해서는 데이터타입이 matrix여야 한다. 하지만 아래과 같이 ..

Association Analysis / Association Rule / Apriori 알고리즘 - 2 of 3

연관글 보기Association Analysis / Association Rule / Apriori 알고리즘 - 1 of 3Association Analysis / Association Rule / Apriori 알고리즘 - 2 of 3Association Analysis / Association Rule / Apriori 알고리즘 - 3 of 3 이번에는 직접 코딩을 하면서 association rule에 대해서 보고자 한다. 아래 데이터는 20개의 건물에 입주한 상점 유형을 보여주는 데이터이다. 이 데이터를 사용하여 association rule을 이용한다면, 건물을 기준으로 연관성이 있는 상점이 무엇인지 알아볼 수 있다. 이러한 사례를 응용한다면 온라인 쇼핑몰 장바구니에 담긴 상품을 기준으로 고객이..

1부터 10까지 숫자를 합하는 알고리즘

가장 기초적인 알고리즘인 범위내의 숫자를 합하는 알고리즘이다. 숫자를 합하는 알고리즘은 대표적으로 2가지 방법이 있는데, 첫 번째 방법은 반복문을 이용해 숫자를 더하는 방식이다. 이 방식은 쉽지만 시작과 끝 숫자의 차이가 크다면 그만큼 반복을 해야하기 때문에 성능에 영향을 줄 수 있다.두 번째 방법은 천재 수학자인 가우스가 사용했다고 알려진 방법이다. 공식은 아래와 같다. $$\frac{n(n+1)}{2}$$ 1부터 100까지 더하는 문제라면 \(\frac{100(100+1)}{2}\) 이다. 이와 같은 알고리즘을 이용하면 반복문을 사용하지 않고 한번의 계산으로 값을 구할 수 있다. 그림으로 보면 아래와 같다. 제일 앞의 숫자와 제일 마지막 숫자의 합을 더하면 항상 101이 나온다. 그럼 1 부터 시작해..

RStudio에서 R notebook 사용하기

인터넷을 뒤져봤는데 내 입맛에 맞게 간단하게 R notebook을 사용하는 방법을 찾을 수 없어서 정리해보았다. 가장 간단하게는 아래의 단축키만 알면 편하게 작업을 할 수 있다. R 스크립트 실행하기 shift+Ctrl+Enter HTML로 Preview 보기 shift+Ctrl+K R 스크립트 입력 행 새로 만들기 Ctrl+Alt+I 이제부터는 그림을 가지고 설명을 해보겠다. 1. 새로운 R Notebook 생성하기이것은 기존의 R Script를 생성하는 것과 별 차이가 없다. 2. R Notebook에서 단축키로 R Script 실행하기 R notebook을 만들면 아래과 같이 샘플 코드가 함께 나온다. R notebook을 사용법을 쉽게 설명하기 위한 용도이고, R Notebook 사용에 익숙하면 ..

R 2017.09.29

성공적인 인공지능 조직 구성 방법

조직의 구성과 역할이 딥러닝이 활성화 되기 전과 후가 달려졌다. 특정 기업에 사례 기반으로 설명한 내용이기 때문에 기업에 따라 차이가 있을 수 있다. 우선 과거에는 크게 두 개의 조직이 있었다. 데이터 분석가 조직과 데이터 엔지니어링 조직이다. 데이터 분석가 조직은 통계, 수학을 전공학 석,박사들로 구성된 조직으로 어떠한 문제를 해결하기 위해 가설을 세우고, 기업의 샘플 데이터를 이용해 통계적으로 검증하거나 머신러닝을 이용한 모델을 만든다. 이러한 결과를 데이터 엔지니어링 팀에 넘기면 이 팀에서는 실무에 적용할 수 있도록 솔루션을 만들거나 기존 서비스에 반영을 했다. 최근에는 앞의 두 개팀에 추가적으로 외부 인공지능 관련 연수소가 연구원 조직이 추가되었다. 이 조직은 별도의 조직이라기 보다는 앞의 두 팀..

2-2 일반화, 과대적합, 과소적합

훈련 세트에서 테스트 데이터로 일반화(generalization) 되었다는 뜻은 머신러닝으로 만든 모델이 데이터에 대해서 정확하계 예측 되었다는 것을 의미한다. 가능한 정확하게 모델을 일반화 해야 예측률이 높아질 것이다. 모델을 만들때는 보통 데이터를 training set와 test set으로 나누어 사용한다. 학습에 사용한 training 데이터와 test 데이터가 비슷하다면 앞에서 만든 모델의 정확도는 높게 나올 것이다. 하지만 복잡할 모델을 만든다면 training set 데이터에만 정확한 모델이 나올 수 있다. training set이 정확한 결과를 보여주기 위해 복잡하게 모델을 만드는 것을 과대적합(Over fitting)이라고 하고, 반대로 모델이 너무 간단하여 정확도가 낮을 모델을 과소적합..

추천 시스템 개발을 위한 웹로그 수집 방법 1 of 2

효과적인 추천 시스템 구축을 위해서 웹로그 분석은 매우 중요한 역할을 한다.현재 진행 중인 추천 시스템 구축 프로젝트에서도 상용 웹로그 수집/분석 솔루션을 이용하여 로그를 수집하고, 고객을 이용 패턴을 분석하기 위해 웹로그를 사용한다. 기업에서 웹로그 수집 솔루션을 사용하고 있으면 해당 솔루션에서 발생하는 데이터를 전달 받아 사용하면 되지만 만약 그런 솔루션이 없다면 웹로그 수집이 선행되어야 한다.(물론 웹 로그가 없다고 추천 시스템을 구축하지 못하는 것은 아니다.) 그럼 웹로그가 추천시스템 개발 시 어떤 용도로 사용되는지와 웹로그를 수집할 수 있는 방법에 대해 간단하게 정리 해보려고 한다. 추천 시스템에서 웹 로그가 필요한 이유 웹로그가 필요한 이유는 다양하게 있겠지만 생각나는데로 적어본다.(온라인 쇼..

추천시스템 Overview

추천시스템 Overview추천의 사전적 의미어떤 조건에 적합한 대상을 책임지고 소개함(Naver 국어사전)추천의 관점 기준 분류사용자 관점사용자의 취향과 선호도를 파악함사용자의 선호도가 높을 것으로 예상되는 아이템을 예측하거나 제공함서비스 제공자 관점서비스 제공자가 목표로 하는 KPI(매출, Page View 등)를 달성함추천 사례아마존매출의 35%가 추천을 통해 발생넷플릭스대여되는 영화의 2/3가 추천 영화를 경유구글 뉴스38% 이상의 조회가 추천 뉴스를 경우추천 관련 용어정의User사용자Item추천이 되는 대상업종에 따라 다를 수 있음(예 : 온라인 서점 - 책, 넷플릭스 -영화)Rating사용자 아이템에 대한 선호도 평가 점수Preference / Taste선호 / 취향System Architect..

파이썬을 활용한 추천 시스템 구축을 위한 스터디

현재 쇼핑몰에 적용할 추천 시스템을 구축하는 프로젝트를 진행하는데, 프로젝트에 새로 투입될 회사 신입사원들 교육을 해야하는 상황이라 이왕 시작한거 이론적인 내용도 정리할 겸 교육 자료 만들 겸 신입사원이 이해할 수 있는 수준으로 내용을 정리해보려고 한다. 스터디 목차는 아래와 같다. 추천시스템 개요추천시스템 Overview추천시스템의 분류추천시스템의 성능평가추천시스템의 고려사항평점 예측을 이용한 영화 추천수학적 배경지식 리뷰영화 평점 예측 OverviewContent-based Filtering 모델을 이용한 평점 예측Collaborative Filtering 기반 영화 평점 예측Collaborative Filtering 기반 온라인 쇼핑몰 상품 추천고급 추천 시스템Matrix FactorizationB..

박스 플롯(box plot) 설명

오늘 아는 분이 박스 플롯의 의미가 무엇이고 어떻게 그리는지 궁금하다고 말씀하셔서 이야기 나온김에 정리를 해본다.   박스 플롯을 사용하는 이유는 많은 데이터를 눈으로 확인하기 어려울 때 그림을 이용해 데이터 집합의 범위와 중앙값을 빠르게 확인할 수 있는 목적으로 사용한다. 또한 통계적으로 이상치(outlier)가 있는지도 확인이 가능하다.  '박스 플롯'은 '상자 수염 그림'(Box-and-Whisker Plot) '상자 그림' 등 다양한 이름으로 불린다.  기술 통계학에서 박스 플롯은 수치적 자료를 표현하는 그래프이다. 이 그래프는 자료에서 얻은 다섯 수치 요약(five number summary)을 가지고 그린다. 다섯 수치 요약은 아래와 같다.최솟값 : 제 1사분위에서 1.5 IQR[각주:1]을 ..

통계(Statistics) 2017.09.20
728x90
반응형