데이터 분석 시 식에 로그를 취하는 이유

수학(Mathematics)/로그(Log)

데이터 분석 시 식에 로그를 취하는 이유

leebaro 2017. 8. 24.

데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다.

데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다.

데이터 간 편차를 줄여 왜도^[각주:1](skewness)와 첨도^[각주:2](Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다.

예를 들어, 연령 같은 경우에는 숫자의 범위가 약 0세~120세 이하 이겠지만, 재산 보유액 같은 경우에는 0원에서 몇 조단위까지 올라갈 수 있다. 즉, 데이터 간 단위가 달라지면 결과값이 이상해 질 수 있다.

log의 역할은 큰 수를 같은 비율의 작은 수로 바꿔 주는 것이다.

log는 큰 수를 작게 만들고 복잡한 계산을 간편하게 하기위해 사용한다. 로그를 취하는 순간 그 수는 지수가 되어버리니, 값이 작아 진다.

예를 들어, 100=\(10^2\) 이다. 100에 상용로그를 취한다면 100을 10을 밑으로 하는 지수가 있는 값의 그 지수로 나타낸다. 그래서 100에 상용로그를 취하면 2가 된다. -> \(log_{10}2\) 또한 로그를 취하면 로그의 성질에 의해 곱하기가 더하기로, 나누기가 빼기로 바뀐다.

결론적으로 식에 로그릴 취하는 이유는 큰 수를 작게 만들고, 복잡한 계산을 쉽게 만들고, 왜도와 첨도를 줄여서 데이터 분석 시 의미있는 결과를 도출하기 위한 것이다.

위의 재산 보유액 예와 같이 분석하려는 데이터 간의 편차가 큰 경우에 로그를 취하면 의미있는 결과를 얻을 가능성이 높아진다.

아래 차트에도 나와 있듯이 로그를 취하면 큰 값은 작아지는 것을 볼 수 있다.

Reference

https://blog.naver.com/parbo/220602805699

http://www.studycode.net/bbs2/read.htm?cate_sub_idx=&cate_sub_idx2=&iframe_use=&list_mode=board&code=36&keyfield=&key=&page=282&side=1&lecture_yn=&idx=20484

http://blog.naver.com/PostView.nhn?blogId=istech7&logNo=50154573592

http://blog.naver.com/PostView.nhn?blogId=chochila&logNo=40144022678

데이터가 한쪽으로 치우친 정도 [본문으로]
분포가 얼마나 뾰쪽한지를 나타내는 정도 [본문으로]

현재글데이터 분석 시 식에 로그를 취하는 이유

부모 역할 훈련, pandas, 손자병법, python, 빅데이터, Association Rule, PET, 추천시스템, 추천 시스템, git, spark, 맥북, pyspark, Recommendation System, Machine Learning, 부모역할훈련, 머신러닝, scikit-learn, 파이썬, airflow,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

프로도의 블로그

데이터 분석 시 식에 로그를 취하는 이유

'수학(Mathematics)/로그(Log)'의 다른글

티스토리툴바