수학(Mathematics)/로그(Log)

데이터 분석 시 식에 로그를 취하는 이유

leebaro 2017. 8. 24.
728x90

데이터 분석에서 log 중요성에 대해서 이야기 해보겠다.

 

데이터 분석을 하기 위해 log 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 )에서 정확한 값을 얻기 위함이다.

 

데이터 편차를 줄여 왜도[각주:1](skewness) 첨도[각주:2](Kurtosis) 줄일 있기 때문에 정규성이 높아진다


예를 들어, 연령 같은 경우에는 숫자의 범위가 0~120 이하 이겠지만, 재산 보유액 같은 경우에는 0원에서 조단위까지 올라갈 있다. , 데이터 단위가 달라지면 결과값이 이상해 있다.

 

log 역할은 수를 같은 비율의 작은 수로 바꿔 주는 것이다.

 

log 큰 수를 작게 만들고 복잡한 계산을 간편하게 하기위해 사용한다. 로그를 취하는 순간 그 수는 지수가 되어버리니, 값이 작아 진다.


예를 들어, 100=\(10^2\)  이다. 100에 상용로그를 취한다면 100을 10을 밑으로 하는 지수가 있는 값의 그 지수로 나타낸다. 그래서 100에 상용로그를 취하면 2가 된다. -> \(log_{10}2\) 또한 로그를 취하면 로그의 성질에 의해 곱하기가 더하기로, 나누기가 빼기로 바뀐다.

 

결론적으로 식에 로그릴 취하는 이유는 수를 작게 만들고, 복잡한 계산을 쉽게 만들고, 왜도와 첨도를 줄여서 데이터 분석 의미있는 결과를 도출하기 위한 것이다.


위의 재산 보유액 예와 같이 분석하려는 데이터 간의 편차가 큰 경우에 로그를 취하면 의미있는 결과를 얻을 가능성이 높아진다.

 

아래 차트에도 나와 있듯이 로그를 취하면 값은 작아지는 것을 있다.

 


 

 

 

Reference

https://blog.naver.com/parbo/220602805699

http://www.studycode.net/bbs2/read.htm?cate_sub_idx=&cate_sub_idx2=&iframe_use=&list_mode=board&code=36&keyfield=&key=&page=282&side=1&lecture_yn=&idx=20484

http://blog.naver.com/PostView.nhn?blogId=istech7&logNo=50154573592

http://blog.naver.com/PostView.nhn?blogId=chochila&logNo=40144022678


  1. 데이터가 한쪽으로 치우친 정도 [본문으로]
  2. 분포가 얼마나 뾰쪽한지를 나타내는 정도 [본문으로]
728x90