데이터 분석에서 log의 중요성에 대해서 이야기 해보겠다.
데이터 분석을 하기 위해 log를 취하는 이유는 한마디로 정규성을 높이고 분석(회귀분석 등)에서 정확한 값을 얻기 위함이다.
데이터 간 편차를 줄여 왜도 1(skewness)와 첨도 2(Kurtosis)를 줄일 수 있기 때문에 정규성이 높아진다.
예를 들어, 연령 같은 경우에는 숫자의 범위가 약 0세~120세 이하 이겠지만, 재산 보유액 같은 경우에는 0원에서 몇 조단위까지 올라갈 수 있다. 즉, 데이터 간 단위가 달라지면 결과값이 이상해 질 수 있다.
log의 역할은 큰 수를 같은 비율의 작은 수로 바꿔 주는 것이다.
log는 큰 수를 작게 만들고 복잡한 계산을 간편하게 하기위해 사용한다. 로그를 취하는 순간 그 수는 지수가 되어버리니, 값이 작아 진다.
예를 들어, 100=\(10^2\) 이다. 100에 상용로그를 취한다면 100을 10을 밑으로 하는 지수가 있는 값의 그 지수로 나타낸다. 그래서 100에 상용로그를 취하면 2가 된다. -> \(log_{10}2\) 또한 로그를 취하면 로그의 성질에 의해 곱하기가 더하기로, 나누기가 빼기로 바뀐다.
결론적으로 식에 로그릴 취하는 이유는 큰 수를 작게 만들고, 복잡한 계산을 쉽게 만들고, 왜도와 첨도를 줄여서 데이터 분석 시 의미있는 결과를 도출하기 위한 것이다.
위의 재산 보유액 예와 같이 분석하려는 데이터 간의 편차가 큰 경우에 로그를 취하면 의미있는 결과를 얻을 가능성이 높아진다.
아래 차트에도 나와 있듯이 로그를 취하면 큰 값은 작아지는 것을 볼 수 있다.
Reference
https://blog.naver.com/parbo/220602805699
http://blog.naver.com/PostView.nhn?blogId=istech7&logNo=50154573592
http://blog.naver.com/PostView.nhn?blogId=chochila&logNo=40144022678