또자의 코딩교실

피어슨 상관계수(Pearson Correlation Coefficient) 본문

코딩공부/기타 - 공부

피어슨 상관계수(Pearson Correlation Coefficient)

또자자 2021. 11. 30. 13:35

피어슨 상관계수란?

  • 칼 피어슨(Karl Pearson)이 개발한 상관계수로 -1~+1 범위 내의 수이다.
  • 적률상관계수(product-moment correlation coefficient)라고도 함
  • 일반적으로 상관계수라고 하면 피어슨 상관계수를 말한다.

 

피어슨 상관계수를 해석하는 법
= 1에 가까울수록 상관도는 비례하고 -1에 가까울수록 반비례한다.
= 각 데이터가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일하면 -1의 값을 갖는다.

계수의 부호는 관계의 방향을 나타낸다.
두 변수가 함께 증가하거나 감소하는 경향(비례) 이 있으면 계수가 양수이며, 대체적으로 y=x의 그래프를 띄게 될 것이고,
한 변수가 증가할 때 다른 변수는 감소하는 경향(반비례)이 있으면 계수는 음수이며, 대체적으로 y=1/x의 그래프를 띄게 될 것이다. 

따라서 부호가 없는 상관계수값인 0인 관계가 존재하지 않으니 상관 관계자체가 없는것이다. 
극과 극이어도 연관도는 높으나 두 사이의 관계가 다를 뿐이다. 

산점도를 통해 시각화 한 피어슨 상관계수를 확인해보자.

 

파이썬에서는 .corr() 함수를 이용하여 두 변수의 상관 관계를 수치화할 수 있다. 하지만 비 선형의 데이터일 경우 상관계수만으로는 상관계수만으로는 상관관계를 알 수 없다. 따라서 산점도를 사용하는것이다.

산점도 상으로는 변수간의 선형관계가 보이지 않으나 상관계수의 값이 높게 나온 경우 아웃라이어(Outlier)(=이상치) 때문에 상관계수의 값이 비정상적으로 높게 나온 경우일 수 있음. 따라서 아웃라이어(Outlier)(=이상치) 제거 혹은 log 변환 후 산점도/상관 계수를 구해보는 것이 좋다. 

 

또한 헷갈리는 부분 중, 상관계수는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 수치는 아니다.

인과관계는 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인할 수 있다. 

 

Comments