Mean is mean

Out[1]:

의무교육과정에서 현실의 많은 분포들이 정규분포를 따른다고 배웠다. 정규분포는 평균(location)분산(scale)으로 정의되는 모델이다. 당연하게 받아들여서 놓치는 경우가 많은데, 우리가 배운 정규분포의 매우 중요한 특징은 평균을 중심으로 좌우가 대칭이라는 점이다. 나만 그럴 수도 있겠지만, 학창 시절에 집중적으로 다루었던 분포가 너무 당연하게 좌우 대칭이다보니 신문/방송 기사를 보거나 사회 현상을 관찰할 때 자동적으로 평균을 기준으로 양쪽이 대칭이라 생각하게 되는 경우가 많다.

하지만 진짜 현실, 특히 인간의 경제 활동이 만들어내는 현상들은 우리가 배운 정직한 정규분포를 만드는 일이 거의 없다. 그 중에 가장 흔하게 볼 수 있고, 사람들이 신경도 많이 쓰는게 평균 연봉이라는 단어다. 여기서 말하는 평균은 Mean인데, 전체의 합을 전체의 개수로 나눈 값이다. 정규분포를 가정한다면 이 평균을 중심으로 좌우 대칭이겠지만 그러기가 쉽지 않다. 일단 양쪽의 조건 자체가 대칭이 아니다 낮은 쪽으로는 하한(최저임금)이 있는데, 높은 쪽으로는 제한이 없으며 급여를 주는 사람과 받는 사람이 대등하지 않고 양쪽이 바라는 방향이 반대이다.

그런 고로 어느 조직, 혹은 사회 전체를 보아도 재화의 분배는 어딘가로 치우치게 된다. 적어도 Skew normal distribution을 떠올리거나 또 다른 적당한 분포를 찾아야 한다. 뭔가 찾는다고 해도 이걸 다른 사람에게 전달하는 것이 쉽지 않다. 신문 기사에서 평균과 분산까지는 얘기할 만 하지만, 모양(shape)/치우침(skewness)이 언급되면 좀 어렵지 않을까? 적어도 나는, 나름 고등학교까지의 교육과정을 매우 훌륭하게 이수했지만 shape 파라미터가 있는 정규분포를 배운기억이 없기 때문이다. 배운적이 없는걸 이야기하면 뭐가 됐든 어렵다.

쉽게 꺼낼 수 있을 만한 만만한 개념으로 중간값과 최빈값이 있다. 이 개념들은 아마도 분명히 배운적이 있고 간단해서 다시 기억해내기도 쉽다. 단지 쏠림 없는 정규분포에서는 중간값=최빈값=평균값이기 때문에 크게 신경을 쓰지 않았던 것 같다. 하지만 쏠림이 있는 경우 저 값들이 서로 다른 값을 가지게 되고 정규 분포가 아니더라도 저 값들의 차이에는 의미가 있다. 단순히 평균값과 중간값의 차이만으로도 분포의 쏠림이 얼마나 심한지를 비교적 쉽게 받아들일 수 있다.

Skewed distribution

이를 테면 이런 설명,

A회사 정규직 평균 연봉은 6천인데, 중간 연봉은 3천이다

은 꽤나 직관적이다. 이런 설명이 너무 길어서 꼭 하나의 값만으로 분포를 설명하고 싶다면, 중간값을 쓰는게 좀더 정의로운게 아닌가 한다. 여기에는 부족한 지식과 주관적인 견해가 섞여 있다.

올바른 이해인지는 모르겠지만, 나는 X축이 사람인 경우 평균값은 사람에 가중치를 두고 계산한 값이고, 그래서 때때로 평균값이 비인간적인 결과를 내곤 한다고 본다. 또, 평균값은 지나치게 비국소적이다. 데이터의 단 하나의 값만을 움직여도 그 규모만 충분하다면 평균값을 원하는 만큼 바꿀 수 있다. 예를 들어, 100명인 회사에서 단 한명의 연봉만 +3억을 하면, 전체 평균이 3백만원이 오른다. 난 아무것도 안했는데 회사의 평균 연봉이 올라버린 것이다. 중간값은 이런 식의 장난을 치긴 비교적 힘들다. (물론 숫자가지고 다른 무슨 짓을 못하겠냐만…)

결론은, 언론에서 사회 현상을 숫자로 표현할 때 평균만 말하지 말고 비대칭에 대해서도 사람들이 잘 이해할 수 있도록 신경을 써 주면 좋겠다는 이야기.

Comments