본문내용
1. 미학
1.1. 통계의 미학
통계는 일상생활에서도 매우 중요하게 활용되고 있다. 통계 데이터는 우리의 삶에 다양한 영향을 미치고 있으며, 이를 이해하고 활용하는 능력은 매우 중요하다.
통계를 다루는 과정에서는 표본의 선정, 데이터 분석, 평균 개념의 활용 등 여러 가지 고려사항이 있다. 표본을 잘못 선정하거나 평균을 잘못 해석하게 되면 잘못된 결론에 도달할 수 있다. 따라서 통계 자료를 다룰 때는 맥락을 잘 파악하고 다양한 시각에서 분석할 필요가 있다.
엘리트 유권자를 대상으로 한 여론조사가 실제 선거결과와 다르게 나타났던 사례처럼, 표본의 대표성이 부족하면 통계 결과가 왜곡될 수 있다. 또한 평균만으로 전체를 판단하는 것은 문제가 될 수 있는데, 평균에 가까운 사람들에게는 유리하지만 평균에서 벗어난 사람들에게는 불편함을 줄 수 있기 때문이다.
이처럼 통계는 객관적이고 정확한 결과를 도출하기 위해서는 주의 깊게 다뤄져야 한다. 또한 통계 자료를 해석할 때는 인과관계에 대한 깊이 있는 이해가 필요하다. 단순히 상관관계만 파악하는 것이 아니라 변수들 간의 내재적 관계에 대해 분석해야 한다.
따라서 통계적 사고를 갖추는 것은 매우 중요하다. 통계 관련 용어와 개념을 익히고, 표본의 대표성 및 평균의 한계를 이해하며, 변수 간 인과관계를 분석하는 능력을 기르는 것이 필요하다. 이를 통해 우리는 통계 데이터를 정확히 이해하고 활용할 수 있게 될 것이다.
1.2. 현실에는 다양성의 논리가 지배
현실에는 다양성의 논리가 지배한다. 사람들이 토의를 벌일 때 자신의 주장만을 관철시키려 노력하기 때문에, 토론이 진전 없이 공전하는 경우가 많다. 이는 '사실'이라는 관점에서 살펴보면 세 가지로 분류할 수 있다. 첫째, '규범적 주장'이다. 이는 당위성 또는 정의에 관한 주장으로, 어느 것이 옳다거나 그르다고 단정 짓기보다는 현실적인 제약을 고려하여 합일점을 찾아야 한다. 둘째, '실증적 주장'은 인과관계를 주장하는 것과 현황에 대한 인식을 다루는 것으로 나뉜다. 이 때 이론의 현실적 타당성과 효과의 크기, 전제조건의 현실성 등에 대해 논의가 이루어진다. 셋째, '현황의 파악'에 관한 부분으로, 어떤 사안에 대한 현실의 상태에 관한 인식의 문제를 다룬다. 이처럼 토론에서 사실과 의견이 구분되지 않고 뒤섞여 있는 이유는 사실, 규범, 실증적 주장들의 구분이 명확하지 않기 때문이다. 따라서 효율적인 토론을 위해서는 먼저 사실에 대해 정보를 공유하고 이를 근거로 가치 판단 등의 토의가 이루어져야 한다.
1.3. 데이터를 파악하는 기술
평균은 대상을 요약하는 대푯값으로 유용하게 활용되지만, 평균만으로는 대상 전체를 잘 반영하지 못할 수 있다. 평균에 대한 이해가 부족하면 다양성을 고려하지 않고 잘못된 판단을 내리게 된다.
일례로 미국의 경우 가구당 평균 가족 수는 3.6명이지만, 실제로는 3~4인 가족이 45%, 1~2인 가족이 35%, 5인 이상 가족이 20%에 달한다. 이처럼 평균은 전체 대상을 대변하지 못하는 한계가 있으므로, 평균과 더불어 표준편차, 최소값, 최대값 등의 다양한 지표를 함께 고려하여 데이터를 종합적으로 파악해야 한다.
또한 데이터 분석 시 사용되는 용어와 분석 방식에 따라 결과가 크게 달라질 수 있다. 예를 들어 EBS의 수능 강의 활용 통계와 국회의원의 분석 결과가 큰 차이를 보인 것은 '진성회원'이라는 용어와 분석 범위의 차이 때문이었다. 이처럼 데이터를 파악할 때는 기준과 방법론에 대한 이해가 선행되어야 한다.
이처럼 데이터를 파악하는 기술은 대상의 다양성을 고려하고 분석 기준을 정확히 이해하는 것이 핵심이다. 단순히 평균과 같은 대푯값에 집중하기보다는 다양한 지표를 종합적으로 살펴봄으로써 대상을 보다 정확히 파악할 수 있다. 또한 분석 방법과 기준에 대한 이해를 바탕으로 데이터의 맥락을 정확히 파악해야 한다. 이를 통해 무분별한 일반화를 피하고 합리적인 의사결정을 내릴 수 있다.
1.4. 기준이 달라지면 평균의 의미가 달라진다
기준이 달라지면 평균의 의미가 달라진다.
A회사에서 1,000,000명의 고객을 대상으로 통신 서비스를 제공하고 있다. 각 고객들은 고유한 단말기 번호를 가지고 있으며, 이 번호를 이용하여 A회사의 네트워크에 접속하여 인터넷 서비스를 받는다. 대부분의 경우 99% 이상의 높은 접속 성공률을 보이고 있으나, 특정 월에 접속 성공률이 77%까지 낮아졌다. 즉, 약 23%의 고객들이 서비스를 받지 못했다는 의미이다.
그러나 이 23%의 수치가 곧바로 고객들이 서비스를 받지 못했다는 것을 의미하는 것은 아니다. 이는 시스템 처리 방식 때문이다. 정상적으로 접속된 고객들은 1회의 시도로 서비스를 받을 수 있지만, 접속에 실패한 고객들은 계속해서 접속을 시도하게 된다. 따라서 1명의 미접속 고객이 수많은 접속 실패를 기록하게 되고, 결과적으로 전체 접속 실패율을 크게 높이게 된다.
즉, 단순히 23%의 접속 실패율이 높다고 판단할 것이 아니라, 그 수치가 실제 고객들의 서비스 수혜 정도를 정확하게 나타내고 있는지를 살펴봐야 한다. A회사에서는 이러한 문제를 파악하고, 접속 성공률 계산 방식을 시도 수 기준에서 고객 수 기준으로 변경하였다. 그리고 미접속 고객들의 사유를 세부적으로 분석하여 개선 방안을 마련하고자 하였다.
이처럼 동일한 수치라도 그 기준이 무엇이냐에 따라...