본문내용
1. 통계와 데이터 시각화
1.1. 기초통계학
1.1.1. 도수분포표
도수분포표는 관찰된 자료들을 일정한 계급으로 나누고 각 계급에 속하는 관측값의 개수를 나타내는 표이다. 도수분포표를 작성하면 자료를 효율적으로 요약할 수 있으며, 자료의 분포를 한눈에 파악할 수 있다. 도수분포표를 작성할 때는 먼저 자료의 범위를 결정하고 적절한 계급 구간을 설정해야 한다. 계급의 수를 적절히 선택하는 것이 중요한데, 계급의 수가 너무 많으면 각 계급의 도수가 작아져 자료의 특성을 파악하기 어려울 수 있으며, 계급의 수가 너무 적으면 자료의 특성을 충분히 반영하지 못할 수 있다. 따라서 자료의 특성과 목적에 맞게 계급의 수를 적절히 선택해야 한다. 도수분포표를 작성한 후에는 각 계급의 도수와 상대도수, 누적도수 등을 계산할 수 있으며, 이를 통해 자료의 분포 특성을 파악할 수 있다.
1.1.2. 줄기-잎 그림
줄기-잎 그림은 원자료의 분포 특성을 파악하는 데 유용한 방법이다. 원자료의 전체 분포 형태와 각 개별 값을 함께 확인할 수 있기 때문이다. 줄기-잎 그림은 원자료 값들을 줄기와 잎으로 구분하여 나타낸다. 줄기는 숫자의 일의 자리를, 잎은 십의 자리를 나타낸다. 따라서 줄기-잎 그림에서는 각 개별 관찰값의 정보가 유지되어 히스토그램에 비해 세부적인 분포 특성을 파악할 수 있다. 이를 통해 분포의 중심, 분산, 왜도, 첨도 등을 확인할 수 있다. 또한 특이값이나 이상치도 쉽게 발견할 수 있다. 즉, 줄기-잎 그림은 원자료의 전체적인 분포 특성과 개별 값들을 동시에 파악할 수 있는 강점이 있다."
1.1.3. 히스토그램
히스토그램은 연속형 자료의 분포를 나타내는 가장 대표적인 그래프이다.""히스토그램은 관찰값들을 일정한 구간으로 나누어 각 구간의 빈도를 막대로 표시한 그래프이다.""히스토그램은 데이터의 분포를 시각적으로 잘 나타낼 수 있어 통계 분석 시 유용하게 사용된다.""히스토그램의 특징은 다음과 같다. 첫째, 각 구간의 너비가 동일하다. 둘째, 각 막대의 높이는 해당 구간에 속하는 관찰값의 빈도를 나타낸다. 셋째, 막대의 면적은 해당 구간의 상대도수를 의미한다.""따라서 히스토그램은 자료의 중심, 퍼짐, 偏(치우침), 첨도 등의 분포 특성을 파악하는 데 유용하다.""
1.2. 데이터 시각화 기법
1.2.1. 막대그래프
막대그래프는 사각형의 막대로 각 범주에 대한 값을 표시하는 가장 일반적인 데이터 시각화 기법 중 하나이다. 막대그래프는 각 범주별로 수치 값의 상대적 크기를 한눈에 파악할 수 있어, 데이터의 특징을 쉽게 이해할 수 있게 한다. 막대의 길이는 각 범주의 값을 나타내며, 막대의 순서나 배치는 범주 간 비교를 용이하게 해준다. 이를 통해 데이터의 경향성, 변화추이, 분포 등을 효과적으로 전달할 수...