본문내용
1. 정형 데이터의 유형
1.1. 범주형 데이터
1.1.1. 명목형 데이터
명목형 데이터는 특정 대상을 단순히 분류하거나 구분하는 데 사용되는 범주형 데이터의 한 유형이다. 명목형 데이터는 관측치 간에 순서나 크기 비교가 불가능하며, 단지 각 관측치들을 서로 다른 명칭이나 범주로 구분할 수 있을 뿐이다. 예를 들어 성별, 혈액형, 거주 지역 등이 명목형 데이터의 대표적인 사례이다. 이러한 데이터는 단순히 특정 대상을 나타내는 라벨이나 코드로 구성되므로, 수치적인 크기 비교나 연산이 불가능하다. 명목형 데이터는 단지 관측치들 간의 동일성 또는 차이만을 구분할 수 있을 뿐, 순서나 간격이 의미 있는 것은 아니다. 따라서 명목형 데이터는 통계 분석 시 제한적인 방법만을 사용할 수 있다는 특징이 있다.
1.1.2. 순서형 데이터
순서형 데이터는 관측치 간에 순서가 있는 데이터이다. 순서형 데이터는 명확한 수치적 비교는 어렵지만, 크기나 순서 비교가 가능하다. 대표적인 예로 학력 데이터와 리커트 척도가 있다.
학력 데이터는 '중학교 졸업 이하', '고등학교 졸업', '대학교 졸업', '대학원 졸업'과 같이 의미적 순서가 존재하는 범주로 나뉜다. 리커트 척도는 설문조사에서 자주 사용되며, 응답자가 특정 질문에 대해 어느 정도 동의하는지를 순서에 따라 표시할 수 있다. 예를 들어, '매우 동의함', '다소 동의함', '중립', '다소 반대함', '매우 반대함'과 같은 응답 범주가 있다. 이 척도는 5점 척도가 일반적이지만, 때로는 3점이나 7점으로 조정될 수도 있다.
순서형 데이터는 명확한 수치적 비교는 어렵지만, 상대적 크기나 순서를 통해 간접적인 비교는 가능하다. 하지만 범주 간의 간격이 동일하다고 가정할 수는 없다. 예를 들어, '매우 동의함'과 '다소 동의함'의 차이가 '중립'과 '다소 반대함'의 차이와 같다고 단정 지을 수 없다. 따라서 순서형 데이터를 사용할 때는 해당 범주와 순서가 측정 목적에 적절한지 신중히 검토해야 한다. 경우에 따라 순서형 척도가 적절하지 않을 수도 있다.
순서형 데이터는 감각적 경험이나 주관적 평가를 측정하는 데 유용하게 사용된다. 특히 사람들의 태도, 선호도, 만족도 등을 파악하는 데 효과적이다. 이러한 데이터는 통계 분석 시 서열척도로 간주되어 처리된다. 순서형 데이터로 얻은 정보는 집단 간 비교나 추세 분석 등 다양한 활용이 가능하다.
1.2. 수치형 데이터
1.2.1. 이산형 데이터
이산형 데이터(discrete data)는 정수 값만을 가지며, 관측치 간의 간격이 명확히 구분되는 데이터를 의미한다. 이산형 데이터는 셀 수 있는 개별적인 값들로 구성되며, 연속적인 변화가 아닌 불연속적인 변화를 나타낸다.
이산형 데이터의 대표적인 예로는 각 학급의 학생 수, 전국의 자동차 대수, 일일 스마트폰 생산량, 강의 출석 학생 수, 사무실 책상 수 등을 들 수 있다. 이러한 데이터는 정수 단위로 측정되며, 소수점 이하의 값을 갖지 않는다. 예를 들어 학생 수는 5명, 10명 등의 정수로 표현된다.
이산형 데이터는 연속형 데이터와 달리 수직선상에서 특정 지점에만 존재하며, 그 사이의 값은 존재하지 않는다. 따라서 이산형 데이터는 측정 단위가 명확하고 정수 단위로 표현된다는 특징이 있다. 이는 이산형 데이터가 계수(counting)의 대상이 되는 데이터라는 것을 의미한다.
이산형 데이터는 통계 분석 시 주로 카운팅, 분포 분석, 확률 계산 등에 활용된다. 예를 들어 어느 지역의 가구 수, 어떤 제품의 일일 판매 건수, 특정 질병에 걸린 환자 수 등을 분석할 때 이산형 데이터가 사용된다. 이산형 데이터는 연속형 데이터와 달리 평균, 분산 등의 모수 추정에 있어 다른 통계적 기법이 적용되어야 한다.
또한 이산형 데이터는 범주형 데이터와도 구분된다. 범주형 데이터는 질적 특성을 나타내는 반면, 이산형 데이터는 양적 특성을 나타낸다. 예를 들어 성별은 범주형 데이터이지만, 자녀 수는 이산형 데이터에 해당한다.
종합하면, 이산형 데이터는 셀 수 있는 개별 값들로 구성되며, 정수 단위로 측정되는 데이터를 말한다. 이는 연속형 데이터와 달리 불연속적인 변화를 나타내며, 통계 분석 시 특화된 기법이 요구된다. 이산형 데이터는 현실 세계의 다양한 현상을 수치화하여 측정하는 데 활용된다.
1.2.2. 연속형 데이터
연속형 데이터는 수직선 상의 어느 지점에서나 값을 가질 수 있는 데이터로, 이산형 데이터와 달리 값이 연속적으로 나타난다. 이러한 데이터는 소수점 단위까지 표현할 수 있으며, 가능한 값의 범위가 무한하다는 특징을 가지고 있다.
예를 들어, 사람의 키, 몸무게, 시간, 습도, 전력 사용량, 혈압, 풍속 등은 모두 연속형 데이터에 해당한다. 이러한 데이터들은 0.1cm, 0.3kg, 12.54초, 50.5%, 23.56kWh, 120.5/80.3 mmHg, 2.45m/s 등과 같이 소수점 단위로 정확하게 표현될 수 있다.
연속형 데이터는 수치적 측정이 가능하다는 점에서 통계적 분석에 용이하다. 평균, 표준편차, 상관관계 등의 산출이 가능하며, 다양한 수학적 연산을 적용할 수 있다. 또한 회귀분석 등의 기법을 활용하여 데이터 간의 관계를 모델링할 수 있다. 이처럼 연속형 데이터는 정량적 분석에 매우 유용하게 활용될 수 있다.
한편, 연속형 데이터를 다룰 때에는 데이터의 측정 단위와 범위, 정확도 등을 고려해야 한다. 예를 들어 온도의 경우 섭씨, 화씨, 켈빈 등 서로 다른 단위로 표현될 수 있으므로, 분석 시 이를 통일할 필요가 있다. 또한 실수 범위 내의 모든 값을 가질 수 있다는 특성으로 인해 이상치나 극단값의 처리에 주의를 기울여야 한다.
결론적으로, 연속형 데이터는 정량적 측정이 가능하고 통계적 분석에 용이하다는 점에서 다양한 분야에서 널리 활용되고 있다. 데이터의 속성을 정확히 이해하고 적절한 분석 기법을 적용하는 것이 중요하다.
2. 데이터 주도권과 필요 소양
2.1. 데이터 주도권을 지니기 위해 갖추어야 할 소양
빅데이터 시대에 접어들어 인공지능 등 첨단 기술의 발전이 가속화되면서, '데이터 주도권'이라는 개념이 강조되고 있다. 데이터 주도권을 지니기 위해 데이...