소개글
"데이터베이스 설계와 활용 2024년 2학기 방송통신대"에 대한 내용입니다.
목차
1. 시계열 데이터 분석 기법
1.1. 평활화(smoothing)
1.2. 차분(differencing)
1.3. 변수변환
2. A/B 검증
3. 네이버 데이터랩을 활용한 20대 여성과 40대 여성의 취미생활 비교
3.1. 20대 여성과 40대 여성의 취미활동 차이 분석
3.2. 분석 결과 및 의미 있는 결론
4. 기후위기 부정론자 설득을 위한 시각화 방법
4.1. 국가별/지역별 평균기온 변화 맵
4.2. 애니메이션을 활용한 온도 변화 추이 시각화
5. 참고 문헌
본문내용
1. 시계열 데이터 분석 기법
1.1. 평활화(smoothing)
시계열 데이터의 평활화(smoothing)은 주기가 짧은 변동요인, 즉 교란요인을 제거하여 시계열의 기조적 흐름을 파악하도록 해준다. 평활화에는 중심화 이동평균, 후방이동평균, 이중이동평균, 가중이동평균 등이 있으며, 이 중 중심화 이동평균(centered moving average)이 주로 이용된다.
경제시계열의 불규칙변동요인을 제거할 경우에는 주로 3기 중심화 이동평균을 이용한다. 중심화 이동평균 시계열은 원래 시계열과 시차구조가 동일하다는 장점이 있다. 또한 이동평균항 수를 늘리면 시계열의 보다 장기적인 변동도 파악할 수 있다. 그러나 이동평균 과정에서 시계열의 처음이나 마지막 시점에서 자료가 없어 이동평균값을 구할 수 없으므로, 장기 이동평균을 이용하는 데 한계가 있다. 이 경우 시계열의 예측값을 구해 이동평균값을 구하거나 가능한 자료만으로 이동평균을 구하기도 한다.
그림1은 1989년부터 2008년까지 (온수 판매는 제외) 호주 남부의 매년 주거용 전기 판매량에 대해 5-MA로 예측한 값들을 보여준다. 둘째 열의 첫 번째 값은 첫 5개 관측값(1989~1993)의 평균[(2354.34+2379.71+2318.52+2468.99+2386.09)/5=2381.53]이고, 두 번째 값은 1990~1994의 평균이다. 즉, 5-MA가 있는 열의 각 값은 5년의 기간의 관측값을 평균하여 가운데 값으로 나타낸 것으로, 첫 2개의 연도와 마지막 2개 연도에서는 평균을 계산하기 위한 관측값이 부족해서 예측값이 없다.
따라서 평활화는 시계열의 단기변동성을 제거하여 장기적인 추세와 순환성을 효과적으로 파악할 수 있게 해준다고 할 수 있다.
1.2. 차분(differencing)
차분(differencing)은 시계열의 수준에서 나타나는 변화를 제거하여 시계열의 평균 변화를 일정하게 만들어 추세나 계절성을 제거하거나 감소시키는 방법이다.
시계열은 안정시계열과 불안정시계열로 구분되는데, 안정시계열은 시계열의 움직임이 구간이 달라지더라도 매 구간별 특성이 동일한 반면, 불안정시계열은 시계열의 평균 및 분산이 시간에 따라 변화하는 시계열이다. 경제시계열은 대체로 추세변동요인과 계절변동요인이 뚜렷한 불안정시계열이므로, 차분을 통해 안정시계열로 전환할 필요가 있다.
차분은 현재 시점 자료에서 과거 인접 시점의 자료를 차감하는 것을 의미한다. 이를 통해 시계열이 전기에 비해 얼마나 증감했는지를 알 수 있으며, 추세변동이 있는 시계열에서 추세변동을 제거할 수 있다. 즉, 차분은 장기적 변동을 제거하는 데 유용하다.
...
참고 자료
데이터처리와 활용, 심송용 외 4인, KNOU PRESS, 2020
김연희(2019), 데이터베이스개론 2판, 한빛아카데미.
https://draw.io/
이긍희 외, 빅데이터의이해와활용, 한국방송통신대학교출판문화원, 2022.
이긍희 외, 예측방법론, 한국방송통신대학교출판문화원, 2023.
박서영, 이긍희(2023), 데이터시각화, 출판문화원.
에일린 닐슨, 실전 시계열 분석, 한빛미디어, 2021.
https://www.youtube.com/watch?v=pLqjQ55tz-U
https://otexts.com/fppkr/
https://wikidocs.net/233151