출석수업 과제물(평가결과물) 표지(온라인제출용)교과목명 : 데이터마이닝 (2024년도 1학기)데이터마이닝의 방법은 크게 모수적 모형 접근 방법과 알고리즘 접근 방법으로 나뉜다.1) 모수적 모형 접근법은 단순 선형 회귀분석의 식인 Y=a+bx에서의 모수인 a 및 b를 기존의 데이터를 기반으로 추정하는 방법을 의미한다. 기본 모형 식이 존재하며, 이 때의 모수를 최대우도추정법 또는 최소제곱법 등의 방식을 이용하여 구한다. 결과가 복잡하지 않으며, 결과에 대한 해석이 용이한 편이다.1) 그러나 데이터가 가정한 식에 부합하지 않는 경우라면 정확도가 낮아질 수 있다는 단점이 존재하며, 로지스틱회귀모형 또는 선형회귀분석이 이에 해당한다.1) 임상팀에서 근무하면서 생존 분석과 관련된 자료를 많이 보는데, 이 또한 데이터마이닝의 모수적 모형 방법론 중 하나에 해당하며, 생존 시간의 데이터를 활용하여 예측모델을 만들 수 있다. 실제 경진대회에서 선정된 주제인 ‘3대 암 생존여부 및 생존일수 예측 모델’, 및 ‘조직학적 진단 및 건강정보 기반으로 암 병기 예측 모델 개발’을 살펴보면 이와 같은 예시가 적용됨을 알 수 있다.2)반면 알고리즘 접근방법은 말 그대로 알고리즘에 의하여 정해진 방법대로 결과를 계산하며, 이를 분석하는 방법을 의미한다.1) 정해진 방식으로 데이터를 학습한다는 특징이다. 이 때, 데이터가 많이 복잡하더라도 알고리즘 접근방법을 적용할 수 있다.1) 그러나 알고리즘의 방법, 속성 등을 제대로 이해하지 못한 상태에서 남용하는 경우에는 과도 적합 (over-fitting)을 할 수 있다는 단점이 있으며, 해석이 상대적으로 어렵다.1) 예시로는 부스팅(boosting), 랜덤포레스트(random forest), 배깅(bagging), 신경망모형 및 의사결정나무 등이 있다.1) 특히 넷플릭스 OTT 서비스의 경우 알고리즘 접근법을 사용하여 사용자의 기록 등을 분석하여 맞춤형 추천을 제공한다.3)방송통신대 *** 교수 상담게시판의 텍스트 데이터를 분석하기 위해 모수적 모형과 알고리즘 접근법 두 가지 측면에서 고려해보았다. 게시판에는 대부분 교과목 학습 내용 및 과제와 관련된 질문이 올라오면, 이에 대한 답변이 달려있다. 개인적으로는 상담게시판에 질문을 하기 전 유사한 질문과 그에 대한 답변이 있는지 먼저 확인하는 편이므로 이와 관련된 주제를 분석하고자 한다. 먼저 교과목명에 따라 주제를 분류하고, 출석수업에 대한 과제 질문인지 아니면 교과 내용에 관련된 질문 사항인지 분류를 할 수 있다. 이 때, 알고리즘 접근방법에 속하는 텍스트 마이닝 기술을 활용하여 자주 반복되는 질문을 추출하여 비슷한 질문에 대해 데이터베이스를 만들 수 있다. 추가적으로는 모수적 모형 접근 방법 측면에서는 질문 중 키워드를 추출하여 연도별로 질문의 내용이 어떻게 변화하는 지 비교할 수 있다.와인품질 데이터 – 로지스틱 회귀모형먼저 getwd() 함수를 이용하여 파일의 저장 경로를 확인하였으며, Data 파일이 저장된 위치로 설정하기 위해 setwd() 함수를 이용하여 파일이 저장된 경로로 설정하였다.1) data 이름을 wine으로 설정하여 read.csv()를 이용하여 불러왔으며, 첫번째 행이 변수명이므로 head=TRUE를 설정하였다.1) 데이터를 확인하기 위해 head()를 사용한 결과, 제대로 불러오기가 되었음을 확인하였다.1)Alcohol 변수로지스틱회귀모형 함수의 구조는 glm(formula, family, data, na.action)이다.4) w.alcohol로 정의 후 formula는 목표변수~입력변수로, 각각 quality ~ alcohol, 로지스틱회귀모형에 해당하는 family설정은 family=binomial이다.4) Data는 위에서 설정한 wine으로 지정하였으며, 결측치가 없으므로 별도의 명령문은 입력하지 않았다. 4) summary()로 명령문 실행 결과의 로지스틱 회귀모형은 y절편은 -11.87, 기울기는 1.17로, y=-11.87+1.17x이다.Sulphate 변수w.sulphates로 정의 후 formula는 목표변수~입력변수로, 각각 quality ~ sulphates, 로지스틱회귀모형에 해당하는 family설정은 family=binomial이다.4) Data는 위에서 설정한 wine으로 지정하였으며, 결측치가 없으므로 별도의 명령문은 입력하지 않았다. 4) summary()로 명령문 실행 결과의 로지스틱 회귀모형은 y절편은 -4.51, 기울기는 7.48로, y=-4.51+7.48x이다.전체 변수 중 5개5개 변수를 선택하기 위해 먼저 모든 변수에 대해 로지스틱 회귀모형을 적합하였다. w.all로 정의 후 formula는 목표변수~입력변수로, 각각 quality ~ volatile + citric + totalSD + sulphates + alcohol로 입력변수는 +로 연결하였으며, 로지스틱회귀모형에 해당하는 family설정은 family=binomial이다.4) Data는 위에서 설정한 wine으로 지정하였으며, 결측치가 없으므로 별도의 명령문은 입력하지 않았다. 4) 명령문 실행 결과 p-value 적은 순으로 5가지 변수를 선택하면 volatile, citric, total SD, sulphates, alcohol이다.AIC가 가장 작은 최종 모형을 구하기 위해 step() 함수를 사용하였으며, 단계적 선택법인 direction=”both” 명령문에 따라 유의한 입력변수가 선택되었다.4) Density, residsugar, fixed 변수가 제외되었다. 최종 모형은 입력변수 중 8개가 선택되어 구성되었다.위에서 선택한 5가지 변수만 선택하여 분석하기 위해 w.five로 정의 후 formula는 목표변수~입력변수로, 각각 quality ~ volatile + citric + totalSD + sulphates + alcohol 로 입력변수는 +로 연결하였으며, 로지스틱회귀모형에 해당하는 family설정은 family=binomial이다.4) Data는 위에서 설정한 wine으로 지정하였으며, 결측치가 없으므로 별도의 명령문은 입력하지 않았다.4) summary()로 명령문 실행 결과의 로지스틱 회귀모형은 y=-10.69-2.88X1-0.89X2-0.01X3+5.46X4+0.93X5이다 (X1=volatile, X2=citric, X3=totalSD, X4=sulphates, X5=alcohol). 이 때, citric만 제외하고 나머지 회귀계수는 모두 유의하였다.1번부터 3번까지의 결과를 비교하였을 때, w.step의 경우가 AIC가 1245.5로 가장 작았다.번호모형AIC1번Alcohol1385.52번Sulphates1478.63번volatile + citric + totalSD + sulphates + alcohol1255.9All모든 변수1249.8stepVolatile, citric, chlorides, free SD, total SD, pH, sulphates, alcohol1245.5References장영재·최상범·한승봉 공저, 2023, R컴퓨팅, 한국방송통신대학교 출판문화원 Hyperlink "https://medicalworldnews.co.kr/news/view.php?idx=1510946616" [12월 8일 병원계 이모저모①] 국립암센터, 보라매, 세브란스, 충북대, 좋은삼선병원 등 소식 (medicalworldnews.co.kr) Hyperlink "https://www.cctvnews.co.kr/news/articleView.html?idxno=71125" 넷플릭스 알고리즘 분석 결과->캐릭터·스토리 주요 기준 - CCTV뉴스 - 신동훈 기자 (cctvnews.co.kr)장영재·김현중·조형준 공저, 2023, 데이터 마이닝, 한국방송통신대학교 출판문화원
2024학년도 1학기 중간과제물(온라인 제출용)교과목명:예측방법론과제 1.원계열이란 원래의 시계열 자료로 추가적인 조정이 없는 원 상태 그대로를 의미하며 시간에 따라서 관측된 데이터이다. 시계열 자료에서는 시간의 흐름에 따라서 패턴과 변동이 존재하는데, 변동의 요소로는 불규칙변동, 추세변동, 계절변동, 순환변동이 있다.1)계절조정은 시계열 자료에 있는 계절 변동을 통계적인 방법으로 추출한 뒤, 원래 시계열 자료로부터 제거하여 조정하는 과정을 의미하며, 이 때 계절 변동은 주기가 1년이며, 계절 변화와 여러 관습 등에 의해서 발생하게 된다. 이러한 과정이 원계열에 적용되었을 때, 즉 원래 자료에서 계절 변동이 제거된 계열을 계절조정계열이라고 한다. 1)광공업생산지수란 제조업, 광업, 전기·가스·증기 및 수도사업을 대상으로 하여 매 월마다생산 실적을 조사한 것을 의미하며, 기준년도 (2015년=1000)의 생산 수준과 비교하여 현재의 생산 수준 정도를 나타내는 지표이다.2) 이 중 제조업에 해당하는 부분만 나타낸 것을 제조업 생산지수라고 하며 이는 공급망의 변동, 자연 재해, 수요의 변화 등 여러 외부적 요인으로부터 영향을 받아 변동한다. 제조업에 영향을 주는 계절 요인으로는 예를 들면 8월의 경우는 여름 휴가가 있기 때문에 공장 가동률이 감소하여 이로 인한 영향으로 생산 규모가 감소하는 것처럼 보인다.3) 이러한 왜곡을 피하기 위해 전년의 동월 지표와 비교하거나 차분을 하는 등 여러 조정 방법을 사용한다.과제 2.시도/산업별 광공업생산지수 자료 중 1980년 1월부터 2023년 12월까지의 제조업에 해당하는 자료 중 생산지수(원지수)와 생산지수(계절조정)를 엑셀 파일로 다운로드하였다. Readxl, zoo 패키지를 이용하여 excel을 읽어 product로 저장하였다.1) Date에 해당하는 변수를 seq를 이용해서 zoo 객체를 생성하였으며, head()를 이용하여 data가 잘 정의되었는지 확인하였다.2) 이후 plot()을 이용하여 시계열도표를 작성하였다.1) 빨강색 선은 원계열, 검정색 선은 계절조정계열에 해당하는 범례를 추가하는 legend() 명령어를 입력하였다.1)1980년대부터 2023년까지 광공업 생산지수는 전반적으로 점차 증가하고 있으나, 그 안에서는 증감을 반복하고 있다. 빨강색 선을 보면 검정색 선에 비해 변동이 더 크기 때문에 계절 변동의 영향을 받는 것으로 보이며, 검정색 선은 계절조정 지수로 변동 요인을 조정하였기 때문에 빨강색 선에 비해 변동 폭이 적은 것으로 나타났다. 전반적으로 계속 상승하였으나 1990년대 말, 2000년대 말, 2020년대 초 급감하는 양상을 보였는데, 이는 각각 IMF, 리먼 브라더스 사태, COVID-19로 인한 경기 둔화로 제조업이 영향을 받아 제조업 지수가 감소한 것으로 보인다.과제 3.ts객체를 이용하여 데이터의 시작 시점을 설정하였으며, 이 때 데이터는 원계열은 product의 2열, 계절조정계열은 product의 3열이므로, 해당하는 범위를 지정하였다.1) 스펙트럼을 그래프로 나타내었으며, 빨간색 선은 저주파수와 계절주파수에서 큰 값을 가진다. 1) 저주파수에서의 값이 큰 것은 추세 변동이 존재한다는 의미이며, 계절주파수의 값이 큰 것은 계절 변동이 존재한다는 뜻이다.1) 파란색 선은 저주파수는 큰 값이나 계절주파수에서는 높은 값이 아니다.1) 이는 계절조정계열로 계절 변동이 제거된 자료임을 의미한다.과제 4.기존 엑셀파일에서 3열인 생산지수 (계절조정)는 계절조정된 제조업생산지수를 의미한다. 이를 차분하기 위해 product_ts의 2열에서 1차 차분한 값을 dlproduct_1로 정의하였다.1) Head()를 사용한 결과 1차 차분의 값이 제대로 생성되었음을 확인하였다.1,4)ADF (Augmented Dickey-Fuller) 검정을 각각 실시하고 검정결과를 정리하시오.계절조정된 제조업생산지수는 product_ts[,2]에 해당하며, ADF 검정 결과의 p-value가 0.3293으로 유의하지 않았다. 귀무가설은 시계열이 단위근을 갖는 것이므로, 검정 결과 귀무가설을 기각하였다. 차분한 계열은 dlproduct_1에 해당하며, ADF 검정 결과 p-value가 0.01로 유의하며, 귀무가설을 기각하였다. 이는 1차 차분한 계열은 단위근이 없음을 의미하며, 1차 차분 계열은 I(1) 적분계열이다.두 계열의 상관도표와 부분상관도표를 각각 작성하고 그 특징을 정리하시오.계절조정계열과, 이를 차분한 계열에 대해 acf() 명령문을 이용하여 상관도표를 그렸다. 상관도표의 점선은 유의수준 5% 기각역을 의미하며, 이 선을 초과하면 해당 시차에서의 자기상관계수는 0과 다르다는 의미이다.1) 계절조정계열의 상관도표에서 모든 시차에서 선을 초과하였으며, 차분한 계열에서는 1차에서 매우 큰 값을 보인 후 대부분 점선 안의 작은 값을 나타냈다. 이는 해당 시계열이 추세변동이 포함된 불안정시계열이라는 것을 의미한다.1)계절조정계열과, 이를 차분한 계열에 대해 pacf() 명령문을 이용하여 부분상관도표를 그렸다. 계절조정계열의 부분상관도표에서는 추세변동이 사라져서 대부분 점선 안에 들어왔음을 알 수 있으며, 계절조정 차분계열의 부분상관도표에서도 추세변동이 사라지며, 대부분 점선 안에 들어와 있다. 다만 음수와 양수가 반복되는데, 이는 추세변동이 사라졌으나 계절변동이 남아있다는 것을 의미한다.References이긍희·이한식 공저, 2023, 예측방법론, 한국방송통신대학교 출판문화원네이버 지식백과, Hyperlink "https://terms.naver.com/entry.naver?docId=3434296&cid=58456&categoryId=58456" 광공업생산지수 (naver.com) Hyperlink "https://www.hani.co.kr/arti/economy/economy_general/513864.html" 취업 48만명 늘어 고용대박? 계절조정 수치는 위축신호 (hani.co.kr)심송용·이윤동·김성수 공저, 2021, 파이썬과 R, 한국방송통신대학교 출판문화원
출석수업 과제물(평가결과물) 표지(온라인제출용)교과목명 : 다변량분석 (2024년도 1학기)연습문제 1장 (p.38)3번. 자유도가 5인 t-분포를 따르는 난수 100개를 만들어 분석하고자 한다. R과 파이썬을 이용하여 다음에 답하시오.[R]난수를 생성하시오.학번 뒤의 4자리를 set.seed()에 입력하여 설정하였으며, 자유도가 X인 t분포의 난수 Y개를 설정하는 코드는 rt(Y, df=X)이므로 해당 숫자에 맞추어 입력하여 난수 100개를 설정하였다.1)히스토그램을 그리고 설명하시오.난수는 생성될 때마다 매번 변하므로, 앞서 설정한 set.seed() 입력 후 히스토그램을 그리는 함수인 hist() 명령어를 이용하였다.2,3) 그 결과는 다음과 같으며, -4부터 4이상 범위까지의 분포이며, 2-4까지는 데이터가 없으나 분포의 형태는 전반적으로 오른쪽 꼬리가 긴 모양임을 확인하였다.상자그림을 그리고 설명하시오.난수는 생성될 때마다 매번 변하므로, 앞서 설정한 set.seed() 입력 후 상자그림을 그리는 함수인 hist() 명령어를 이용하였다.2,3) 그 결과는 다음과 같이 중앙값은 0에 가까우며, 제1사분위수와 제3사분위수는 각각 -2보다 크고 2보다 작다.줄기-잎 그림을 그리고 설명하시오.난수는 생성될 때마다 매번 변하므로, 앞서 설정한 set.seed() 입력 후 줄기-잎 그림을 그리는 함수인 stem() 명령어를 이용하였다.2,3) 그 결과는 다음과 같으며, 일부는 4이상의 값이 3개 존재하나 대부분 2 미만의 값이 많아 분포가 한 쪽으로 치우쳐 있음을 알 수 있다.[파이썬]난수를 생성하시오.T분포에서 표본을 추출하는 함수는 np.random.standard_t(자유도, 원소 수), np.random.standard_t(자유도, [shape])이다.4) R과 동일하게 학번 뒷 4자리로 seed를 설정한 후, data1로 정의하였다.히스토그램을 그리고 설명하시오.히스토그램을 그리는 함수인 plt.hist() 명령어를 이용하였다.2,3) 분포는 -4에서 oxplot() 명령어를 이용하였다.2,3) 중앙값은 0 근처이며, 1분위수와 3분위 수는 -1과 1사이에 존재한다.줄기-잎 그림을 그리고 설명하시오.Pip install stemgraphic을 이용하여 파이썬 패키지를 설치하였다.2) stemgraphic 명령문을 이용하여 줄기-잎 그림을 그린 결과는 위와 같다.2) -1과 1사이에 분포가 밀집되어 있으며, 양쪽 대칭이 아니라 살짝 한쪽으로 치우친 분포이다.4번. 다음은 R에 내장된 “Longley” 데이터이다.R을 이용하여 산점도행렬, 별그림, 얼굴그림을 그리고 해석하시오.‘longley’ data를 불러와서 head()를 사용하여 제대로 불러왔는지 확인한다.6) 산점도 행렬은 pairs() 후 결측치 제외하여 상관계수 행렬을 계산하되 소수점 이하 3자리로 반올림하도록 출력을 설정하였으며, unemployed, armed.forces를 제외하고는 상관관계가 비교적 높은 것으로 나타났다 2). 별그림은 stars(), 얼굴그림은 aplpack 패키지 설치 후 faces() 함수를 이용하였다.2) 별그림은 별모양의 점이 각각의 변수에 대응되도록 하여 나타낸 것이며, 얼굴그림은 얼굴의 여러 특성을 변수와 대응하여 값을 나타낸 것이다 별의 크기와 모양, 얼굴의 여러 특성으로 유사한 관찰값과 변수와의 관계를 찾을 수 있다. 별의 크기가 점점 커지며, 얼굴 모양도 점차 커지며 width of face에 해당하는 GNP, width of mouth에 해당하는 population, smiling에 해당하는 year, width of eyes에 해당하는 GNP.deflator 등 여러 특성 또한 시간이 지남에 따라 점차 커짐을 알 수 있다.“Longley” 데이터를 CSV 파일로 저장하시오.파일 경로를 확인 후, write.csv()를 이용하여 csv 파일로 저장됨을 확인하였다.3)파이썬을 이용하여 데이터를 읽고, 산점도 행렬을 그리시오. 출력결과를 R과 비교하여 설명하시오.(2)에서 생성한 csv 파일을 python에서 행렬도 구하였다.2) R과 python의 산점도행렬 결과는 그림 비교 결과 같았다.연습문제 2장 (p.77)3번. 다음은 어느 도시의 14개 지역에 대한 사회조사자료이다. 이 자료를 이용하여 다음과 같이 주성분분석을 실시하시오.R을 이용하여 다음과 같이 주성분분석을 실시하고 결과를 비교하시오.5개 변수들 사이의 상관계수 행렬을 구하시오.Data를 불러온 후, cor()를 이용하여 5개 변수 사이의 상관계수 행렬을 구하였다.2)고윳값을 구하고 그 고윳값이 확보하는 정보의 양 및 누적정보량을 구하시오.주성분분석을 실시하기 위해 princomp()를 사용하였다.2) 각 주성분의 표준편차를 제곱하여 고윳값을 얻으면 개별 고윳값은 3.03, 1.29, 0.57, 0.10, 0.01이며, 고윳값이 확보하는 정보의 양은 Proportion of variance를 보면 각각의 성분이 61%, 26%, 11%, 2%, 0%의 분산비율을 나타내며 해당 %만큼의 정보를 갖고 있음을 알 수 있다. 누적정보량은 cumulative proportion을 보면 차례로 61%, 86%, 98%, 100%, 100%이다.1보다 큰 고윳값과 그 고윳값들이 확보하는 누적정보의 양을 구하시오.각 주성분의 표준편차를 제곱하여 고윳값을 얻으면 city_val() 값과 같이 1보다 큰 고윳값은 제1주성분의 분산이 3.03, 제2주성분이 1.29이다.2) city_val()의 5개 값을 모두 더하면 변수의 개수인 5가 나온다. 1보다 큰 고윳값들이 확보하는 누적 정보의 양은 cumulative proportion을 보면 차례로 61%, 86%이며, 1보다 큰 고윳값의 누적정보 양은 86%이다.위 결과를 이용하여 주성분분석을 하시오.Screeplot()을 이용하여 스크리 그림을 그렸으며, 주성분의 고윳값 크기 순으로 그린 것으로 고윳값이 1보다 큰 주성분은 2개이다.2) 누적 분산그림은 plot(cumsum())을 이용하였다.제1주성분은 V5 (주택가격의 중위수 값)을 제외한 모든 변수의 절댓값이 큰 는 성분으로 볼 수 있다.주성분 계수는 city_pca$loadings[,c(1:2)] 명령어로, 첫 번째, 두 번째 주성분 점수는city_pca$scores[,c(1:2)] 명령어로 구하였으며, 각 개체에 대한 및 행렬도를 나타내었다. Comp.1 (제 1주성분) 기준으로 V5의 방향이 나머지 네 변수와 다른 방향이며, Comp.2 (제 2 주성분) 기준으로 V2, V5가 같은 방향 및 가까이 위치함을 알 수 있다.파이썬을 이용하여 주성분분석을 실시하고 R의 결과와 비교, 분석하시오.파이썬에서 데이터 읽기를 실행한 후 소수점 이하 2자리는 반올림 표시를 하였다.분석 변수를 선택한 후 변수 표준화를 실시하였다. 초기 주성분 분석을 실시하였으며, 스크리그림을 그렸다.이후 주성분 수 2개를 추출하여 주성분분산을 구하였으며, R에서의 값인 3.03, 1.29와 비교하면 약간의 차이가 있다. 주성분분산 비율을 구하면 R에서의 값인 0.61, 0.26과 유사한 수치임을 확인하였다.주성분 개수를 5개로 하였을 때 주성분분산은 R에서의 값인 3.03, 1.29, 0.57, 0.10, 0.01과 비교하면 완전히 일치하지는 않으나 유사하다. 주성분분산 비율도 반올림하면 R에서의 값인 0.61, 0.26, 0.11, 0.02, 0.00과 같다. 또한, 주성분 계수 및 주성분 점수 모두 R에서의 값과 같음을 확인하였다.연습문제 4장 (p.174)3번. 세계의 46개 주요 도시에 대한 물가와 소득에 관한 데이터를 아래와 같이 수집하였다 (1991년 기준). R과 파이썬을 각각 이용하여 46개 도시에 대한 군집분석을 다음과 같이 실시하시오.각 변수로 관찰값들을 표준화하시오.[R]경로 확인 후, 해당 data를 불러오기 하였다. Head()를 이용하여 제대로 불러왔는지 확인 후, 표준화를 위해 scale()을 사용하였으며, data 이름 앞에 z를 붙였다.2) 표준화 효과 확인 위해 zcity의 평균, 표준편차 확인한 결과 각각 0, 1으로, 표준화 진행되었음을 확인하였다.[Pytho표현하시오. 몇 개의 군집이 적절하다고 판단되는지 설명하시오.[R]최장연결법을 사용하기 위해 method=complete 명령어를, 이를 덴드로그램으로 나타내고자 plot()을 이용하였다.2) 3 개의 군집이 적절함으로 판단하였다.[Python]파이썬에서 계층적 군집분석을 위해 scipy.cluster.hierarchy를 미리 불러 정의한 후, 최장연결법 명령어인 complete를 입력하였다.2) R과 동일한 결과가 나온 것을 확인하였다.K-평균 군집분석방법을 이용하여 4개 군집에 대한 군집분석을 실시하시오.[R]K-평균 군집분석을 실행하는 명령어인 kmeans()를 이용하였으며, 군집 데이터, K-평균 군집 데이터에서의 모든 변수들을 그림으로 나타내기 위해 plot()을 이용하였다.2)[Python]K-평균 군집분석을 실시하기 위해 sklearn.cluster() 패키지를 설치하여 KMeans() 함수를 사용하였으며, 소속 군집 산점도 2가지 (hour-price, hour-income)를 그린 결과 R의 1행 2열, 1행 3열 그림과 같음을 확인하였다.2)References Hyperlink "https://rfriend.tistory.com/110" R, Python 분석과 프로그래밍의 친구 (by R Friend) :: R t-분포 (Student’s t-distribution) : t() (tistory.com)김성수·김현중·정성석·이용구 공저, 2022, R과 Python을 이용한 다변량분석, 한국방송통신대학교 출판문화원심송용·이윤동·김성수 공저, 2021, 파이썬과 R, 한국방송통신대학교 출판문화원 Hyperlink "https://statools.tistory.com/351" [파이썬 강의] 79. 표본추출 (t분포) (tistory.com) Hyperlink "https://rfriend.tistory.com/284" R, Python 분석과 프로그래밍의 친구 (by R Friend) :: [Python NumPy] 무작위 표본 추출, 난수 만원
출석수업 과제물(평가결과물) 표지(온라인제출용)교과목명 : 수리통계학 (2023년도 2학기)통계학자 2명을 조사하고 그의 통계, 확률 관련 업적을 2페이지 이내로 정리하시오.고셋 (William Sealy Gosset, 1876~1937)은 영국의 통계학자이며, 옥스포드 대학에서 수학과 화학을 전공한 후 1899년 Messers Guinees 양조회사에 근무하였던 양조기술사였다.1-3) 맥주원료의 품종을 비교 및 연구하기 위한 실험을 설계하였고, 성장과 수확물 관리 및 여러 자료의 분석을 담당하는 통계 전문가 역할도 수행하였다.1,2) 당시 회사에서 제조하는 맥주 맛이 일정하지 않았기에, 맥주의 맛을 결정하는 효모의 양을 연구하는 과정에서 t분포 이론을 발견하였다. 당시 알려진 통계 이론으로는 모집단을 파악하기 위해서는 정규분포를 따른다는 가정을 만족시키기 위해 표본의 개수가 많이 필요하였으나, 현재와 달리 현실적으로 크기가 수백 개 이상인 표본을 모으는 것이 어려웠다.1) 분석을 위해 주어진 자료는 한계가 있어 적은 표본의 분산이 모집단의 분산보다 작아져서 오차로 인해 모집단의 추론이 어려웠다.4) 이에, 적은 표본도 정규분포를 따를 것으로 가정하고 t분포를 만들었다. 이 때, 자유도 (degrees of freedom) 개념을 적용하여 전체 비율을 유추, 모집단을 추정하는 분포를 Biometrika에 발표하였다.4) 여기서 자유도란, 통계학에서 주어진 조건에서 자유롭게 정할 수 있는 변수의 수를 의미한다. 당시 회사의 보안 방침에 위배되지 않도록 필명인 student를 사용하여 발표하였으며, 이 밖에도 이항분포의 형태로 포아송분포를 새로이 유도 외에 약 20개의 문헌을 발표하였다.1)고셋의 t 분포는 이후 영국의 통계학자인 로널드 A. 피셔 (Ronald Aylmer Fisher, 1890~1962)에 의해 t분포 이론을 일반화시켜 정립되는데, ‘Student t-distribution’으로 명명하였다.1) 피셔는 수학과 천문학을 전공하였으며 1912년 캠브리지 학부생 신분으로 고셋의 논문에서 언급된 통계 방식에 흥미를 느꼈고, 추가적으로 검증하기 위해 편지를 작성하였다. t분포에서 표본분산의 나누는 수가 n대신 n-1을 사용해야 함에 대해 문제 제기를 하였으며, t분포의 개발과 정확성 검토 및 통계학의 발전에 영향을 주었다.1) 이후 1925년 피셔 본인이 발표한 연구에서는 t=z*((n-1)^1/2)이 사용되었다.1,5,6) 피셔는 이 밖에도 통계학의 다양한 개념을 정립하였는데, 그 중 하나가 1924년에 제안한 F분포 (F-distribution) 검정의 분산분석 방법(ANOVA, analysis of variance) 으로 정규분포를 따르는 두 모집단에서 독립적으로 추출한 표본들의 표본분산비의 확률분포로, 등분산 검정 및 분산분석법 검정에 사용된다.7) 분산분석은 실험 계획 분야 많이 사용되는데, 1935년 피셔는「The design of experiments」라는 책을 출간하여 효율적인 실험 방법을 설계 및 결과를 제대로 분석하기 위해 그 동안의 실험계획 분야에 대한 본인의 연구 결과를 집대성하였다.8) 예시로, The design of experiments」에 나온 ‘Lady tasing tea’에서 홍차를 마실 때 우유를 먼저 따랐는지 나중에 따랐는지를 맛만 봐서 구분할 수 있는지를 알아보기 위한 실험을 피셔가 고안했는데, 그 과정에서 암묵적으로 설정하였던 ‘부인들은 차 맛을 구분하기 어렵다’ 라는 것을 ‘null hypothesis’라고 언급한 점에서 현재 통계학에서 사용되는 귀무가설이 유래되었다고 한다.8) 고셋과 피셔의 통계학에 대한 끊임없는 연구를 통해 현재 사용하고 있는 통계학의 이론의 기초가 확립되었으며, 현대 통계학에 기여도가 상당하다고 볼 수 있다.참고문헌김서영, & 배종성. (2004). WS Gosset (Student): 소표본 이론과 통계학에의 기여. Journal of The Korean Data Analysis Society, 6(2), 589-601.McMullen, L. (1939). WILLIAM SEALY GOSSET, 1876-1937: (1)“STUDENT” AS A MAN. Biometrika, 30(3-4), 205-210.이렇게 쉬운 통계학, 누구나 쉽게 업무에 활용하는 기초 통계, 혼마루료, 2019, 한빛미디어Student. (1908). The probable error of a mean. Biometrika, 6(1), 1-25.Fisher, R.A (1925a). Applicants of ‘Student’s distribution, Merton, 5, 90-104.Fisher, R.A (1961[1925b]). Statistical Methods for Research Workers, 13th edition, Oliver and Boyd, Edinburgh.통계학개론. 박서영 공저, 2022, 한국방송통신대학교출판문화원Fisher, R.A (1971[1935]). The Design of Experiments, 9th edition, Hafner, New York.