Introduction• 회귀진단(regression diagnostics) 또는 모형검토(model checking)- 현재 설정된 회귀모형이 타당한 것인가를 검토.현재모형이 반응변수와 설명변수들의 관계를 제대로 반영하는가?현재모형에 포함된 설명변수들이 중요한가? 또는 불필요한 변수들이 없는가? 오차항의 등분산성, 정규성, 독립성 조사. 특이값 관측치 또는 영향력 관측치들의 조사.
Introduction• IF, ANOVA를 통해 귀무가설을 기각 -> 그룹간 평균에 차이가 있다.• But, 어느 그룹 간에 차이가 있는지는 분산분석을 통해 알 수 없음 -> 사후검정이 필요한 이유!• 사후검정을 통해 어느 그룹 간에 차이가 있는지 검정할 수 있다.• 대표적인 사후검정으로 Tukey’s HSD, Duncan, Dunnett, Scheffe,Bonferroni 등이 있다.
• 최대모형이 k개의 변수로 구성되어 있을 때 가능한 회귀모형의 수-> 설명변수가 많아지면 모든 가능한 회귀모형의 개수가 빠르게 증가• 따라서, 최적모형을 선택하는 알고리즘을 사용▪ 단계별회귀: 최소모형에서 시작해서 설명력이 가장 높은 변수부터 순차적으로 모형에 추가시켜 나가는 방법▪ 전진선택 : 단계별 회귀와 동일하나 현재모형에 포함된 설명변수는 제거하지 않음▪ 후진제거: 최대모형에서 시작해서 설명력이 가장 낮은 설명변수부터 순차적으로 모형에서 하나씩 제거하는 방법
Introduction로버스트 : 추정량이 모형에 대한 가정의 성립여부에 민감하지 않은 경우.예) 독립성, 등분산성, 정규성 가정 등예) 정규성 가정이 성립하지 않는 경우: 자료의 분포는 정규분포보다 두터운 꼬리를 가진다. => 특이값이 나타날 가능성이 많아진다.• 좁은 의미의 로버스트 추정량 : 추정량이 특이값에 덜 민감할 때예) 중심위치를 추정할 때 중앙값이 표본평균보다 로버스트하다.• 보통최소제곱추정량 (OLSE) 은 특이값에 민감한 추정량값들의 차이를 더 크게 증폭시키는 제곱합 함수를 사용하여 계산되기 때문.
R을 이용한 남성과 여성의 신체치수 비교서론남성과 여성이 신체적으로 차이가 있다는 사실과 나이가 들수록 신체적인 변화가 생긴다는 것은 대부분 아는 사실이다. 우리는 이를 심층적으로 분석하기 위해 여러 신체 치수 중 어느 부분에서 남녀 간 차이가 유의미하게 있는지, 연령대가 높아짐에 따라 어느 신체치수에서 변화가 있는지에 대해 분석해 보았다.분석에 사용한 데이터는 2015년 5월부터 12월까지 16 ~ 69세 남성 3087명, 여성 3191명을 측정한 ‘7차 인체치수조사(2015)’(사이즈코리아)이다.(출처 : https://sizekorea.kr/human-info/meas-report?measDegree=7)분석을 위해 반응변수는 성별(남,여)과 나이(10대, 20대, 30대, 40대, 50대, 60대로 범주화)를 설정하였고, 설명변수는 총 10개를 설정하였으며, 아래와 같다.- 키 : 바닥 면에서 머리마루점까지의 수직 거리 (머리카락을 누르고 측정)- 몸무게 : 몸의 무게- 허리너비 : 양쪽 허리옆점 사이 수평 거리- 가슴둘레 : 복장뼈 가운데점을 지나는 수평 둘레- 엉덩이둘레 : 엉덩이돌출점을 지나는 수평 둘레- 장딴지둘레 : 장딴지돌출점을 지나는 수평 둘레- 발직선길이 : 발꿈치점에서 발끝점까지의 직선길이- 골격근량 : 몸에서 차지하는 뼈나 힘줄에 붙어서 의식적으로 수축하여 우리 몸의 움직임을 만드는 근육 조직의 비율- 체지방량 : 분해되지 않고 몸속에 쌓여 있는 지방의 양- 단백질 : 몸에 있는 단백질의 양분석하기에 앞서 설명변수들에 대해 예상되는 결과는 다음과 같다.- 키: 남성이 여성보다 큰 값을 가질 것이며, 나이가 들어감에 따라 계속해서 증가하다 50대 이후로는 값이 점차 감소할 것이다.- 몸무게: 남성이 여성보다 큰 값을 가질 것이다. 나이와 연관성이 없을 것이다.- 허리너비: 성별과 연령대 간 유의미한 차이가 없을 것이다.- 가슴둘레: 남성이 여성보다 큰 값을 가질 것이다. 나이와 연관성이 없을 것이다.- 엉덩이둘레: 성별과 연령대 간 유의미한 차이가 없을 것이다.- 장딴지둘레: 성별과 연령대 간 유의미한 차이가 없을 것이다.- 발직선길이: 남성이 여성보다 큰 값을 가질 것이다. 나이와 연관성이 없을 것이다.- 골격근량: 남성이 여성보다 큰 값을 가질 것이다. 나이가 들어감에 따라 계속해서 증가하다 50대 이후로 값이 점차 감소할 것이다.- 체지방량: 성별과 연령대 간 유의미한 차이가 없을 것이다.- 단백질 : 남성이 여성보다 큰 값을 가질 것이다. 나이와 연관성이 없을 것이다.본론2015년 한국인의 인체 치수 자료를 읽기 위해 read.csv를 사용하여 불러왔으며, 총 남녀 6,278명으로 10개의 설명변수와 2개의 반응변수에 결측치는 없음을 확인할 수 있다. 또한 반응변수 중 나이를 제거한 데이터를 data2에 넣어주었으며, 성별을 제거한 데이터를 data3에 넣었다. 이후 다중공선성의 가능성을 탐색하기 위해 각각의 설명변수들의 상관계수를 확인해 보았다. 몸무게와 가슴둘레 간의 상관계수가 약 0.91로 가장 높았으며, 허리너비와 발직선길이 간의 상관계수가 약 0.34로 가장 낮게 나왔음을 확인할 수 있다. 따라서 대부분의 설명변수가 서로 높은 상관관계를 보이지 않았지만, 몸무게와 가슴둘레 간 아주 높은 상관관계를 보여 이에 유의하며 분석을 진행하였다.1. 로지스틱 모형나이가 제거된 데이터인 data2를 이용해 로지스틱 모형을 적합시켰다.fit.body