김기훈 정환식환경 통계의 필요성환경상태 경제활동 동시적인 평가와 측정지속 가능한 발전환경문제 경제활동 연계정책 입안과 집행환경통계의 체계적인 생산과 보급녹색 성장녹색 성장 정책환경과 경제의 통합녹색성장성의 효과국내 환경통계의 현황환경부 해양수산부 농림부 산림청한국은행통산부 건설부 내무부통계청환경통계 작성기관환경부: 환경통계연감, 공장폐수의 발생과 처리 현황, 상수도통계, 하수도 통계 등등 통산부: 에너지 총 조사보고서 그외 건설교통부: 건설통계편람, 산림청: 임업통계연보 농림부: 농업통계연보 등등국내 환경통계의 문제점정보수요와 선호의 미반영자료측정 장비미비환경과 경제의 연관성 부족종합적 D/B 구축 실패작성원리 결여짧은 역사국내 환경통계 대표적인 문제점OECD와 한국의 환경통계 비교대기 (28)야생동물 (55)폐기물 (31)내수 (46)토지(5)산림(20)오염방지지출 (23)국내토지(36)대기(47)PeripheralsPro ducts산림 (78)해양(350)OECD소음 (114)내수 (134)야생 동물 (151)폐기물 (155)오염방지지출 (46)산림(20)◎ 환경통계에 관한 자료의 측면에서도 OECD국가들의 총 111개 항목 중 235개 정도로 낮은 작성 비율 ◎ 환경산업 분류기준도 명확하지 못하고 중요한 분류 내용이 포함되어 있지 않아 환경산업 전반에 대한 파악이 부족 ◎ 특히 소음 부분에서는 작성이 전혀 되지 않는 것으로 나타남환경 통계의 대표적인 예기후 변화 (지구 온난화환경 오염농산물관리지진예측◎ 최근 환경 통계와 녹색성장 정책의 이론적 토대를 구축하기 위한 많은 움직임 (ex. 녹색성장성의 산업 경제 효과, 농업부분의 이산화탄소 배출계수 연구 등) ◎ 온실가스배출량을 통한 녹색 총 요소 생산성(Green TFP) 등 과 같이 경제분야와의 연계분석지진(Earthquake)이란?◎ 지구적인 힘에 의하여 땅속의 거대한 암반이 갑자기 갈라지면서 생기는 충격으로 땅이 흔들리는 현상 ◎ 지구내부의 어딘가에서 급격히 지각변동이 생겨 그 충격으로 생긴 파동, 즉 (지진파) 가 지표면까지 전해져 지반을 진동시키는 것이다.움직이는 불의 고리(Ring of fire)◎ 환태평양 지진대에서 최근 50년간 리히터 규모 7이상 넘는 강진이 500회 이상 발생 ◎ 최근 수많은 인명과 재산 피해가 있었던 아이티, 칠레, 대만, 그리고 터키 ◎ 시시각각으로 벌어지는 지진에 입었던 수많은 피해 이제는 예측해보자!!지진예측(Earthquake Prediction)(1)◎어떤 지역에서 지진이 발생하는 특성을 규명하고 확률론적으로 지진의 발생 가능성 등을 예측 ◎이를 위해서 장기적이면서도 실시간으로 지진기록이 필요 하다.The VAN Method Telmetric 땅속의 전도성 금속봉의 Telmetric network를 통해 지진의 전기신호(SES)를 관측을 통하여 진도 5이상의 지진을 100Km이내에서 관측하는 방법. Foreshock prediction 중간크기(3~5)지진은 대형지진(6이상)이전에 발생한다.는 가설에서 유래함 이와 동시에 동물이나 혹은 지하수의 이상반응을 통해서 미리 지진을 예측하는 방법 과학적인 규명이 필요한 부분. Pattern Theories 지진이 일어나는 시간에 따른 패턴을 통하여 지진을 예측하는 방법. 물리학에서 “Scaling” 개념으로 수학적 함수를 통해서 지진의 규모와 지진의 특성을 예측하는 방법 그외 Fractoluminescence, Earthquake Cloud Method…지진예측(Earthquake Prediction)(2)전세계적으로 다양한 시각에서의 연구가 진행 중이다. 하지만 아직까지는 많은 노력이 필요한 분야 중 하나이다.통계적 분석을 통한 지진 예측Time series 를 지진예측 상황 시간에 따른 SES자료의 변화를 ARMA모형에 적용 ( 일정한 간격으로 두고 발생하는 사건이 아닌 절단된 형태) Radon 배출량에 대한 Time series 분석 Fourier analysis를 통한 지진의 주기 연구 등등Yes We Can !결론아직까지 통계적 분석방법을 통한 지진연구는 걸음마 단계이다. 다양한 첨단 관측장비를 통한 자료구축은 가능하지만 “아직까지는 정확한 위치와 시간의 예측은 힘들다.” 지진학적 이론과 통계적 이론을 보다 잘 적용한 분석이 필요. 지진에 따른 경제적인 파장의 효과에 대한 연구 연계에 대한 인식지진관련 참고 사이트✽지진 감지 센터 : http://emc.kins.re.kr ✽지진 연구 센터: http://quake.kigam.re.kr ✽한국 지진 연구소: http://safe.or.kr ✽소방재청: http://nema.go.kr ✽U.S. Geological survey Earthquake Hazard program: http://earthquake.usgs.gov ✽SAINT LOUIS UNIVERSITY Earthquake Center: http://www.eas.slu.edu/Earthquake_CenterAny Questions?{nameOfApplication=Show}
자기소개 및 수학(연구)계획서①모 집 단 위통계학과 석사?박사 과정②희 망 전 공 분 야통계학과③성 명한 글④수 험 번 호※ 기재하지 말 것한 문⑤주 민 등 록 번 호영 문⑥학 력년 월 일 대학교통계학과 학부?학과, 전공 졸업(예정)년 월 일 대학교(대학원)학부?학과, 전공 졸업(예정)⑦연 락 처(자택전화)(H.P)E-MAIL자기소개서⑧경력(대학생활 또는 직장활동 상황)대학재학 중에 전산 학회활동을 하면서 2003년부터 3월부터 12월까지 모든 교육을 계획, 진행하는 교육 부장의 직책을 맡은 적이 있습니다. 저는 학회의 사교적인 기능 외에도 우리 모임의 본질적인 목표인 컴퓨터 관련 지식을 전달하기 위해 자발적으로 학술부에 지원을 했었고, 매주 한차례의 강의를 준비하기 위해서 많은 노력을 기울였습니다. 혼자 강의를 맡았기에 처음에는 무척이나 서툴렀지만, 시간이 지날수록 경험이 쌓이기 시작했습니다. 저는 학교 컴퓨터 실을 대여하고, 강의 자료를 만들어 인쇄하는 등의 노력과, 제가 잘 알지 못하는 내용의 경우에 책을 보며 공부하는 등의 노력을 기울였습니다. 강의는 약 6개월 동안 진행이 되었고, 매주 강의 덕분에 회원들도 저도 많은 것을 배울 수 있었습니다.⑨지원동기 및장래계획통계학과에 입학하였던 저는 일상생활에서만 접해왔던 통계에 대해서 엄격한 실험과 증명을 통해서 통계학의 과학적 접근을 배울 수 있었습니다. 그러나 '통계가 가지고 있는 불확실성'에 대해 공부하게 되면서 무언가 형언키 어려운 아쉬움을 가지게 되었는데 그것은 한 인간을 넘어서, 끊임없이 부딪히며 살아가면서 보다 넓은 세계에 대해 공부하고 싶은 욕망 이었습니다. 군복무를 마치고 대학교 3학년으로 복학하였을 때부터 보다 상세하고 전문적인 통계적 지식을 획득하고자 그 학기에 개설한 대부분의 전공과목을 수강하였고, 비로소 통계학이라는 학문이 ‘지식기반사회의 기본 학문으로서, 실험계획법과 시계열, Data mining에 이르기까지 대량의 데이터를 수집하여 축적하고 이를 과학적으로 분석하여 의사 결정에 활용하는 하나의 학문 분야’임을 알게 되었습니다. 이러한 매력적인 학문에 대한 관심과 열정 덕분에 관련된 거의 모든 과목에서 A+라는 좋은 성적도 획득하였습니다. 그러나 더욱 소중한 것은 학업성적 보다 저 자신이 앞으로도 능동적으로 몰두할 수 있었던 학문의 '발견'이었다고 생각합니다.최근의 세계의 금융시장을 대표한다고 해도 과언이 아닌 미국의 기라성 같은 금융회사들이 “서브프라임”이라는 빙산과 충돌하여 침몰했습니다. 국제정세는 이러한 금융위기를 해결하기 위해서 있어 다양한 파생상품들에 대한 리스크관리 뿐만 금융 시계열 분석분야 등 폭넓은 지식과 혜안을 끊임없이 요구하고 있습니다. 저는 이러한 복합적인 소양과 의지를 갖춘 리스크관리, 금융 시계열 분야의 전문가가 되고 싶습니다. 비록, 통계학을 전공하였지만 적절한 자료의 활용을 통한 의사결정이 무엇보다도 중요시 되고 있는 현 사회에서 우수한 리스크관리 전문인으로 인정받기에는 아직 많이 부족하다고 생각합니다. 제가 원하는 분야에서 그 역량을 발휘하기에는 저의 지식이 아직 짧다고 생각이 들었고 전문적 지식과 깊이 있는 학슬을 통해 제 능력을 100% 발휘할 수 있는 자질을 갖추고자 진학을 결심했습니다. 그리고 그 꿈을 실현하기 위해 가장 적합한 배움의 터전으로서 여기 서울대학원 통계학과에 꼭 진학하고 싶습니다.자기소개서⑩성격의 장단점 및 특기`변화를 추구하는 도전정신과 목표를 향한 열정`항상 새로운 일에 도전하는 열정적인 성격입니다. 모두가 제 의지를 의심하고 하려고 하는 일이 불가능하다고 했을 때에도 소신 있게 도전해왔고 목표들을 이뤘습니다. 그 중 가장 열정적으로 도전은 마라톤 완주입니다. 처음 마라톤에 도전했을 때 사람들은 부정적인 반응을 보였습니다. 하지만 저는 소신껏 도전했고 목표를 이뤘습니다. 마라톤에 도전하면서 포기하고 싶은 순간이 많았지만 목표를 향한 열정을 놓지 않고 노력하면 불가능한 일은 없음을 깨달았습니다. 이런 경험은 저의 삶에 대한 태도에 반영되어 어떤 일에 도전할 때 자신감을 주며, 그 일에서 성과를 이끌어낼 수 있을 때까지 포기하지 않고 정진할 수 있게 해주는 힘이 됩니다. 보이지 않는 목표일지라도 쉬지 않고 한걸음 씩 나아가면 언젠가는 그 끝을 보여주는 마라톤처럼 slowly but steady to the goal을 제 생활신조로 삼고 있습니다. 무언가 하나에 집중하면, 포기하지 않고 끊기 있게 노력하지만 선택의 갈림길에서 우유부단한 모습을 보입니다. 즉, 결단력이 부족합니다. 그래서 이런점을 고치려고 과대표도 직접 자원해서 하고 있으며, 스스로 판단하고 대중을 이끌어가는 능력을 높이고자 노력하고 있습니다.⑪상 벌 사 항저는 뚜렷한 상벌 사항이 없어서 장학금 수혜내역을 적었습니다.- 2004년 1학기 봉사 장학금- 2007년 1학기 학비보조 장학금- 2007년 2학기 학비보조 장학금- 2008년 1학기 성적우수 전액 장학금⑫기 타( 특 기 사 항 )날로 증가하는 방대한 양의 원시 데이터를 유용한 정보로 전환하는 일은 오늘날을 살아하는 우리들에게 필수적인 과제라고 생각합니다. 또한 오늘날과 같이 경쟁이 치열한 시장에서 남보다 앞서나가기 위해서는 방대한 양의 데이터에서 지식을 추출할 수 있는 강력하고 첨단 분석 솔루션을 알고 통찰력이 필요하다고 생각합니다. 이런 과제를 해결하고 통찰력을 지니기 위해서 저는 학창시절부터 수학과 함께 해오면서, 학교대표 경시대회 참가등을 계기로 대학 역시 이쪽분야로 진학하였습니다. 그리고 수학보다는 좀더 현실적으로 다가갈 수 있는 통계란 학문을 전공으로 배우며, 다양한 통계적 시각을 배우고 습득하였습니다. 특히 SAS와 SPSS는 대학 4년 전 학년에 걸쳐 작은 리포트부터 비교적 큰 프로젝트까지 쓰이지 않는 곳이 없기에 능통하게 사용할 수 있습니다. SAS와 SPSS를 사용해 올바른 분석을 요구하는 시계열, 다변량 자료분석, 실험계획법 등과 같은 과목에 흥미를 가지고 공부하였습니다. 그리고 매학기마다 강의시간에 하는 여러 번의 팀 프로젝트와 개인적인 활동을 통해서 다양한 데이터마이닝 모형을 설계하였습니다. 그리고 수상하지는 못했지만 전공을 보다 실용적으로 공부하기 위해서 최근 열린 데이터마이닝 대회에 참여 하여 공부를 한 경험은 다양한 통계프로그램들과 친숙해 지는 계기가 되었습니다.
DATA ANALYSIS PROJECT-2506개의 BOSTON 외곽지역의 집의 가격(MEDV)에 영향을 줄것으로 예상되는 13개 요인을 이용하여 BOSTON 의 집값을 예상해 보자Full model 분석Full model의 잔차분석변수 변환의 필요성 -x3의 경우에는 16을 기준으로 두개의 범주를 형성하여 가변수를 하여 변수변환을 실시하였다. -x9와 x10은 서로 비슷한 분포를 보이며 상당히 높은 상관관계를 보였다. VIF분석을 통해서 이두 변수의 vif값이 5를 넘어 약간의 다중공선성이 의심되어 이들을 분석하는 과정에서 주의 깊게 살펴 보도록 하자. -x12의 경우에는 흑인의 비율을 나타내고 있는데 대체로 대부분의 지역에서 흑인의 비율이 낮음을 확인하여 흑인의 비율이 20%이하인 169정도에서 두범주로 나눠 가변수로 변수변환을 실시하였다. -x13은 y와 곡선의 관계를 보여 이를 조금더 직선에 가깝게 적합시키기 위해서 제곱근변환을 실시하였다.변수선택 방법변환 이후의 분석변환 이후의 잔차분석최종 결론{nameOfApplication=Show}
DATA MINING주 제 : Wisconsin Prognostic Breast Cancer DatabaseContents1. Data information2. Explore/Modify1) Outcome (terget변수)와 각각의 변수들의 분포2) Outcome (terget변수)와 각각의 변수간의모자이크 도표와 막대그래프3) Missing Value 분석 및 처리4) 다차원에 대한 고려3. Modeling1) Tree 모형 적합2) Tree 모형에 인한 변수 변환3) Regression 모형 적합4)Neural Network 모형 적합4. ASSESSMENT오분류 확률과 Lift Chart 와 ROC Chart 를 통한 평가5. 결 론- -1. Data information1) Wisconsin Prognostic Breast Cancer (WPBC)2) 총 자료의 수: 198개3) 변수 정보:(1) 변수 1 은 Id number 이다.(2) 변수 2 는 target 변수이다. (분포 - Recurrent: 151, Nonrecurrent: 47)(3) 변수 3 은 time 이다.(재발하는 때 까지 걸린 시간, 혹은 재발하지 않았다면 치료 후 검사시점까지의 시간)(4) 변수 4 - 10 은 각각의 세포 핵 특징의 10개 실수값이다.① Radius (Mean of distance from center to points on the perimeter)② Texture (Standard deviation of gray-scale values)③ perimeter④ area⑤ Smoothness (Local variation in radius lengths)⑥ compactness (perimeter^2 / area - 1.0)⑦ concavity (severity of concave portions of the contour)⑧ concave points (number of concave portions of the contour)⑨ Symmetry⑩ Fracox-Plot과 옆의 Outcome과 비교하여 그림 분포그림에서처럼 약간의 R과 N 사이 에 차이가 있음을 확인할 수 있다. 하지만 나머지 자료들에서는 별 다른 차이를 볼 수 없었다.(2) x10~x18 * Outcomex10에서부터 x18까지의 변수들의 Target 변수(R/N)와 비교하여 살펴보았다.이번에는 x15만이 다른 변수들과의 관계를 보이고 있다. 그리고 나머지 변수에서는 N과 R의 분포가 별다른 차이를 보이지 않는다.(3) x19~x27 * Outcomex19에서부터 x27까지의 변수들의 Target 변수(R/N)와 비교하여 살펴보았다.이번에는 x22와 x24 x25가 Target에 따라서 약간은 다른 분포를 보고 있음을 Box-plot을 통해서 확인할 수 있 으며 옆의 분포의 그림에서도 찾아볼 수 있다. 하지만이 나머지 변수에서는 N과 R의 분포가 별다른 차이를 보 이지 않는다.(3) x28~x33 * Outcomex28에서부터 x33까지의 변수들의 Target 변수(R/N)와 비교하여 살펴보았다.마지막에서는 별다른 차이를 찾아볼 수 없었다.3) Missing Value 분석 및 처리이번 Wisconsin Prognostic Breast Cancer (WPBC) 자료에는 마지막 변수인 Lymph node status 변수에만 4개의 있음을 확인하였다. Id가 844359, 854253, 877500, 947204인 자료에서 Missing Value가 있어 이것을 처리하기 위하여 K-Nearest Neighbor를 사용하기로 하였다. 다음과 같이 각각의 관측치와 가까운 10~20개의 관측치들을 K로 선정하여 각각의 값을 구해본 결과 소수점이 나오는 값이 나왔다.하지만 Lymph node status변수는 상수로만 이뤄진 점을 가만하여 K=15일때 값이 가장 평균값과 유사하여5.2 0.866667 1.933333 4.13333의 값에 반올림하여 5,1,2,4의 값을 Missing value에 대체하기로 하였다.4) 다차원에 대한 고려우선 breast 모형 적합data의 partition에 따라 TREE 모형 또한 달라지므로여덟 번 정도의 시행을 해 보았다. TREE 모형에서 가장 먼저 선택 되어지는 중요 변수는 무엇인지 그 경향을 살펴보고 주로 선택되는 변수가 포함되고 trainingset과 validation set의 오분류 확률이 비슷하면서validation set의 오분류 확률이 작아지는 TREE 모형을우선 선택 하기로 했다. 단 트리의 경우 변수 변환을하지 않은 상태에서 모형을 적합시켜 보겠다.위의 여덟 개의 TREE에서 살펴보면 하나의 변수로도 나누지 못하는 경우가 보인다..그러나 6번째 그림에서는 3개의 변수(time, texture, area)로 나눠주는 것을 볼 수 있는데 이 경우의 오분류 확률만 살펴 보도록 하겠다.TREE6 에서는 training set과 validation set에서의 오분류 확률이 비슷하며 test set에서는 오히려 performance가 좋은 것으로 나타났다. 그러나 우리가 분석하고 있는 자료는 유방암의 재발에 대한 진단의 통계자료로 쓰일수 있으므로 우리의 주요 관심은 재발여부를 정확히 예측해 내는 것이다. 그러므로 모형에서의 민감도(실제 재발하는 경우를 재발할 것이라고 예측하는 확률)를 무시할 수 없을 것으로 생각된다.TREE6의 training set 민감도는 12/18 약 66%이지만 validation set의 민감도는 8/15 약 53%로 민감도가 약간 떨어졌다.Tree6의 최적 모형이다.Tree 모형으로 알기 쉽게 그리면 다음과 같다.Training set 의 정오분류 행렬 Validation set 의 정오분류 행렬비고예측계NR실제N59261R61218계651479오차율 : 8/79 = 0.101정오율 : 71/79 = 0.899민감도 : 12/18 = 0.667%상세성 : 59/61 = 0.96721비고예측계NR실제N38644R7815계451459오차율 : 13/59 = 0.22정오율 : 46/59 = 0.78민감도 : 8/15 = 0.533상세성 SBC는 같은 결과를, profit은 약간 다른 결과를 보여준다. AIC와 SBC의 결과가 같지 않으면 모형이 불안한 것인데 위의 모형에서는 크게 차이가 나지 않으므로 안정적으로 모형이 적합 되었다고 할 수도 있다. 따라서오분류 확률에 의한 비교를 거쳐야 할 것이다.세 번째 forward elimination으로 회귀 분석한 결과는 x1과 x25가 선택되고 AIC와 SBC, Profit/Loss는 완전히같은 결과를 보여준다. 따라서 모형이 잘 적합되었다고 생각되지만 오분류 확률에 의한 비교과정을 거쳐야 할것 같다Reg4와 5, 6의 모형이 전반적으로 training set의 오분류 확률이 작고 validation set의 오분류 확률은 크지만Test set에서의 오분류 확률이 가장 작아 이 세 모형 중에서 하나의 모형을 선택하는 것이 가장 좋을 듯 하다.그러나 training set과 validation set의 차이가 크면 overfitting 되었다고 볼 수 있으며 단지 오분류 확률 뿐만아니라 우리의 분석의 특징에 따라 민감도도 중요하게 고려해야 하므로 오분류 확률과 민감도를 함께 고려하여가장 적당하다고 생각되는 모형을 선택할 것이다.Regression 4의 빈도 분석표를 살펴보면 민감도는14/21로 약 0.667 즉, 약 66.7% 정도인데 병원 자료인것으로 생각하면 민감도를 더 높여야 할 것 같다.상세성을 조금 낮추더라도 민감도를 올릴 수 있는방법을 생각해 보아야 할 것이다.Regression 5의 빈도 분석표를 살펴보면 민감도는14/21로 약 0.667 즉, 약 66.7% 정도인데 병원 자료인것으로 생각하면 민감도를 더 높여야 할 것 같다.상세성을 조금 낮추더라도 민감도를 올릴 수 있는방법을 생각해 보아야 할 것이다.Regression 6의 빈도 분석표를 살펴보면 민감도는11/21로 약 0.524 즉, 약 52.4% 정도인데 앞에서 보다더욱 낮아짐을 알 수 있다. 병원 자료인 것 으로 생각하면 민감도를 더 높여야 할 것 같다.상세성을 조금 낮추더라도 test에 의하면 Chi-Square값이 22.0167로 크고 p-value가 매우 작으므로 reg6 모형이 유의하다고할 수 있으며 각각의 변수를 Likelihood Estimates 분석해 보았을 때 p-value가 모두 0.05보다 작으므로 유의수준 0.05에서 각각의 변수의 효과가 없다는 귀무가설을 기각할 수 있게 되어 변수가 모두 유의하다고 할 수 있다.Likelihood test에 의하면 Chi-Square값이 11.2256로 크고 p-value가 작으므로 reg6 모형이 유의하다고할 수 있으며 각각의 변수를 Likelihood Estimates 분석해 보았을 때 p-value가 모두 0.05보다 작으므로 유의수준 0.05에서 각각의 변수의 효과가 없다는 귀무가설을 기각할 수 있게 되어 변수가 모두 유의하다고 할 수 있다.위의 결과들로서 각각의 장단점들이 있지만 우리 자료의 특성이 실제 재발할 환자를 재발하지 않는다고 예측하는 즉, 민감도가 낮은 모형이 가장 위험한 모형이므로 reg4, 혹은 reg5를 모형으로 선택하겠다.3) Neural Network 모형 적합Neural network를 시작할 때 hidden layor수를 한 개에서 2개로 늘리면서 노드수를 조정했다. 그러나hidden layor 2개일 때는 한 개일 때보다 좋은 결과가나오지 않아 2개일 때 결과는 생략한다.모든 Neural network는 활성함수는 Logistic,결합함수는 Linear 이다.Neural1은 hidden layer1 node1Neural2는 hidden layer1 node2Neural3은 hidden layer1 node3Neural4는 hidden layer1 node4Neural5는 hidden layer1 node5Neural6는 hidden layer1 node6Neural7는 hidden layer1 node7Neural8는 hidden layer1 node8Neural9는 hidden layer1 node9Neural10는 hidden layer1
DATA MINING주 제 : Wisconsin Breast Cancer DatabaseContents1. Data information2. Explore/Modify1) CLASS2 (terget변수)와 각각의 변수들의 분포2) CLASS2 (terget변수)와 각각의 변수간의모자이크 도표와 막대그래프3) Missing Value 분석 및 처리4) 다차원에 대한 고려3. Modeling1) Tree 모형 적합2) Tree 모형에 인한 변수 변환3) Regression 모형 적합4)Neural Network 모형 적합4. ASSESSMENT오분류 확률과 Lift Chart 와 ROC Chart 를 통한 평가5. 결 론- -1. Data information1) Wisconsin Breast Cancer Database2) 총 자료의 수: 698개3) 변수 정보:(1) 변수 1 은 Sample code number 이다.(2) 변수 2-10 은 각각의 자료를 대표하며 10개의 범주(1 - 10)를 가졌다.(3) 변수 11-12 는 target 변수이다.(분포 - Benign: 457, Malignant: 241)① Sample code number (id number)② Clump Thickness (세균덩어리의 두께; 1 - 10)③ Uniformity of Cell Size (셀 크기가 비슷한 정도; 1 - 10)④ Uniformity of Cell Shape (셀 모양이 비슷한 정도; 1 - 10)⑤ Marginal Adhesion (부분적 유착정도; 1 - 10)⑥ Single Epithelial Cell Size (단일 상피세포의 크기; 1 - 10)⑦ Bare Nuclei (노출된 핵들; 1 - 10)⑧ Bland Chromatin (자극성이 적은 염색질(크로마틴); 1 - 10)⑨ Normal Nucleoli (일반적인 소핵들; 1 - 10)⑩ Mitoses (유사 분열; 1 - 10)⑪ Class (2 for benign, 4 for maligna변수는 1~3범주의 분포가 benign으로 결정되고 3~10까지의 범주가 malignant 쪽으로 분포되어 있다.(3) UNIF_SZ * CLASS2위의 변수들과 같이 UNIF_SZ 또한 범주들의 분포는 benign 일 때와 malignant 일 때 다른 것을 알 수 있다.특징적인 것이 있다면 1범주가 아주 큰 비율을 차지하고 있고 1범주에 속해있는 data는 거의 benign의 경향을보인다는 것이다.(4) UNIF_SHP * CLASS2(5) ADHES * CLASS2도표 상으로 볼 때는 UNIF_SZ, UNIF_SHP, ADHES 세 변수는 아주 비슷한 분포를 보인다. data 모형을 세울 때가장 영향력 있는 변수 하나만 선택 하던지 범주 자체를 하나의 범주로 보고 분석해도 될 것 같다.(6) EPITH * CLASS2EPITH 변수는 2범주의 빈도가 가장 크며 2범주에 해당되면 거의 benign이 되는 경향이 보인다.그리고 benign과 malignant의 범주 분포도 확연히 다르다.malignant에 대해서는 2~10 범주까지 특별한 경향성 없이 골고루 분포되어 있다.(7) BARE * CLASS2처음 모자이크 도표는 benign 가장 아래쪽 범주가 결측치들이다. BARE에서 나타나는 결측치는 모두 benign의결과를 가져오고 결측치 외의 다른 변수 값 들을 비교해보면 거의 다른 변수들의 최빈값 즉, 1이나 2에 속해있는것을 알 수 있다. 그래서 결측치도 이 변수의 최빈값으로대신해도 무방할 것 같다.두 번째 모자이크 도표는 결측치를 1범주로 대체한도표이고 막대그래프 또한 결측치를 1범주에 포함한 것이다. BARE 변수가 1이면 benign이 될 가능성이 크고10이면 malignant이 될 가능성이 큰 것을 알 수 있다.분포의 차이가 확연한 것으로 보아 어느 정도는 CLASS를잘 설명 할 수 있겠다. 그렇지만 1,10을 제외한 나머지변수들은 큰 경향성이 없이 분포하는 것으로 보아 나머지변수의 분포로 benign과 malignant를 예측 가능한지주의 깊게음의 partition에서는 Logistic으로 회귀분석 하였는데 그 방법을 각각‘stepwise/AIC’ 와 ‘stepwise/SBC’그리고 stepwise/PROFITLOSS 세가지 방법으로 실시하였다.그리고 두 번째 partition에서는 Logistic stepwise/AIC와 stepwise/SBC 방법으로 실시한후 선택한 모형을 살펴보았다.세 개의 regression 결과를 살펴보면 같은 partition 안에서도 모형을 선택하는 기준을 AIC로 선택하는 경우와SBC로 선택하는 경우, 공통되는 변수들이 선택되기도 하지만 최종 선택된 모형이 서로 다른 것을 볼 수 있고,partition이 달라짐에 따라 같은 조건으로 모형을 선택하였는데도 모형이 서로 다르다는 것을 알 수 있다.T-score 또한 매우 작아 변수들이 유의하지 않을 것 같다. 이는 주어진 자료가 불안정하여 모형을 적합 시키는데어려움이 있다고 생각되며 여러 번의 시행으로 최적의 모형을 찾아나가야 함을 알 수 있다.그리고 원래의 data는 9개의 각 변수의 범주가 10개씩으로, 절편까지 포함해서 dimension이 무려 82가 되므로유의하지 않은 변수들은 삭제하고 각 변수의 범주의 수를 줄여볼 필요가 있을 것 같다.따라서 다음은 TREE 모형을 통해 중요하지 않은 변수를 빼고 범주를 합치는 작업을 시행해 보았다.3. Modeling1) Tree 모형 적합data의 partition에 따라 TREE 모형 또한 달라지므로열 번 정도의 시행을 해 보았다. TREE 모형에서 가장먼저 선택 되어지는 중요 변수는 무엇인지 그 경향을살펴보고 주로 선택되는 변수가 포함되고 training set과validation set의 오분류 확률이 비슷하면서 validationset의 오분류 확률이 작아지는 TREE 모형을 우선 선택하기로 했다.위의 열개의 TREE에서 살펴보면 UNIF_SZ나 UNIF_SHP가 주로 처음 트리가 나누어지는 기준이 되는 것이 보이고다음으로 BARE와 CHROM이 조금 나타나고 NORM 131/136 = 0.9632Training set 과 Validation set 의 정오분류 행렬을 실행한 결과 두 set 모두 상당히 잘 분류 되었다고 말 할 수 있고특히 유방암이라는 특수한 상황에 비추어 우리가 중요시 여기는 민감도 부분에서 상당히 안정된 것을 볼 수 있다.Training set과 validation set의 오분류 확률이 거의 차이가 없으므로 Tree가 잘 자랐다고 말할 수 있다.2) Tree 모형에 인한 변수 변환이제 선택된 모형을 일부러 overfitting 시켜보고 그래도 선택되지 않는 변수들은 중요한 변수가아니라고 가정하고 제거해 보겠다. 그리고 TREE 모형을 기준으로 나누어진 변수들의 범주를 간단하게 2~3개의범주로 합해 보겠다.overfitting 시킨 결과 UNIF_SZ, BARE, UNIF_SHP, CHROM, NORMAL 변수가 선택 되었다. 나머지 CLUMP,EPITH, METIOSES, ADHES 네 개의 변수는 중요하지 않은 것으로 판단되어 Regression 할 때 제거 할 수 있을것이다. 그리고 UNIF_SZ의 범주를 3이하 4이상 두개의 범주로 묶고, BARE의 범주를 2이하 3, 그리고 4이상 세개의 범주로 묶고, UNIF_SHP의 범주도 2이하 3, 그리고 4이상 세 개의 범주로 묶을 수 잇을 것 같다. CHROM의범주를 5이하 6이상 두개의 범주로 묶고, NORMAL의 범주도 2이하 3이상 두개의 범주로 묶어서 회귀분석 시dimension을 줄여보도록 하자.3) RegressionTREE를 통해 변수를 제거하고 범주를 줄인 후에Regression 해 보았다.4:3:3 Partition을 랜덤으로 네 개 정도로 나눠 보았고Partition한 data를 가지고 Logistic으로 하고 stepwise로AIC 또는 SBC, 또는 Profit이나 valid 오분류 확률을가지고 여러 번 회귀분석을 적합 시켜 보았다. 모형을선택하는 방법에 따라 모형이 달라지는 것도 있고 같은Partition 안에서는 일치하는 모ignant를 정확하게 예측해 내는 것에 있기 때문에 모형에서의 민감도를 함께 감안하여 가장 적당하다고생각되는 모형을 선택할 수 있을 것이다.Regression 3의 빈도 분석표를 살펴보면 민감도는76/83으로 약 0.9157 즉, 약 92% 정도인데 병원 자료인것으로 생각하면 민감도를 더 높여야 할 것 같다.상세성을 조금 낮추더라도 민감도를 올릴 수 있는방법을 생각해 보아야 할 것이다.Regression 4의 민감도는 100/102로 약 0.9804즉, 약 98%정도이다.Reg 3의 민감도 보다 더 나은 것으로 보여 진다.Regression 7의 민감도는 89/93으로 약 0.957즉, 약 96%정도이다.이것 역시 상세성을 조금 낮추더라도 민감도를약간 더 올릴 수 있는 방법을 찾아봐야 할 것이다.Likelihood test에 의하면 Chi-Square값이 291로 크고 p-value가 매우 작으므로 reg3 모형이 유의하다고 할 수있고 각각의 변수 중 Likelihood Estimates 분석에 의해 BARE2의 p-value가 0.05보다 크므로 유의수준 0.05에서각각의 변수의 효과가 없다는 귀무가설을 기각할 수 없게 되고 BARE2의 변수가 유의하다고는 할 수 없다.Likelihood test에 의하면 Chi-Square값이 302.395로 크고 p-value가 매우 작으므로 reg4 모형이 유의하다고할 수 있으나 각각의 변수를 Likelihood Estimates 분석해 보았을 때 intercept와 BARE2, UNIF_SHP2의p-value가 모두 0.05보다 크므로 유의수준 0.05에서 각각의 변수의 효과가 없다는 귀무가설을 기각할 수 없게 되고각각의 변수가 모두 유의하다고는 할 수 없다.BARE3에 대해서 BARE2는 차이가 없는 것이고 UNIF_SHP3에 대해서 UNIF_SHP2도 차이가 없다고 할 수 있다.이 관점에서만 보면 BARE2와 BARE3를 한 범주로 생각하고 UNIF_SHP2와 UNIF_SHP3도 한 범주로 생각할 수 있다.Lik