남극 크릴새우(Antartic krill)의어획량 변동과 기후변동(지구온난화)-부제 : 생태계가 위협받고 있다요즘에 대하가 철이다. 그래서 사람들이 새우를 많이 찾는다. 우리가 먹는 새우도 중요하지만, 우리가 먹는 새우와는 다른 종이지만, 더 중요한 새우가 있다. 바로 남빙양에 서식하는 크릴새우이다.지금부터 크릴새우에 대해 알아보고, 크릴이 과거에서 지금까지 얼마나 줄어 들었고 또 줄어든 이유는 무엇인지 알아보자,남극 크릴새우[ Euphausia superba ] 란?남극대륙 주변의 바다에 분포하며, 그 생물량이 많아 미래의 식량 자원으로 주목을 받고 있는 난바다 곤쟁이류의 한 종. 남극새우, 크릴새우라고도 한다. 몸길이는 약 6cm이며, 머리가슴의 갑각은 옆구리에서 아가미를 완전히 덮지 않는다. 가슴다리에 여러 개의 외지(外肢)가 있고 배다리에는 긴 센털이 있어 유영하기에 알맞다. 꼬리마디에는 센털로 된 1쌍의 차상기(叉狀器)가 있다. 6쌍의 가슴다리에 달린 외지는 생김새가 먹이를 끌어들이기에 알맞게 되어 있다.다리모양 내지(內肢)에는 한쪽으로만 센털이 나 있는데, 이 좌우 내지의 센털이 서로 맞물려서 깔때기모양 그물을 이룬다. 이 깔때기그물로 식물성 플랑크톤을 걸러서 아주 작은 플랑크톤만을 먹는다. 가슴다리에는 겉아가미인 각새(脚?)가 있다. 또 크릴은 부화한 지 약 2년이면 성숙한다.남극은 물고기와 고래, 물개, 펭귄 등 수백 종 생물들의 생존을 지탱해주며 남극해양과 남대서양 먹이사슬의 중심에 위치해 있다. 그중 남극 생물의 주요 식량인 크릴새우는 고래, 물개, 펭귄들의 먹잇감이다. 여름철에 크게 자라서 남극해에 서식하는 수염고래·어류·오징어·해조 따위의 먹이가 된다. 분포량이 10~30억t에 이르는 것으로 추정되며 새로운 단백질 식량자원으로서 일본과 러시아를 비롯하여 각국이 자원개발에 힘쓰고 있다. 한국은 1979년부터 출어하기 시작하였다.크릴은 새우와는 다른 어종이다. 생김새는 비슷하지만 ‘난바다곤쟁이’ 분류군에 속하고, 남극뿐 아니라 전 세계 바다에운데 남극크릴이 특별히 관심의 대상이 되는 것은 무엇보다 몸체가 크고(무게 1g 정도), 개체수가 압도적으로 많기 때문이다.또 여러 가지 독특한 효소를 갖고 있다. 남극 해양생물이 갖고 있는 효소는 저온에서도 활성을 유지해야 한다. 이러한 특징 또한 인체에 유용한 물질을 만들어내는 역할을 한다. 크릴이 갖고 있는 효소는 매우 강력하다는 게 연구자 및 관계자의 얘기다. 크릴을 상온에 4시간 정도 두면 각질을 제외한 부분은 분해돼 녹아내린다. 그만큼 강력한 소화효소를 갖고 있다. 이 효소 덕분에 크릴을 분말로 만들어 평소 고지방 식생활을 즐기는 이들에게 섭취토록 할 경우 간과 혈액 내부의 중성지방 수치를 낮추는 데 효과적일 수 있을 것임이 시사됐다.대부분의 크릴새우는 소련에 의해 동물 사료로 세계시장에 공급됐는데, 1990년 초에 소련연방이 붕괴되면서 보조금이 중단되자 크릴새우 어업 조업량이 급격히 줄어들었다. 그 뒤를 이어 일본이 크릴새우 조업에 뛰어들어 연간 50% 이상의 조업률을 보이며 세계 선두를 달렸다.그러나 현재는 전 세계 크릴새우 어획량의 75%를 기록하는 수산강국인 노르웨이가 독보적이다. 노르웨이의 크릴새우 조업선은 바다 위에 떠다니는 공장이다. 노르웨이의 크릴새우 어획방법은 다국적 기업 ‘에어커(Aker) ASA’가 운영하고 있는 ‘사가시(Saga Sea)’는 고압펌프로 크릴새우와 함께 바닷물을 빨아들인 뒤 즉석에서 가공처리를 한다. 한 시즌에 자그마치 2만 톤의 조업이 가능해 이런 방식으로 수백만 톤의 크릴새우를 남획하고 있다. 명백히 세계 1위의 최대 크릴새우 조업국이다.그 뒤를 이어 1978년 처음 시작한 한국은 주요 크릴새우 조업국과 수출국으로 성장해 연간 4~5만 톤 규모의 어획량을 확보하면서 2007년에는 세계 2위로 자리매김 했다. 1981~82년 최고조에 달해 약 50만 톤 이상의 어획량을 기록 했다. 조업 실적을 보면 1990년대부터 2000년대 사이 크릴새우 어획량이 매년 약 10만 톤에 머물렀던 반면 2001년부터 매년 증가하고즈워디는 “지난 30년간의 활동은 보다 상업적인 어족자원에 광범위하게 초점을 맞춰왔지만 최근 새로운 기술과 새로운 시장이 발전하면서 크릴새우에 대한 관심도가 급속도로 높아지고 있다. 2008년도 조업 신고량은 연간 최고치를 기록할 것이다”고 말한다.남극에서 ‘펌프식’ 조업을 시작한 지 2년 후, 동종업계에 계약된 9척의 배 중 겨우 1대 만이 운행됐을 뿐인데도 첫해 2004년에 조업량 25%가 증가했고 2005년에 38%가 증가했다. 2006~7년 주요 조업국의 어획량 계획 신고내용을 보면 64만 톤을 초과할 것으로 예상된다.하지만, 2005년도 까지만 해도 5억 톤 내외의 어획량으로 풍부하던 크릴새우가 점차 줄어드는 추세에 접어들었다. 앞서 말한 소화효소의 특징을 이용해 키틴올리고당, 글리코사민, 기능성펩타이드 등을 생산, 산업용 및 기능성식품 소재로 활용하는 방안을 연구 중이었다. 한 연구원은 “자원이 부족한 우리나라에서 깨끗한 남극 바다에 풍부하게 존재하는 크릴은 매우 매력적인 소재”라면서 “가공하면 버릴 것 하나 없이 활용할 수 있다”고 말하기도 했다.이렇게 상업적 또는 산업적으로 유용하고, 미래형 웰빙식품으로 각광 받던 크릴이 줄어드는 이유는 무엇일까.지난 2006년 환경운동연합과 그린피스, 미국환경트러스트(NET) 등의 남극보호연합(ASOC) 소속의 환경운동단체들이 미국 공익재단(PEW)의 도움으로 ‘남극 크릴새우 보호 캠페인’을 벌였다. 이 캠페인으로 전 세계가 남극 생태계에 대한 경각심을 고취 했고, 크릴새우에 대해 관심을 가지게 되었다.그러나 현재 크릴새우 부족으로 식량 위기를 겪고 있다. 과학자들은 “크릴새우의 80%가 사라져 20%만이 남았고 이마저도 계속 줄어들고 있다”고 경고한다.크릴새우는 먹이사슬의 하위 그룹으로 많은 생물체를 떠받드는 중요한 지표다. 크릴새우가 없다면 남극 생태계는 죽음의 황무지나 다름없다. 그래서 ‘크릴새우보다 작은 생물 중 크릴새우가 먹지 않는 것이 없고, 크릴새우보다 큰 것 중 크릴새우를 먹지 않는 것이 없다’는사하는 바가 매우 크며 크릴새우의 위치가 중요하다는 말이다.-크릴새우가 줄어든 이유는 크게 2가지가 있다.첫 번째, 인간들의 무분별한 어획이다. 인간의 몸에 좋다는 이유로 남획하여 복용하고, 낚시의 미끼로도 주로 사용되는 크릴새우를 떡밥과 함께 뭉쳐서 바다에 던질 때 분말이 연안 방파제와 갯바위를 오염시켜 환경 파괴의 주범으로 지목되고 있는 이상 크릴새우를 낚시미끼로 사용하는 것을 금지해야 한다. 다량으로 유통된 크릴새우가 음식물 찌꺼기가 되어 바다를 오염시키는 원인이 된다는 지적도 나오고 있다.영국남극연구소(BAS)의 현지조사에 따르면 크릴새우 남획으로 인해 그에 의존하는 남극 생물들이 생존의 위협을 받고 있는 것으로 드러났다. 남극에 서식하고 있는 크릴새우 포식동물들이 새끼를 번식하고 생육하기 위해 필요로 하는 최소한의 양조차 확보하지 못해 생태계가 위협을 받고 있다.이로 인해, 펭귄과 알바트로스도 새끼를 낳아서 기르는데 어려움을 겪고 있다. 사우스조지아와 남극해 섬들에서 20년 이상 관찰되고 있는 바다새들과 바다표범들도 새끼를 먹이기 위한 크릴새우 부족 현상이 심화되고 있다.한국은 크릴새우 조업국으로 세계 2위를 차지하지만 또한 수입해서 소모하는 나라로도 매우 유명하다. 해양수산부의 자료에 따르면, 한국의 크릴새우 수요는 90%가 바다낚시의 떡밥이고, 5%가 식용, 5%는 사료용으로 쓰인다. 또한 낚시점에서 언제나 싼 가격으로 대량 구입할 수 있다. 흔히 바다에서 고기를 낚는 미끼나 밑밥, 일부 웰빙식품 정도로 인식하기 때문이다.남극 크릴새우는 남극조약체제 산하의 까밀라협약(CCAMLR, 남빙양생물자원보존국제협약)에 의해 관리되고 있다. 크릴 새우 조업에 사용되는 공장식 트롤 어선기술은 현재와 같은 크릴새우 어획을 크게 감소시킬 것으로 본다. 최예용 시민환경연구소 기획실장은 “각국의 정책담당자는 까밀라협약이 이러한 보호 장치를 수용할 수 있도록 적극적인 행동을 취해야 한다. 또한 자연의 포식자를 위해 적정 양의 크릴새우를 먹이로 남겨둬야 한다. 따라서 크 제한해야 한다”고 말했다.두 번째, 지구의 기후변동(지구온난화)로 인한 개체 수 감소이다.지구 기후의 변화는 동식물 및 인간에게도 영향을 미친다. 특히 동물이나 식물은 인간보다 더 민감하게 반응한다. 최근 지구 온난화로 인해 동물들의 분포범위가 변하고 있다. 열대나 아열대성 기후에 서식하는 독거미와 잉꼬가 온대성기후 지역에 나타나는 현상이 보고되었고, 철새들은 월동시기와 산란장소를 점차 북쪽으로 옮기고 있다. 일부 포유류와 나비, 잠자리 등은 북쪽으로 분포영역을 확장하고 있다.이러한 변화와 함께 지구 온도 상승으로 인한 종별 개체수의 감소도 나타나기 시작했다. 새들은 산란기와 부화기를 착각해 조기산란을 하며 철새는 이동시기를 놓치기도 해 조류개체수가 감소했다. 곰의 경우 겨울동안 따뜻한 날씨가 지속되어 동면의 필요성이 사라지고 겨울잠을 자지 않아 곰의 번식능력은 낮아지게 되며 결국 개체수의 감소를 가져오게 된다고 한다. 이 외에도 북극 피어리 순록, 남극의 크릴새우, 황제펭귄의 개체수가 감소했다. 지구 온난화는 식물의 생태에도 영향을 미친다. 식물 분포의 변화 등 수많은 영향이 있을 수 있겠지만 그 중에서도 식물의 개화기가 빨라진 점을 큰 변화로 볼 수 있다. 우리가 평소 전과는 다른 시기에 특정한 식물의 꽃이 피는 현상을 자주 목격하듯 최근 북반구에서는 봄에 꽃의 개화시기가 10년마다 3.2일씩 빨리 일어나고 있으며 유럽지역의 경우는 5일 정도 빨리 피어나게 되었다고 한다.일본의 경우 은행나무나 찻잎이 이전보다 빨리 발아하고 동백나무, 민들레, 백일홍의 개화도 점차 앞당겨졌으며 전국적으로 벚꽃의 개화는 50년 전에 비해 4.4일이나 빨라졌다고 한다. 일부 대도시에서는 열섬현상으로 개화가 6.3일이나 빨라졌다고 한다. 우리나라의 경우에는 1966년도와 2005년의 개화(開花) 시기를 비교한 결과 산괴불나무, 모란, 야광나무, 정향나무 등 32종의 개화시기가 2~36일까지 빨라진 것으로 나타났다. 이와 같이, 온난화의 문제점이 심각하게 대두되고 있는 중 가장
8.7 연습문제8-1. DMBASE 데이터세트에 대해 다음과 같은 과정을 수행하여 보아라.(가) 부록 2에서 데이터세트에 포함되어 있는 변수들을 살펴보고, 어떠한 측면에서 군집분석을 수행할 수 있는지 그리고 그 결과를 어떻게 활용할 수 있는지를 생각하여 보아라.어떠한 측면에서 군집분석을 수행할 수 있는지 : 야구선수들의 기량에 따른 연봉 차이를 나타낸 데이터인데 선수들마다 기록이나 성과들이 달라 많은 데이터들이 있다. 많은 데이터들을 군집으로 나눠 형태에 맞게 사전적인 정보 없이 분석할 수 있다. 어떤 목적변수 (target)을 예측하기 보다는 속성이 비슷한 변수들을 묶어서 몇 개의 의미 있는 군집으로 나누는 것을 목적으로 분석을 한다. 이 결과들은 비슷한 속성끼리 군집이 생성되기 때문에 빠르고 쉽게 이해할 수 있다.결과 이용 : 군집 분석은 대용량 데이터에 대해 데이터마이닝을 수행하기 위한 초기 작업으로서 복잡한 데이터를 요약하는 유용한 도구이다. 그러므로 유사성을 갖는 군집 내의 개체들을 통한 변수들 사이의 규칙이나 패턴을 찾아 이용자가 데이터들의 분석결과를 쉽게 이해할 수 있도록 해야 한다.(나) (가)에서 설정된 분석의 목적에 대해 입력변수로 적절한 변수들이 무엇인지를 선정하여 보아라.입력변수로 적절한 것들: 야구선수들의 능력에 따라 1987년의 연봉을 알아보기 위해 1986년의 선수들의 기록인 no_hits, no_home, no_rbi, no_assts를 선정하였다.(다) 적절한 군집의 개수, 표준화 방법, 군집화 방법 들을 이용하여 여러 가지 조합으로 시도하여 보아라.1) no_home과 cr_home을 서로 곱하였을 때 군집을 알아보았다.군집이 어느 정도 만들어진 것 같다.다음은 Clusters for Transformed Train과 의사결정나무를 보았다.2) 1986년도 Ratio와 Error, Rbi, 그리고 연봉을 통해 군집을 분석해보았다.또한 타율변수를 생성하기 위해 변수들을 만들어 주었다.첫 번째로 한 군집분석에 비해 많이 퍼져 있었다.의사결정나무를 보았다.상자도표를 만들어 보았다.(라) 얻어진 군집분석의 결과들을 여러 가지 형태로 요약하고 설명하여 보아라.1) 연봉과 타점(홈런)간의 관계는 상호적이어서 군집이 어느 정도 형성되고 타점에 따라 연봉이 올라감을 알 수 있었다.2) 군집3의 연봉이 가장 높으며 군집2의 연봉이 가장 낮은 것을 알 수 있다. 또한 Ratio도 군집 3이 가장 높고 군집2가 가장 낮은 것을 알 수 있다. 하지만 ERROR의 경우 군집 2가 가장 높고 군집 1이 가장 높으며 Rbi에 경우 군집 3이 가장 높고 군집 1이 가장 낮은 것으로 보아 연봉은 Ratio에는 관련이 있지만 ERROR나 RBI에는 크게 영향을 받지 않음을 알 수 있다. 여기서는 Ratio, Error, Rbi 중 Ratio가 연봉에 가장 큰 영향을 주는 것을 알 수 있다.
9.7 연습문제9-2. 부록 2의 ZFSLINKS 데이터세트에는 SessionID, PageSquence, PageName 등의 변수들이 포함되어 있다.(가) ZFSLINKS 데이터세트에 대한 연관성 규칙 분석모든 데이터를 쓰기 위해 Data 탭에서 Use complete data as sample을 클릭한다.▶목표변수 PageName의 분포▶Association의 Result▶결과 분석 :첫 번째 규칙 ‘Demographic_Entry ==> Data_Entry’에 대한 연관성을 보자. 먼저 n(Demographic_Entry, Data_Entry) = 1,006이므로, 지지도(Support)=9.66%이다. 또한 n(Demographic_Entry) = 1,018이므로, 신뢰도(Confidence)=98.82%이다. 이와 유사하게 향상도(Lift)=1.03%가 된다. 향상도가 1에 가까우므로 두 사건은 독립이다.주제 : 제1과제 연관성규칙분석(연관성규칙분석, 시차연관성규칙분석)학번 : 124794이름 : 유동민9-2. (나) ZFSLINKS 데이터세트에 대한 시차 연관성 규칙 분석모든 데이터를 쓰기 위해 Data 탭에서 Use complete data as sample을 클릭한다.▶Sequence의 ResultResult의 Rule 탭에서 오른쪽 마우스의 Where 대화상자를 선택하면 원하는 연관성규칙만을 빠르게 탐색할 수 있다.▶결과 분석 :첫 번째로 출력된 규칙, ‘Data_Entry ⇒ Financial_Planning’에 대한 연관성을 보자. n(Data_Entry ⇒ Financial_Planning)=2,653이므로, 이 규칙에 대한 지지도(Support)=25.49%, 신뢰도(Confidence)=26.47%이다. 반면에 규칙 ‘Financial_Planning⇒Data_Entry’의 경우, n(Financial_Planning⇒Data_Entry)=756, 지지도=7.26%, 신뢰도=25.31%이다. 두 연관성 규칙의 신뢰도를 비교해보면 Data_Entry를 먼저 하던지, Financial_Planning을 먼저 하던지 순서의 상관에 큰 차이 없이 비슷하게 나온 것으로 보인다.
제1장 데이타마이닝의 주요 개념- CRM 이란?Customer Relationship Management의 약자로 우리말로는 '고객관계관리'라고 한다.기업이 고객과 관련된 내외부 자료를 분석·통합해 고객 중심 자원을 극대화하고 이를 토대로 고객특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정이다.- 데이타마이닝의 특징·정의: 데이터베이스, 데이터웨어하우스, 데이터마트 등 자료 저장소에 저장되어 있는 방대한 양의 데이터로부터 의사결정에 도움이 되는 유용한 정보를 발견하는 작업들의 집합·1980년대 이후, 다양한 형태의 데이터베이스 시스템 출현.·관련분야 : 지식발견(KKD), 기계학습, 패턴인식, 통계학, 뉴로컴퓨팅·활용분야 : 데이터베이스 마케팅, 신용평가, 품질관리, 부정행위의 적발, 이미지분석·특징 : ① 대용량의 관측 가능한 자료를 다룬다.②컴퓨터 중심적 기법이다.③경험적 방법에 근거하고 있다.④일반화에 초점을 두고 있다.⑤기업의 경쟁력 확보를 위한 의사결정을 지원한다.(활용↑)⑥통계학, 컴퓨터과학, 인공지능, 공학과 같은 분야에서 개발 됐지만, 실제로는 경영, 경제, 정보기술에서 사용한다.- 지도예측과 자율예측 의 비교지도예측자율예측·데이터마트가 n개의 사례로 구성·입력변수(예측, 설명, 독립변수)·목표변수(반응값, 결측치, 종속변수)→입력변수로부터 목표값을 예측하는 모형개발지도예측문제, 목표변수가-범주형;목표변수의 가능성, 확률 예측→예측모형 통해 새로운 개체 분류(로지스틱 회귀분석)-연속형;목표변수의 값 예측(선형회귀분석)로 나뉨.·판별, 회귀, 의사결정나무, 신경망, 시계열분석·목표변수가 명확하게 규정X·데이터에 존재하는 여러 가지 형태의 특징을 찾는 것·고객세분화에서 유사한 구매패턴을 가지는 소 비자 그룹을 찾거나 비슷한 라이프스타일을 가 지는 고객을 군집화하기 위해 사용- SEMMA(5단계)①표본추출(Sampling); 비용과 시간의 절약, 효율적인 모형화②탐색(Exploration); 데이터탐색 통해 기본적인 정보검색, 유용한 정보 추출하는)데이터마이닝 적용할 때 발생할 수 있는 문제점 : 장기적, 구체적 계획부족. 데이터에 대한 준비부족. 시간차이문제. 적용상의 문제. 부서 및 프로젝트들 간의 비협조문제제2장 Enterprise Miner 맛보기- 분석용, 검증용, 테스트데이터의 정의·분석용(=연습용)데이터: 데이터를 분석하여 모형을 만드는데 직접적으로 사용되는 데이 터.(Input Data Source노드에서 설정)·검증용(=평가용) 데이터: 모형의 성능을 감독하고 개선하기 위해 간접적으로 사용되는 데이터 (Tree노드의 가지치기, Regression노드의 변수선택, Neural Network노드의 수렴값 결정)·테스트 데이터: 모형의 생성에 전혀 사용되지 않으며, 일반화의 검토를 위해 남겨두는 것.⇒교차타당도에 의한 평가(위 세 가지 데이터들을 이용하여 평가를 수행하는 것)- 분석용, 검증용데이터가 안정성(stability)이 있어야 한다는 의미테스트 데이터는 모형의 생성에 관여하지 않고 단지 검토하기 위함이지만, 분석용과 검증용 데이터는 모형을 구축하고 성능을 향상시키는 데이터이기 때문에 안정성이 중요하다.- pp53 그림 2.24에 대한 해석리프트 그래프를 보면 의사결정나무모형에 의해서 반응률(%Response)이 높은 상위 10%에 대해서 기대 반응률이 16.61%이다. 전체 반응률(Baseline)이 7.5%에 이므로 약 2.2배의 효율을 얻을 수 있다. 그리고 Tree노드의 반응률이 Regression 보다 크므로 Tree노드에 의해 구축된 모형이 더 좋다는 뜻이다.제3장 의사결정나무분석- tree output을 보고 분류(예측)하기부모마디에서 자식마디로 갈수록 순수도↑, 분리기준이란 부모마디에 비해서 자식마디들에서 순수도가 증가하는 정도를 수치화한 것- 분류나무의 경우 카이제곱 통계량의 p-값에 의한 가지분리원리각 범주에 속하는 빈도에 기초하여 분리, p-값이 가장 작은 예측변수와 그 때의 최적분리에 의해서 자식마디를 형성- 회귀나무의 경우 F통계량의 p-값에 의한 가지분리원리목는지를 쉽게 알 수 있다비모수성 모형: 선형성이나 정규성 또는 등분산성 등의 가정을 필요가 없다. 이상치에 민감하지 않다·단점비연속성: 의사결정나무에서는 연속형 변수를 비연속적인 값으로 취급하기 때문에 분리의 경계점 근방에서는 예측오류가 클 가능성이 있다.선형성 또는 주효과의 결여: 선형모형에서 주효과는 다른 예측변수와 관련시키지 않고도 각 변수의 영향력을 해석할 수 있는데 의사경정나무는 없다.비안정성: 분석용 자료에만 의존하기 때문에 새로운 자료의 예측에서는 불안정할 가능성↑- pp86 그림 3.8에 대한 해석(리프트 그래프-%Response)의사결정나무가 신경망모형이나 회귀모형보다 좋은 예측력을 가진다. 의사결정나무의 상위 10%는 약 79%의 부실대출자가 포함되어 있지만, 회귀모형은 66%이다. 이 말은 79%거나 그 이상일 수도 있는데 회귀모형은 그 아래 수준만 예측했다는 뜻이다.- pp86 그림 3.9에 대한 해석(%Capture Response)의사결정나무에 의해서 부실 점수가 높은 상위 30%의 대출신청자에게 대출을 거절하면 약 80%의 부실대출을 방지할 수 있다. 반면에 신경망이나 회귀모형은 80%를 방지하려면 상위 50%의 신청자에게 거절해야한다.제4장 회귀분석- 선형회귀분석 output 해석- 로지스틱회귀분석 output의 해석- 로지스틱회귀모형식의 정의로지스틱회귀모형은 단순회귀모형과 다중회귀모형.단순회귀모형의 식은log {P(y=1|x)} over {1-P(y=1|x)} =y=a+bx이고 변수가 이항형(1 or 0)이다.다중회귀모형의 식은log {P(y=1|x _{1} , CDOTS ,x _{p} )} over {1-P(y=1|x _{1} , CDOTS ,x _{p} )} =y=a+ beta _{1} x _{1} +`` CDOTS + beta _{p} x _{p}이다. 변수 다항형로지스틱회귀분석의 목적은 추정된 로짓모형을 이용하여 자료를 분류하기 위한 것이다. 로지스틱 판별분석이라고도 불리고 회귀모형식이 바로 회귀분석에 필요한 식이다.- 입망모형식의 정의(입력변수의 수, 은닉층의 수, 은닉마디의 수, 결합함수, 활성함수 가 주어지면 모형식 정의, 혹은 output 보고 추정된 모형식 기술하기)MLP는 다층인식자 신경망으로서 입력층, 은닉마디로 구성된 은닉층, 그리고 출력층으로 구성된 전방향 신경망이다.입력층과 출력층, 하나의 은닉층에 두 개의 은닉마디를 가지는 MLP 구조H _{1} =f _{1} (b _{1} +w _{11} X _{1} +w _{21} X _{2} + CDOTS +w _{p1} X _{p} )H _{2} =f _{2} (b _{2} +w _{12} X _{1} +w _{22} X _{2} + CDOTS +w _{p2} X _{p} )Y=g(b _{0} +w _{10} H _{1} +w _{20} H _{2} )- 신경망분석의 특징과 적용상의 문제점·특징-범용근사자 : MLP는 범용근사자라고도 하는데, 적절한 활성함수와 적당한 은닉마디를 가질 때 모든 비선형 곡선을 정확하게 근사 시킬 수 있다는 것을 의미한다.-목적함수 : 또 적절한 수의 은닉층과 은닉마디가 결정되면 데이터로부터 연결강도라고 불리는 계수들을 추정한다(신경망분석에서 '훈련'). 이는 오차함수라고도 불리는 목적함수를 최소로 하는 것이다(오차함수=선형모형에서 의 오차제곱합).최적화 : 수치해석적인 반복적 최적화방법을 사용·문제점-역전파 : 신경망의 계수추정을 위해 개발된 기울기 하강알고리즘; 간단한 계산과정을 사용하지만 종종 비효율적-비수렴성 : 초기값이 국부최소값에 가까우면 추정치는 전체최소값이 아닌 국부최소값으로 수렴할 것이며, 국부최소값에서 모수 추정치는 실제 데이터를 정확하게 추정하기 못할 가능성이 많다.-결과해석 어려움 : 유연하기믄 하지만 결과를 해석하는 것이 어렵다. 계수들에 대한 간편한 해석이 불가능, 어떤 입력변수가 중요하고 상호작용하는지 결정하기 어려움.제6장 예측모형에 대한 평가- %Response, Lift, %Captured Response, Exact, Baseline의 계산%Response작성절차의 이해①예측모형을 통해 데이터세트의 모든 개체에 대해 사후확률을 구한다.②사후확률의 크기에 따라 데이터세트를 내림차순을 정렬한다(순위를 정한다).③데이터세트를 균일하게 K개의 그룹으로 나눈다(등급화 한다.).④각 등급에서 목표범주의 빈도를 계산한다.⑤각 등급에서 리프트테이블처럼 %Response, %Captured Response, 리프트통계량을 계산- Lift Chart 의 해석예측된 사후확률을 이용하여 모형을 평가. 위의 통계량으로 그래프를 그린 것. 각 등급은 사후확률에 따라 매겨진 순위이므로, 좋은 예측모형이라면 상위 등급에서는 더 높은 반응률(리프트), 하위 등급에서는 더 낮은 반응률을 보여야 한다. 만약 등급에 관계없이 반응률에 별 차이가 없다면 좋지 않은 예측모형이다. 이러한 리프트 그래프는 실생활에 적용할 수 있다.★- 정확도, 민감도, 특이도의 계산과 해석 255페이지, 손으로 계산할 필요 없음·정오분류표예측범주합계10실제범주1n _{11}n _{10}n _{1+}0n _{01}n _{00}n _{0+}합계n _{+1}n _{0+}n _{++}·정확도 :(n _{11} +n _{00} )/n _{++}·민감도 :n _{11} /n _{1+},→1의 분류능력·특이도 :n _{00} /n _{0+},→0의 분류능력민감도보다 특이도가 중요- P(Y=1| x)의 값들이 추정되었을 때 어떻게 분류해야 하나?- ROC curve에 관하여...판별분석 분야에서 예측모형의 성능을 도표로 평가하기 위해 전통적으로 사용되어져 옴. 특히 정확도(정분류율)라는 관점에서 모형의 성능을 볼 수 있음. ‘민감도’를 수직축, ‘1-특이도’를 수평축으로 하여 ROC곡선 그림. ROC곡선에서 대각선은 ‘우연에 의한 ROC곡선(rander model)’을 의미(예측력이 전혀 없는 모형에 대한 ROC곡선). 좋은 성능을 가진 모형일수록 곡선은 대각선 위쪽에 위치. ROC곡선 아래의 면적(c-통계량)이 예측모형의 성능으 측정하는 값으로 사용. 0.5와 1사이에 존재하며 1든다.
1)2)연봉이 5만 달러 이하인 사람들 중에는 나이가 적은 사람들이 많았고, 5만 달러 초과인 사람들은 나이가 많은 사람들이 대부분이었다.일하는 시간에 따른 연봉은 차이가 크지 않았다.fnlwgt 변수가 왼쪽으로 치우쳐져 있어서 모형개발의 효율성을 위해 Maximize Normality를 해주었다.연속형 변수에 대한 변환을 위해 Age 변수에 대하여 그룹화(Bucket) 변환을 취해주었다.Age 변수의 특이값을 대체해주었다.(우리나라의 정년은 거의 62세이기 때문에 Max를 62세로 함)결측값 보간 → 59페이지 구간형 : mean, 범주형 : mode3)4)연봉이 5만 달러 초과는 적색, 이하는 녹색으로 색상을 정의하였다다지분리 자식마디가 4개까지 분리될 수 있도록 설정하였다.Minimum number of observation in a leaf : 25Observations required for a split search : 100빨간색 : Validation