*강*
Bronze개인인증
팔로워0 팔로우
소개
등록된 소개글이 없습니다.
전문분야 등록된 전문분야가 없습니다.
판매자 정보
학교정보
입력된 정보가 없습니다.
직장정보
입력된 정보가 없습니다.
자격증
  • 입력된 정보가 없습니다.
판매지수
전체자료 3
검색어 입력폼
  • [데이터마이닝, 통계] S-plus를 이용한 스코어카드 작성
    S-PLUS를 이용한 Scorecard 작성레 포 트{{{S-PLUS를 이용한 Scorecard 작성{{학 과교 수 명학 번이 름제 출 일{통계학에서의 데이터 마이닝은 통신·금융 산업의 이탈방지, 카드 혹은 카드 도난도용 방지, 유통산업에 서의 가계 진열분석 등을 위해서 사용되고 있다. 또한 마케팅 측면에서 CRM을 이용한 고객 데이터웨어 하우스 구축, 고객 데이터 가치 분석에 데이터 마이닝 기법이 적극 사용되고 있다. 금융권에서의 여러 가지 데이터 모형 기법중 통계적 기법에 기초한 신용평점 시스템을 통한 대출신청인의 신용위험을 측정 할 수 있는 평점표(Scorecard)를 수업시간에 배운 데이터 마이닝 분석을 통해 주어진 데이터를 이용하 여 작성해 보고자 한다.1. 분석목적고객의 신용도 평가 (우량 / 불량)를 구분하기 위한 다양한 종류의 설명변수를 통계적인 데이터 마이닝 기법을 이용하여 최적의 설명변수 추출작업 및 고객 대출 평가를 위한 최적의 평점표를 만들 수 있다.2. 분석과정데이터 특성 확인 변수의 선택 연속형 설명변수의 범주화 범주화된 변수들의 가변수화 로 지스틱 회귀모형 평 가{Sampling데이터 표본중 70%는 Sampling을 하여 신용평점 모형을 추정하고 나머지 30%는 모형의 검증에 사용{< Sampling is finished >Data Frame Name : scorecardTraining rate : 70 %Method : Simple Random SamplingHistogram ☞ 별지 참조각 변수에 대하여 연속형 자료는 Histogram, 이산형 자료는 Bar chart를 작성하여 변수의 특성을 파악Gruoping종속변수(우량/불량)의 범주를 재 grouping하여 새로운 이산형 (2/1) 변수인 Target variable 생성NA treatment자료에서 데이터의 결측치나 NULL 값, 혹은 NA 값을 이산형·연속형 변수의 특성에 맞도록 분석자의 판단하에 적절한 값으로 대체시키거나 삭제시킨다{{.Variable : NA가 포함M.CATE.C44.D4 -415.339118550506DUM.CATE.C48.D1 -40.*************DUM.CATE.C52.D1 -23.*************DUM.CATE.C52.D2 -33.4562601082702DUM.CATE.C52.D3 -49.*************DUM.CATE.C52.D4 -37.*************DUM.CATE.C52.D5 -24.7642730151306DUM.CATE.C52.D6 -6.62838687788717{levelscorelevelscoreDUM.CATE.C6.D1 -15.*************DUM.CATE.C6.D2 -18.5952716586175DUM.CATE.C6.D3 -24.308450080286DUM.CATE.C8.D1 -6.77625425983714DUM.CATE.C8.D2 -27.027095990888DUM.CATE.C80.D1 -15.0473985415013DUM.CATE.C80.D10 -189.772484069973DUM.CATE.C80.D11 17.9461548901248DUM.CATE.C80.D12 -0.682547875102063DUM.CATE.C80.D13 -14.*************DUM.CATE.C80.D14 32.2338790191493DUM.CATE.C80.D15 -215.475327709187DUM.CATE.C80.D16 29.0963979667741DUM.CATE.C80.D17 20.3778575778834DUM.CATE.C80.D18 -242.594716829131DUM.CATE.C80.D19 8.*************3DUM.CATE.C80.D2 1.*************9DUM.CATE.C80.D20 -72.3941584959676DUM.CATE.C80.D21 47.205467932792DUM.CATE.C80.D22 29.*************DUM.CATE.C80.D23 -32.*************DUM.CATE.C80.D24 64.71189ATE.C81.D13 144.521437380776DUM.CATE.C81.D14 149.833146793979DUM.CATE.C81.D15 145.58523633894DUM.CATE.C81.D16 168.367545821765DUM.CATE.C81.D17 139.909821013638DUM.CATE.C81.D18 118.265519805595DUM.CATE.C81.D19 133.998566722718DUM.CATE.C81.D2 137.38046590934DUM.CATE.C81.D20 195.149037949626DUM.CATE.C81.D21 121.27890480377DUM.CATE.C81.D22 -17.8956986789848DUM.CATE.C81.D23 159.401654539643DUM.CATE.C81.D24 -88.*************DUM.CATE.C81.D25 139.31723433048DUM.CATE.C81.D26 150.409527559805DUM.CATE.C81.D27 165.192075095907DUM.CATE.C81.D28 -11.*************DUM.CATE.C81.D29 154.221425517822DUM.CATE.C81.D3 -36.8837835496492DUM.CATE.C81.D30 -100.494772966591DUM.CATE.C81.D31 136.120959244423DUM.CATE.C81.D32 105.391534763246DUM.CATE.C81.D33 155.677721391357DUM.CATE.C81.D34 109.972163004202DUM.CATE.C81.D35 136.344077698044DUM.CATE.C81.D36 187.980315207967DUM.CATE.C81.D37 87.*************DUM.CATE.C81.D38 167.329887604848DUM.CATE.C81.D39 107.381281319504DUM.CATE.C81.D4 153.916466216247DUM.CATE.C81.D40 70234854906DUM.GROUP.C74.D3 -64.3218250067999DUM.GROUP.C74.D4 13.1882839978086DUM.GROUP.C74.D5 29.*************DUM.GROUP.C74.D6 -30.*************DUM.GROUP.C74.D7 13.6905600378659DUM.GROUP.C74.D8 -8.*************6DUM.GROUP.C74.D9 51.*************HUFS 버전 스코어카드 (60% 이상 변수그룹){levelscorelevelscoreDUM.CATE.C11.D1 -7.14228607040604DUM.CATE.C11.D2 1.*************2DUM.CATE.C19.D1 -18.0531846675024DUM.CATE.C22.D1 -2.*************3DUM.CATE.C22.D2 -5.91160109293234DUM.CATE.C22.D3 -9.5*************DUM.CATE.C22.D4 -9.4*************DUM.CATE.C22.D5 -16.5546464602721DUM.CATE.C22.D6 -21.*************DUM.CATE.C22.D7 -126.479984136229DUM.CATE.C38.D1 -0.*************3DUM.CATE.C38.D2 3.0*************DUM.CATE.C44.D1 2.49968561691307DUM.CATE.C44.D2 10.5149649496266DUM.CATE.C44.D3 3.*************6DUM.CATE.C44.D4 -228.59098041162DUM.CATE.C45.D1 0.104745400121972DUM.CATE.C45.D2 -1.*************8DUM.CATE.C45.D3 1.*************5DUM.CATE.C45.D4 6.9*************DUM.CATE.C45.D5 4.*************2DUM.CATE.C48.D1 -22.04550.414654Test for independence of all factorsChi^2 = 2632.159 d.f.= 1 (p=0)Yates' correction not used{12total124750.890.910.533060.110.160.06627810.622520.140.0930.05416210.860.840.3518730.4total27270.5919270.414654Test for independence of all factorsChi^2 = 2632.57 d.f.= 1 (p=0)Yates' correction not usedH0 : 모든 요인들이 독립이다 vs H1 : 모든 요인들이 독립이 아니다☞ 70% 이상 변수와 60% 이상 변수를 대상으로 모든 요인들의 독립성 검정을 위한 Bagging score를 실행시킨 결과 모두 {chi^2의 값이 > {chi_{1, alpha} ^2이고 P-value 가 모두 0이므로 귀무가설을 기각한다. 즉, 독립 성을 만족함을 알 수 있다.모형검정 (Assessment)Good vs Bad 히스토그램히스토그램에서 파란색은 우량을 빨간색은 불량을 나타낸다. 히스토그램의 높이는 전체 우량 혹은 불 량 중 해당 score구간의 우량(or 불량) %를 의미한다. [Good vs Bad Histogram]을 통해 각 model들이 score 구간별로 우량과 불량을 얼마나 잘 분리해주는가를 평가할 수 있다Training DATA{{{Bagging tree (70% 이상 변수)Scorecard (70% 이상 변수){{{Bagging tree (60% 이상 변수)Scorecard (60% 이상 변수)Validation DATA{{{Bagging tree (70% 이상 변수)Scorecard (70% 이상 변수){{{Bagging tree (60% 이상 변수)Scorecard (60% 이상 변수)70% 이상 변수그룹 과 60% 이상 변수그룹의 Model 비교{{{Bagging tree (70% 이상 변수그룹)Bagging 환
    자연과학| 2005.04.14| 21페이지| 1,000원| 조회(1,007)
    미리보기
  • [통계학] 실험계획법에 의한 종이헬리콥터 실험 평가B괜찮아요
    실험목적 : 종이 헬리콥터가 가장 오랫동안 날 수 있도록 2가지 요인을 선택하여 실험 함으로써 데이터에서 얻어진 최적 모형 값을 이용하여 가장 오래 날 수 있 는 종이 헬리콥터를 알아 낸다.요인선택. 날개 길이종이 헬리콥터의 체공시간을 높이기 위해 내려오는 동안 공기와의 마찰력을 최대한 높일 수 있도록 날개를 10cm∼14cm 길이에서 1cm 간격을 두어 실험을 하였다.. 몸체의 홈의 개수{{{종이 헬리콥터가 회전하면서 내려오면서 홈을 통해 공기가 부딪히면서 홈이 없을 때 보다 마찰력이 더욱 커짐으로써 체공시간이 늘어날 수 있는 가능성이 있기 때문에 요인을 선정하였다.실험방법이 실험의 목적은 종이 헬리콥터의 체공시간을 높이기 위한 최적의 요인을 찾는 실험이 므로 바람이 없는 실내에서 실시하였다. 또한 동일한 모형의 헬리콥터를 4개씩 만들어 반복없이 떨어뜨림으로써 실험이 실시되는 동안 발생할 수 있는 변수요인을 줄이고자 했다. 즉, 아래 3가지 원리에 기초로 실험을 실시 하였다.. Randomization : 난수표를 이용한 무 작위적 실험순서로 실시. Replication : 4번을 반복하되 같은 모형의 종이 헬리콥터를 각 각 4개씩 만들어 1개 의 헬리콥터를 4번 반복하여 실험했을 때 발생할 수 있는 변수를 제거. Blocking : 종이 헬리콥터를 떨어뜨릴 때, 동일 인물이 동일 지점·같은 높이에서 실험을 실시하여 최대한 실험 환경을 동일하게 설정중심합성계획이차 곡면을 추정하고 모형의 적합도 검정을 위하여 반경 {root2 = 1.414되는 점과 중심점 (0, 0)을 포함한 실험계획점을 선정하는 것{{x_1(날개길이){x_2(홈의갯수)η1η2{y(체공시간)100-1-18.077.627.378.25103-118.107.927.527.801401-16.055.607.756.05143116.054.965.064.07121.5009.328.828.429.0014.8281.51.41404.604.724.293.509.1721.5-1.41407.026.906.106.70123.62101.4149.209.108.827.3812-0.621⇒00-1.4148.577.728.919.52☞ 중심합성계획법에 의해 날개길이({x_1)의 최대값과 최소값은 10, 14가 되고 홈의 개수({x_2)의 최대값과 최소값은 0, 3이 된다. η1 값이 1.414로 소수점이면 비율로써 그에 해당되는 {x_1{x_2를 구할 수 있다. 여 기서 η2 = -1.414 일 때, {x_2는 -0.621 이지만 음수가 될 수 없기 때문에 0으로 대체하였다.데이터 분석{The RSREG ProcedureType I SumRegression DF of Squares R-Square F Value Pr > FLinear 2 29.785112 0.3004 29.08
    공학/기술| 2005.01.17| 5페이지| 2,000원| 조회(7,232)
    미리보기
  • [통계학] 시계열 분석에 의한 시청률 예측방법
    {10 -I. 자료설명자 료 : 드라마 "백만송이 장미" 시청률단 위 : %출 처 : www.acnielsenmedia.co.kr & www.tnsmk.co.kr주 제 : 시간의 흐름에 따라 일일연속극 "백만송이 장미"의 시청률 변화를 살펴보고자 한다.동 기 : 시청률은 특정 프로그램을 얼마나 많은 사람들이 보느냐를 나타낸 숫자이다. 특히, 드라마 시청률이 높고 낮음으로 인해 좋은 드라마, 좋지 못한 드라마로 나뉘기도 한다. 여기서 일 일연속극 "백만송이 장미"는 부모의 재혼으로 가족이 된 성이 다른 두 형제가 갈등을 극복 하고 진정한 가족으로 화합해 가는 과정이 중심 줄거리로써, 진정한 가족의 조건은 혈연을 뛰어 넘어 희로애락을 함께 해온 시간과 사랑에 있음을 드라마를 통해 보여주고자 한다. 이 렇게 오락 프로램이나 단기간 방송 프로그램이 아닌 모든 연령층이 고루 시청할 수 있는 일 일연속극의 가족드라마라는 점에 주안을 두어 이 프로젝트 주제의 목표로 삼았다. 우리가 목표로 삼은 한 드라마의 시청률이 첫 방송부터 시간이 지남에 따라 어떻게 변화하는지를 표본을 통해 분석하고 그 추세를 따라 종영방송의 시청률을 예측해보고자 한다. 아울러, 보 고서를 통해 강의실에서 배운 지식을 현실에 직접 적용해 보고 우리가 배운 지식을 토대로 예측한 종영방송의 시청률과 실제 시청률을 비교함으로써, 학문과 현실의 차이를 직접 느껴 보고자 한다.DATA{{('04. 2월 ∼ 6월)분석순서{{II. 시계열 그림 분석시청률 자료의 Plot 분석{{. 시간이 흐를수록 자료가 증가하거나 감소하는가?☞ 시간이 흐를수록 자료는 증가추세를 보이고 있다.. 자료가 주기적으로 일정한 모양을 갖고 있는가?☞ 주기적인 모양이 보여지지 않으므로 비계절성 시계열임을 알 수 있다. 시간이 흘러가도 자료의 변동·분산이 일정한가?☞ 자료의 변동폭과 분산이 일정하지 않다고 판단되어 제곱근변환, 로그변환 등을 통한 분산 안정화가 요구된다.. 자료에 대한 가상의 평균선을 중심으로 평균선을 통과하는 회수가 어느 정 . |16 0.04803 | . |* . |17 0.06321 | . |* . |18 -0.05263 | . *| . |{{Autocorrelations *| . |Lag Covariance Correlation -1 9 8 7 6 5 4 3 2 1 0 1 2 3 4 5 6 7 8 9 1 Std Error0 0.014313 1.00000 | |********************| 01 0.010798 0.75440 | . |*************** | 0.1170412 0.0099988 0.69859 | . |************** | 0.1711463 0.0089599 0.62600 | . |************* | 0.2065474 0.0085411 0.59674 | . |************ | 0.2310805 0.0067997 0.47508 | . |********** | 0.2513056 0.0064184 0.44844 | . |********* . | 0.2633217 0.0059962 0.41894 | . |******** . | 0.2735828 0.0051192 0.35767 | . |******* . | 0.2822349 0.0048153 0.33643 | . |******* . | 0.28837610 0.0042127 0.29433 | . |****** . | 0.29370311 0.0034542 0.24134 | . |***** . | 0.29771612 0.0033420 0.23350 | . |***** . | 0.30038413 0.0031902 0.22289 | . |**** . | 0.30286014 0.0024594 0.17183 | . |*** . | 0.30509915 0.0018402 0.12857 | . |*** . | 0.30642216 0.0020288 0.14175 | . |*** . | 0.30716017 0.0019524 0.13641 | . |*** . | 0.30805518 0.0013773 | *******| . |3 -0.38915 | ********| . |4 -0.07069 | . *| . |5 -0.06746 | . *| . |6 -0.07425 | . *| . |7 0.17748 | . |****. |8 -0.00725 | . | . |9 -0.01634 | . | . |10 0.05914 | . |* . |11 -0.09824 | . **| . |12 0.01677 | . | . |13 0.15520 | . |*** . |14 -0.01980 | . | . |15 -0.01531 | . | . |16 -0.04462 | . *| . |17 0.06053 | . |* . |18 -0.02154 | . | . |{원래 자료의 Plot과 제곱근 변환·로그변환의 Plot을 비교해 보면, 변동의 폭이 줄어들긴 했으나 전체적인 모양 이 원래 자료의 Plot과 큰 차이를 발견할 수 없었다. 하지만 변환의 ACF를 보면 차분의 필요성이 요구되므로 1차 차 분을 실행하였다. 차분 된 Plot을 보면 원래 자료의 Plot에 비해 전체적으로 평균 통과 회수가 많아지고 일정해지 긴 했으나 실제로 차분이 필요한지는 DF-test를 통해서 검정을 실시해 보고자 한다.Dicky-Fuller Test{Obs AR_V1 AR_V2 AR_V3 _NOBS_ _TAU_ _TREND_ _DLAG_ _PVALUE_1 -0.72483 -0.58772 -0.38684 69 -2.61177 1 1 0.0954412 0.06744 0.02335 0.00324 69 -2.61177 1 1 0.0954413 -0.00246 -0.00100 -0.00026 69 -2.61177 1 1 0.0954414 0.01319 0.00854 0.00436 69 -2.61177 1 1 0.0954415 0.00854 0.01619 0.00818 69 -2.61177 1 1 0.0954416 0.00436 0.00818 0.01211 69 -2.61177 1 1 0.095441{H_0: ρ = 1 (*| . |7 0.17748 | . |****. |8 -0.00725 | . | . |9 -0.01634 | . | . |10 0.05914 | . |* . |11 -0.09824 | . **| . |12 0.01677 | . | . |13 0.15520 | . |*** . |14 -0.01980 | . | . |15 -0.01531 | . | . |16 -0.04462 | . *| . |17 0.06053 | . |* . |18 -0.02154 | . | . |. 표를 보면, ACF는 시차에 따라 지수적으로 감소하고 PACF는 시차 3에서 절단된 형태인지 혹은 지수적 감 소인지 주관적 관점에 따라 다르기 때문에 여러 가지 모형의 AIC·SBC를 통해서 적합한 모형을 찾아내고자 한다.여러 가지 모형의 AIC·SBC{AR(1)AR(2)AR(3)MA(1)MA(2)MA(3)ARMA(1, 1)ARMA(1, 2)ARMA(1, 3)ARMA(2, 1)ARMA(2, 2)ARMA(2, 3)ARMA(3, 3)AIC293.1387282.4768275.8412276.5962277.1146276.2045277.7406276.1251277.7048278.1517277.4654276.2469280.5561SBC297.6920292.3068281.9478284.1495283.9446285.3112284.5706285.2318289.0882287.2584288.8487289.9069299.4928☞ 여러 가지 모형을 적합 시켜 본 결과 AR(3) 모형의 AIC·SBC가 가장 작은 값이 나왔으므로 우리 자료에 가장 적합한 모형이라 추정할 수 있다.IV. 모수의 추정모형이 식별되었으면 그 모형속에 포함된 모수들을 추정하여야 한다. 주로 사용되는 추정법으로는 최소 제곱 추정법, 최대우도 추정법, 적률 추정법등이 있다. 적률 추정법은 이론 전개가 쉽다는 장점이 있는 반면 효율성이 떨어지는 단점이 있다. 추정에서는 일반적으로 최소제곱 추정법, 최대우도 추정법이 사용 되며 이들의 초기값으로 적률 추정81 30.8783 37.103375 33.7816 1.6175 30.6114 36.951876 33.8076 1.6585 30.5570 37.058177 34.5596 1.7309 31.1672 37.952178 34.5051 1.9266 30.7291 38.281179 34.5658 1.9810 30.6831 38.448680 34.7499 2.0449 30.7419 38.757981 35.0730 2.1234 30.9113 39.234782 35.1641 2.2174 30.8180 39.510183 35.3098 2.2793 30.8424 39.7772☞ 우리가 추정한 최적모형은 {Z_t = 0.48787 - 0.80664Z_t-1 - 0.61324Z_t-2 - 0.38330Z_t-3 + a_t이며, 이 모형에 따라 우리가 예측한 종영방송의 시청률은 33.9908로써 이 값은 실제 종영방송 시청률인 33.8%와 거의 근접함을 알 수 있었다.VII. 결 론예측값과 원래 자료의 Plot을 비교해 보면 다음과 같다.{지금까지 우리는 시계열 분석방법을 일상생활 속의 여러 시계열 자료 중 시청률이라는 한가지에 접목시켜 보았다. 처음 Plot을 보고 변환과 차분 과정이 반드시 필요할 것이라 예상했는데 실험결과 변환 과정은 원래 자료보다 효율성이 떨어진 반면 차분 된 자료는 비정상 시계열을 정상화 시켜 모형 추정 시 매우 유용했다. 비록 수집된 데이터 중에서 발견된 몇 개의 이상치 중 일부는 선거방송 등 사회적 요인이나 특집방송 방영 여부가 크게 작용 하였다고 추측된다. 우리가 이론에서 배운 데이터 분석의 결과 값과 실제 방송의 시청률이 거의 비슷하다는 것을 보 임으로써 이러한 통계적 이론이 일상 생활에서 얼마나 유용하게 쓰이고 있는지 다시 한번 새삼 느끼게 되었다.VIII. SAS Code{DATA SEA;nalja=intnx('day','23feb04'd,_N_);format nalja yymmdd5.;INPUT SEA @@;CARDS;21.6 21.0 20.6 e
    공학/기술| 2005.01.17| 11페이지| 2,000원| 조회(1,565)
    미리보기
전체보기
받은후기 3
3개 리뷰 평점
  • A+최고예요
    1
  • A좋아요
    1
  • B괜찮아요
    0
  • C아쉬워요
    0
  • D별로예요
    1
전체보기
해캠 AI 챗봇과 대화하기
챗봇으로 간편하게 상담해보세요.
2026년 05월 18일 월요일
AI 챗봇
안녕하세요. 해피캠퍼스 AI 챗봇입니다. 무엇이 궁금하신가요?
1:07 오후
문서 초안을 생성해주는 EasyAI
안녕하세요 해피캠퍼스의 20년의 운영 노하우를 이용하여 당신만의 초안을 만들어주는 EasyAI 입니다.
저는 아래와 같이 작업을 도와드립니다.
- 주제만 입력하면 AI가 방대한 정보를 재가공하여, 최적의 목차와 내용을 자동으로 만들어 드립니다.
- 장문의 콘텐츠를 쉽고 빠르게 작성해 드립니다.
- 스토어에서 무료 이용권를 계정별로 1회 발급 받을 수 있습니다. 지금 바로 체험해 보세요!
이런 주제들을 입력해 보세요.
- 유아에게 적합한 문학작품의 기준과 특성
- 한국인의 가치관 중에서 정신적 가치관을 이루는 것들을 문화적 문법으로 정리하고, 현대한국사회에서 일어나는 사건과 사고를 비교하여 자신의 의견으로 기술하세요
- 작별인사 독후감