1과목 데이터의 이해1.데이터의 이해*데이터: 있는 그대로의 사실, 가공되지않은 자료(주문수량) -> 정보: 가공된 자료(베스트셀러)-있는 그대로의 사실 나타내는 것 ‘존재적 특성’ (수학 80점, 영어 100점)-추론&예측&전망&추정을 위한 정보의 근거가 되는 것 ‘당위적특성’(평균 90점)*데이터의 유형1)정량적,정성적데이터-정성적데이터: 자료 특징 풀어서 설명->언어, 문자 등 기준이 명확하지 않음. 집합표현불가-정량적데이터: 수치, 도형, 기호 자료를 수치화(수치명확) 예)정육면체, 3시방향, 30CM2)정형, 반정형, 비정형데이터-정형: 정보형태 정해져있음. 고정된 틀. 연산가능, 관계형DB에 저장(엑셀스프레드시트, CSV)-비정형: 형태가 정해져있지않고 고정된 틀 존재하지 않음. 수집관리어려움(SNS, 유투브음원, 게시판 댓글, 사진,워드문서)->관계형DB(RDB)아닌 NoSQL DB에 저장-반정형: 형태있지만 연산 불가능, 수집관리쉽진않으며 테이블형태보다는 파일형태로 저장, 가공거쳐 정형데이터로 변환가능. 데이터 설명하는 메타데이터포함(로그,JSON,HTML,XML,센서데이터)*암묵지와 형식지간 상호작용 ‘공표연내’-암묵지: 개인에게 습득되고 겉으로 드러나지않음-형식지: 문서나 매뉴얼 등 형상화된 지식-공통화: 암묵지->암묵지, 요리지식 타인에게 알려줌-표출화: 암묵지->형식지, 암묵지 지식을 매뉴얼 문서로 전환-연결화: 형식지->형식지, 교재 매뉴얼에 새로운 지식 추가-내면화: 형식지->암묵지, 만들어진 매뉴얼을 다른 사람 암묵지로 터득*DIKW 피라미드: data -> information -> knowledge -> wisdom-데이터: 객관적 사실(a는 100원, b는 200원에 연필판매)-정보: 데이터를 통해 템플릿과 산출물(템플릿이란 어떤 작업 수행하기 위한 문서나 프로그램, 산출물은 작업 종료된 이후 작성되는 문서나 프로그램 의미)*분석방법론 생성과정암묵지 -> 형식지 -> 방법론 --> 암묵지형식화 체계화 내재화*분석방법론 모델1)폭포수모델 top-down 단계 순차적으로 진행, 현재 완료되어야 다음단계 진행하는 하향식(문제 발견 시 이전 단계 돌아가 피드백과정 수행할 수 있음)2)나선형모델: 여러 개발 과정 반복 거쳐 점진적으로 완성, 위험요소 사전에 제거가 초점3)프로토타입모델: 일부분(프로토)우선 개발하고 점진적으로 사용자 요구 분석 등 과정 거쳐 개선&보완->사용자중심 개발방법, 고객의 요구 완전히 이해못할 경우 사용4)애자일: 일정한 주기가지고 프로토타입을 끊임없이 수정하여 고객 니즈반영5)계층적 프로세스모델스텝(입력-처리도구-출력으로 구성된 단위프로세스, WBS패키지에 해당.)>테스크(단계를 구성함)>단계*KDD분석방법론: 데이터선택->전처리->변환->마이닝->결과평가1)데이터선택:목표설정, 타겟데이터생성2)전처리: 잡읍, 이상치 제거하고 의미있는데이터로 가공3)데이터변환:변수선택. 데이터차원축소. 학습용데이터와 검증용데이터를 분리4)데이터마이닝: 분석목적맞는 데이터마이닝기법사용하여 적절한 알고리즘적용5)해석과 평가*CRISP-DM분석방법론: 업무이해->데이터이해->데이터준비->모델링->평가->전개->‘업데데이터 모델평가전’ 6단계세분화! 모델링 단계에서 모델평가수행★, 평가과정단계에서 모델적용성평가를 수행함. 평가->전개단계에서 위대한 실패 가능-데이터마이닝 목표설정은 업무이해의 중요한 수행과제!-업무이해 & 데이터이해 두 단계 사이에서 피드백 통해 업무나 데이터에 대한 이해 충분히 숙지 후 다음단계로 넘어감-데이터준비단계에서 데이터셋 선택-평가 이전단계에서 문제 발생시 처음으로 돌아감.*빅데이터분석방법론1)분석기획:비즈니스이해 및 범위설정->프로젝트정의 및 계획수립->프로젝트 위험계획수립-비즈니스 범위 설정 시“SOW(Statement of wo)->우선순위고려요소:1)전략적 중요도(전략적필요성,시급성)2)실행용이성(투자용이성-기간.인력.투입용이성정도/기술용이성-안전성검증.보수용이성)3)ROI*ROI관점1)시급성관점:전략적 중요도가 핵심, 더불어 분석과제의목표가치(KPI)함께 고려해 판단. 현재가치에 전략적가치를 둘건지 미래중장기관점에 전략적가치를 둘지 적정시기 둘수있음->비즈니스효과 return “value”2)난이도관점: 현시점에서 과제추진하는 것이 바로적용하기쉬운지, 어려운 것인지 판단기준.데이터획득/저장/가공비용, 분석적용비용/분석수준->투자비용요소 investment “3v(velocity,variety,volume)”*포트폴리오 사분면 분석활용한 우선순위평가: 시급성(전략적 중요도)현재,난이도쉬운과제먼저*분석과제 우선순위 적용범위&방식 종합적으로 고려하여 최종적으로 분석구현한 로드맵 “분석 마스터플랜 수립 프레임워크”-적용범위&방식고려요소: 1)업무내재화적용수준 2)분석데이터적용수준 3)기술적용수준*ISP‘정보전략계획’: 중장기마스터플랜수립절차(전사정보시스템포괄), ISP수행위해서 조직내외부환경분석하고 기회나 문제점 도출하여 사용자의 요구사항 분석2.분석거버넌스체계구성요소: 분석관련시스템,조직, 과제기획 및프로세스, 분석관련교육 및마인드육성체계,데이터 ‘시조새프로마인드데’*데이터분석수준진단1)분석준비도: 데이터분석도입수준파악하기위한 진단방법(6가지: IT문데기인파)-IT인프라: 운영시스템데이터통합, 빅데이터/통계/비주얼분석환경, EAI/ETL등 데이터유통체계, 분석전용서버 및 스토리지-분석문화: 사실에 근거한 의사결정, 회의에서(경영진직관보단) 데이터활용, 관리자의 데이터중시, 데이터 공유 및 협업문화-분석데이터: 분석업무를 위한 데이터, 충분성&적시성&신뢰성, 비구조적 데이터관리, 외부데이터활용체계, 기준데이터관리(MDM)-분석기법: 업무별 적합한 분석기법사용, 분석기법라이브러리, 분석기법 효과성평가, 분석기법 정기적개선, 분석업무도입방법론-분석인력 및 조직: 분석전문가직무, 분석전문가 도 있음.1)ESD: 평균으로부터 표준편차 3만큼(표준편차의 3배)넘어가는 데이터는 이상값으로 판단(전체데이터의 0.3를 이상값으로 판단)2)사분위수: IQR 1.5분위수 넘어가는 경우 = Q1-1.5IQR보다 작거나 Q3+1.5IQR보다 크면 이상값으로 판단(Q2는 중앙값)2장.통계이해*표본추출방법1)단순랜덤추출법: 무작위로 표본추출2)계통추출법: 번호부여하여 일정 간격으로 추출3)집락(군집)추출법: 여러군집나눈뒤 군집선택하여 랜덤추출, 군집내이질적-군집간 동질4)층화추출법: 군집내동질, 군집간 이질적 -> 같은 비율로 추출 시 비례층화추출법5)복원, 비복원추출: 추출되었던 데이터 다시 포함시켜 표본추출하면 복원 추출*자료척도구분1)질적척도-명목척도: 어느 집단 속하는지 나타내는 자료(대학교, 성별)-순서척도(서열척도): 서열관계존재하는 자료(학년, 순위)2)양적척도-등간척도: 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능(온도,지수)-비율척도: 절대적기준 0이 존재, 사칙연산 가능(무게, 신장)*기초통계량1)평균(기대값): 전체 합을 개수로 나눈 값2)중앙값: 자료 크기순으로 나열했을 때 가운데 값3)최빈값: 가장 빈번하게 등장하는 값4)분산: 자료들 퍼져있는 정도, 표준편차: 분산의 제곱근값5)공분산 Cov 두 확률변수의 상관정도->얼마나 상관관계갖는지 알수없음. 무한대까지 갈수있음(최소,최대값없어 강약판단불가) 공분산 문제 해결위해 상관계수구함(둘 다 두 변수의 선형관계 나타내는 측도)공분산=0 상관 전혀 없는 상태공분산>0 양의 상관관계 / 공분산3을 기준으로 정규분포형태 판단하기도 함, 값이 클수록 뾰족한 모양-왜도: 확률분포의 비대칭정도 나타내는 척도, 0일 때 대칭(정규분포형태띄며 평균, 중앙값,최빈값이 모두 같다) 평균은 꼬리를 따라감.->왜도가 양수일 때 = 오른쪽으로 꼬리 길 때? 최빈값표준정규분포는 평균0 표준편차1인 정규분포의미하며 정규분포따르는 확률변수X를 표준정규분포따르는 확률변수Z로 변환가능(이 작업을 표준화라 함)-t분포: 따져봐야함.*상관분석: 두 변수간 선형적 관계 존재하는지 알아보는 분석방법으로 상관계수 사용->상관관계가 있다고 해서 변수들 간 인과관계가 있다는 말은 아님(인과관계가 없을수도 있음)=다변량분석(독립변수가 여러개인 것)-상관분석의 귀무가설H0=아무 상관관계가 없다(0)임.1)피어슨: 선형적 상관관계, 모수적 방법으로 두변수가 모두 정규분포따른다는 가정 필요,>cor(X,Y, method=’person’) ->양적척도(연속형)변수일때!!!(등간척도,비율척도): method=’person’생략해도 결과변화는 없음2)스피어만‘spearman’: 변수들이 서열척도일 때, 비선형적 상관관계, 비모수적방법으로 관측값의 순위에 대해 상관계수 계산하는 방법(명목척도에 대해선 상관계수 구할수없음)*회귀분석-독립변수-원인나타내는 변수(x, 설명변수) 결과나타내는 변수(y, 반응변수)-잔차: 계산값과 예측값 차이(오차: 모집단 기준, 잔차: 표본집단기준)y=w(기울기=회귀계수)x+b(절편=파라미터) -> 회귀계수가 크다는 것은 인과관계가 강하다-회귀계수추정방법: 잔차의 제곱합이 최소가 되는 회귀계수와 절편 구하는 방법(최소제곱법)-회귀모형평가: R-squared(R²)회귀결정계수를 통해 확인(모형의 설명력이 좋은지)->총 변동 중에서 회귀모형에 의해 설명되는 변동이 차지하는 비율(0-1)=>1일 때 good=>데이터들이 회귀선에 밀접하게 분포되고 있다는 의미. o일 때 bad(설명력이 강하다=인과관계 강하다)->다중회귀분석시엔 adjusted R-square 값 사용-QQ-plot산점도 점들이 45도에 가까운 직선모양 띌수록 정규분포따른다*회귀분석의 가정1)선형성: 종속변수와 독립변수는 선형관계(예외적으로 2차함수회귀선 갖는 다항함수는 선형성 안가져도 됨)2)등분산성: 잔차분산이 고르게 분포되어야함3)독립성: 단순회귀분석에서는 잔차와 독립변수값 독립이어야함. 독립변수여러개인 다중회귀분석에선 독립변수들간 상관관계 없이 독립이어야함->상관있다면 ‘다중공선성’, 이를 제거 후 회귀분석분류됨.