짤라라랑 스토어

짤라라랑

개인인증

팔로워0 팔로우

소개

등록된 소개글이 없습니다.

전문분야 등록된 전문분야가 없습니다.

판매자 정보

학교정보

입력된 정보가 없습니다.

직장정보

입력된 정보가 없습니다.

자격증

입력된 정보가 없습니다.

판매지수

판매중 자료수

1개
전체 판매량

2개
최근 3개월 판매량

1개
자료후기 점수

평균A+
자료문의 응답률

-

전체자료 1개

판매자 표지

ADSP 요점정리(민트책+유투브강의) 평가A+최고예요

1과목 데이터의 이해1.데이터의 이해*데이터: 있는 그대로의 사실, 가공되지않은 자료(주문수량) -> 정보: 가공된 자료(베스트셀러)-있는 그대로의 사실 나타내는 것 ‘존재적 특성’ (수학 80점, 영어 100점)-추론&예측&전망&추정을 위한 정보의 근거가 되는 것 ‘당위적특성’(평균 90점)*데이터의 유형1)정량적,정성적데이터-정성적데이터: 자료 특징 풀어서 설명->언어, 문자 등 기준이 명확하지 않음. 집합표현불가-정량적데이터: 수치, 도형, 기호 자료를 수치화(수치명확) 예)정육면체, 3시방향, 30CM2)정형, 반정형, 비정형데이터-정형: 정보형태 정해져있음. 고정된 틀. 연산가능, 관계형DB에 저장(엑셀스프레드시트, CSV)-비정형: 형태가 정해져있지않고 고정된 틀 존재하지 않음. 수집관리어려움(SNS, 유투브음원, 게시판 댓글, 사진,워드문서)->관계형DB(RDB)아닌 NoSQL DB에 저장-반정형: 형태있지만 연산 불가능, 수집관리쉽진않으며 테이블형태보다는 파일형태로 저장, 가공거쳐 정형데이터로 변환가능. 데이터 설명하는 메타데이터포함(로그,JSON,HTML,XML,센서데이터)*암묵지와 형식지간 상호작용 ‘공표연내’-암묵지: 개인에게 습득되고 겉으로 드러나지않음-형식지: 문서나 매뉴얼 등 형상화된 지식-공통화: 암묵지->암묵지, 요리지식 타인에게 알려줌-표출화: 암묵지->형식지, 암묵지 지식을 매뉴얼 문서로 전환-연결화: 형식지->형식지, 교재 매뉴얼에 새로운 지식 추가-내면화: 형식지->암묵지, 만들어진 매뉴얼을 다른 사람 암묵지로 터득*DIKW 피라미드: data -> information -> knowledge -> wisdom-데이터: 객관적 사실(a는 100원, b는 200원에 연필판매)-정보: 데이터를 통해 템플릿과 산출물(템플릿이란 어떤 작업 수행하기 위한 문서나 프로그램, 산출물은 작업 종료된 이후 작성되는 문서나 프로그램 의미)*분석방법론 생성과정암묵지 -> 형식지 -> 방법론 --> 암묵지형식화 체계화 내재화*분석방법론 모델1)폭포수모델 top-down 단계 순차적으로 진행, 현재 완료되어야 다음단계 진행하는 하향식(문제 발견 시 이전 단계 돌아가 피드백과정 수행할 수 있음)2)나선형모델: 여러 개발 과정 반복 거쳐 점진적으로 완성, 위험요소 사전에 제거가 초점3)프로토타입모델: 일부분(프로토)우선 개발하고 점진적으로 사용자 요구 분석 등 과정 거쳐 개선&보완->사용자중심 개발방법, 고객의 요구 완전히 이해못할 경우 사용4)애자일: 일정한 주기가지고 프로토타입을 끊임없이 수정하여 고객 니즈반영5)계층적 프로세스모델스텝(입력-처리도구-출력으로 구성된 단위프로세스, WBS패키지에 해당.)>테스크(단계를 구성함)>단계*KDD분석방법론: 데이터선택->전처리->변환->마이닝->결과평가1)데이터선택:목표설정, 타겟데이터생성2)전처리: 잡읍, 이상치 제거하고 의미있는데이터로 가공3)데이터변환:변수선택. 데이터차원축소. 학습용데이터와 검증용데이터를 분리4)데이터마이닝: 분석목적맞는 데이터마이닝기법사용하여 적절한 알고리즘적용5)해석과 평가*CRISP-DM분석방법론: 업무이해->데이터이해->데이터준비->모델링->평가->전개->‘업데데이터 모델평가전’ 6단계세분화! 모델링 단계에서 모델평가수행★, 평가과정단계에서 모델적용성평가를 수행함. 평가->전개단계에서 위대한 실패 가능-데이터마이닝 목표설정은 업무이해의 중요한 수행과제!-업무이해 & 데이터이해 두 단계 사이에서 피드백 통해 업무나 데이터에 대한 이해 충분히 숙지 후 다음단계로 넘어감-데이터준비단계에서 데이터셋 선택-평가 이전단계에서 문제 발생시 처음으로 돌아감.*빅데이터분석방법론1)분석기획:비즈니스이해 및 범위설정->프로젝트정의 및 계획수립->프로젝트 위험계획수립-비즈니스 범위 설정 시“SOW(Statement of wo)->우선순위고려요소:1)전략적 중요도(전략적필요성,시급성)2)실행용이성(투자용이성-기간.인력.투입용이성정도/기술용이성-안전성검증.보수용이성)3)ROI*ROI관점1)시급성관점:전략적 중요도가 핵심, 더불어 분석과제의목표가치(KPI)함께 고려해 판단. 현재가치에 전략적가치를 둘건지 미래중장기관점에 전략적가치를 둘지 적정시기 둘수있음->비즈니스효과 return “value”2)난이도관점: 현시점에서 과제추진하는 것이 바로적용하기쉬운지, 어려운 것인지 판단기준.데이터획득/저장/가공비용, 분석적용비용/분석수준->투자비용요소 investment “3v(velocity,variety,volume)”*포트폴리오 사분면 분석활용한 우선순위평가: 시급성(전략적 중요도)현재,난이도쉬운과제먼저*분석과제 우선순위 적용범위&방식 종합적으로 고려하여 최종적으로 분석구현한 로드맵 “분석 마스터플랜 수립 프레임워크”-적용범위&방식고려요소: 1)업무내재화적용수준 2)분석데이터적용수준 3)기술적용수준*ISP‘정보전략계획’: 중장기마스터플랜수립절차(전사정보시스템포괄), ISP수행위해서 조직내외부환경분석하고 기회나 문제점 도출하여 사용자의 요구사항 분석2.분석거버넌스체계구성요소: 분석관련시스템,조직, 과제기획 및프로세스, 분석관련교육 및마인드육성체계,데이터 ‘시조새프로마인드데’*데이터분석수준진단1)분석준비도: 데이터분석도입수준파악하기위한 진단방법(6가지: IT문데기인파)-IT인프라: 운영시스템데이터통합, 빅데이터/통계/비주얼분석환경, EAI/ETL등 데이터유통체계, 분석전용서버 및 스토리지-분석문화: 사실에 근거한 의사결정, 회의에서(경영진직관보단) 데이터활용, 관리자의 데이터중시, 데이터 공유 및 협업문화-분석데이터: 분석업무를 위한 데이터, 충분성&적시성&신뢰성, 비구조적 데이터관리, 외부데이터활용체계, 기준데이터관리(MDM)-분석기법: 업무별 적합한 분석기법사용, 분석기법라이브러리, 분석기법 효과성평가, 분석기법 정기적개선, 분석업무도입방법론-분석인력 및 조직: 분석전문가직무, 분석전문가 도 있음.1)ESD: 평균으로부터 표준편차 3만큼(표준편차의 3배)넘어가는 데이터는 이상값으로 판단(전체데이터의 0.3를 이상값으로 판단)2)사분위수: IQR 1.5분위수 넘어가는 경우 = Q1-1.5IQR보다 작거나 Q3+1.5IQR보다 크면 이상값으로 판단(Q2는 중앙값)2장.통계이해*표본추출방법1)단순랜덤추출법: 무작위로 표본추출2)계통추출법: 번호부여하여 일정 간격으로 추출3)집락(군집)추출법: 여러군집나눈뒤 군집선택하여 랜덤추출, 군집내이질적-군집간 동질4)층화추출법: 군집내동질, 군집간 이질적 -> 같은 비율로 추출 시 비례층화추출법5)복원, 비복원추출: 추출되었던 데이터 다시 포함시켜 표본추출하면 복원 추출*자료척도구분1)질적척도-명목척도: 어느 집단 속하는지 나타내는 자료(대학교, 성별)-순서척도(서열척도): 서열관계존재하는 자료(학년, 순위)2)양적척도-등간척도: 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능(온도,지수)-비율척도: 절대적기준 0이 존재, 사칙연산 가능(무게, 신장)*기초통계량1)평균(기대값): 전체 합을 개수로 나눈 값2)중앙값: 자료 크기순으로 나열했을 때 가운데 값3)최빈값: 가장 빈번하게 등장하는 값4)분산: 자료들 퍼져있는 정도, 표준편차: 분산의 제곱근값5)공분산 Cov 두 확률변수의 상관정도->얼마나 상관관계갖는지 알수없음. 무한대까지 갈수있음(최소,최대값없어 강약판단불가) 공분산 문제 해결위해 상관계수구함(둘 다 두 변수의 선형관계 나타내는 측도)공분산=0 상관 전혀 없는 상태공분산>0 양의 상관관계 / 공분산3을 기준으로 정규분포형태 판단하기도 함, 값이 클수록 뾰족한 모양-왜도: 확률분포의 비대칭정도 나타내는 척도, 0일 때 대칭(정규분포형태띄며 평균, 중앙값,최빈값이 모두 같다) 평균은 꼬리를 따라감.->왜도가 양수일 때 = 오른쪽으로 꼬리 길 때? 최빈값표준정규분포는 평균0 표준편차1인 정규분포의미하며 정규분포따르는 확률변수X를 표준정규분포따르는 확률변수Z로 변환가능(이 작업을 표준화라 함)-t분포: 따져봐야함.*상관분석: 두 변수간 선형적 관계 존재하는지 알아보는 분석방법으로 상관계수 사용->상관관계가 있다고 해서 변수들 간 인과관계가 있다는 말은 아님(인과관계가 없을수도 있음)=다변량분석(독립변수가 여러개인 것)-상관분석의 귀무가설H0=아무 상관관계가 없다(0)임.1)피어슨: 선형적 상관관계, 모수적 방법으로 두변수가 모두 정규분포따른다는 가정 필요,>cor(X,Y, method=’person’) ->양적척도(연속형)변수일때!!!(등간척도,비율척도): method=’person’생략해도 결과변화는 없음2)스피어만‘spearman’: 변수들이 서열척도일 때, 비선형적 상관관계, 비모수적방법으로 관측값의 순위에 대해 상관계수 계산하는 방법(명목척도에 대해선 상관계수 구할수없음)*회귀분석-독립변수-원인나타내는 변수(x, 설명변수) 결과나타내는 변수(y, 반응변수)-잔차: 계산값과 예측값 차이(오차: 모집단 기준, 잔차: 표본집단기준)y=w(기울기=회귀계수)x+b(절편=파라미터) -> 회귀계수가 크다는 것은 인과관계가 강하다-회귀계수추정방법: 잔차의 제곱합이 최소가 되는 회귀계수와 절편 구하는 방법(최소제곱법)-회귀모형평가: R-squared(R²)회귀결정계수를 통해 확인(모형의 설명력이 좋은지)->총 변동 중에서 회귀모형에 의해 설명되는 변동이 차지하는 비율(0-1)=>1일 때 good=>데이터들이 회귀선에 밀접하게 분포되고 있다는 의미. o일 때 bad(설명력이 강하다=인과관계 강하다)->다중회귀분석시엔 adjusted R-square 값 사용-QQ-plot산점도 점들이 45도에 가까운 직선모양 띌수록 정규분포따른다*회귀분석의 가정1)선형성: 종속변수와 독립변수는 선형관계(예외적으로 2차함수회귀선 갖는 다항함수는 선형성 안가져도 됨)2)등분산성: 잔차분산이 고르게 분포되어야함3)독립성: 단순회귀분석에서는 잔차와 독립변수값 독립이어야함. 독립변수여러개인 다중회귀분석에선 독립변수들간 상관관계 없이 독립이어야함->상관있다면 ‘다중공선성’, 이를 제거 후 회귀분석분류됨.

컴퓨터/IT| 2024.11.12| 20페이지| 2,000원| 조회(189)

데이터분석준전문가, ADSP, adsp 정리

미리보기

닫기