adsp

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
>
최초 생성일 2025.02.09
5,000원
AI자료를 구입 시 아래 자료도 다운로드 가능 합니다.
새로운 AI자료
생성
다운로드

상세정보

소개글

"adsp"에 대한 내용입니다.

목차

1. 데이터 이해
1.1. 정성적 데이터와 정량적 데이터
1.2. 정형 데이터, 반정형 데이터, 비정형 데이터
1.3. 암묵지와 형식지
1.4. 데이터의 계층적 구조

2. 데이터 분석 기획
2.1. 분석 대상과 방법
2.2. 분석 기획 방안
2.3. 데이터 기반 의사결정의 필요성
2.4. 분석 방법론

3. 데이터 분석
3.1. R 기초
3.2. 데이터 처리 및 탐색
3.3. 통계 기법
3.4. 시계열 분석
3.5. 데이터 마이닝

4. 데이터 분석 거버넌스
4.1. 데이터 거버넌스
4.2. 분석 지원 인프라
4.3. 분석 과제 관리 프로세스

본문내용

1. 데이터 이해
1.1. 정성적 데이터와 정량적 데이터

정성적 데이터는 언어나 문자로 표현된 데이터이다. 언어나 문자로 표현하면 저장, 검색, 분석에 많은 비용이 소모된다. 반면 정량적 데이터는 수치, 도형, 기호로 표현된 데이터이다. 정량적 데이터는 간단하게 정형화되어 있어 비용 소모가 적다. 정량적 데이터는 수량(양)으로 표현되므로 정량적 데이터라고 한다.

정형 데이터는 관계형 데이터베이스, CSV 등 형식이 정해져 있는 데이터이다. 반정형 데이터는 눈으로 봤을 때 무슨 정보인지 모르는 데이터(센서데이터처럼)로, 한 번의 변환이 필요하다. 비정형 데이터는 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터이다.

암묵지는 매뉴얼화되어 있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않는 지식이다. 김치 담그기, 자전거 타기 등이 이에 해당한다. 개인에게 내면화된 암묵지는 조직에 공통화될 수 있다. 형식지는 문서나 매뉴얼화된 지식으로, 교과서, 비디오 등이 이에 해당한다. 언어, 숫자, 기호로 표출된 형식지는 개인의 지식으로 연결된다.

DIKW 모형에서 데이터는 가공하기 전의 순수한 수치나 기호이고, 정보는 패턴을 인식하고 의미를 부여한 데이터이다. 지식은 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물이고, 지혜는 창의적 아이디어이다. 데이터의 단위로는 비트(bit), 바이트(byte), 킬로바이트(KB), 메가바이트(MB), 기가바이트(GB), 테라바이트(TB), 페타바이트(PB), 엑사바이트(EB), 제타바이트(ZB), 요타바이트(YB) 등이 있다.

데이터베이스의 특징은 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터이다. 데이터베이스 설계 절차는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계 순이다.

기업 내부 데이터베이스 시스템으로는 OLTP, OLAP, CRM, SCM, ERP, BI, BA 등이 있다. OLTP는 데이터베이스의 데이터를 수시로 갱신하는 처리 시스템이고, OLAP는 다차원의 데이터를 대화식으로 분석한다. CRM은 고객과 관련된 내·외부 자료를 분석해 고객 중심 자원을 극대화하고 효율적인 마케팅에 활용한다. SCM은 공급망 단계를 최적화해 고객을 만족시킨다. ERP는 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영 효율화를 기한다. BI는 기업이 보유한 데이터를 정리하고 분석해 의사결정에 활용하고, BA는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 두는 방법이다.

DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS는 테이블(표)로 데이터를 정리하고, 객체지향 DBMS는 이미지나 영상 등 객체(정보)로 데이터를 정리한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어로, 집계함수 중 COUNT()만 수치형, 문자형 둘 다 사용 가능하다.

빅데이터를 나타내는 4V는 Volume(양), Variety(다양성), Velocity(속도), Value(가치)이다. 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공하였다. 빅데이터에 대한 기대는 산업혁명의 석탄, 철과 같은 혁명적 변화를 가져올 것, 21세기의 원유가 될 것, 렌즈와 같이 산업 발전에 영향을 줄 것, 공동 활용을 위한 플랫폼이 될 것 등이다. 또한 기술 발전으로 인해 사전 처리나 표본 조사 없이 데이터를 그냥 모아도 되고, 질에서 양으로의 전환이 가능하며, 상관관계에 초점을 맞출 수 있게 되었다.

데이터 가치 선정이 어려운 이유는 데이터 재사용이나 재조합으로 언제, 어디서, 누가 활용할지 알 수 없어 가치 산정이 힘들고, 기술 발전으로 기존에 없던 가치를 창출할 수 있으며, 현재 가치 없는 데이터가 나중에 기술 발전으로 가치가 있게 될 수 있기 때문이다.

빅데이터 기본 기술로는 연관규칙학습, 유형분석, 유전자 알고리즘, 회귀분석, 감정분석 등이 있다. 빅데이터 시대의 위기 요인으로는 사생활 침해, 책임 원칙 훼손, 데이터 오용 등이 있다. 빅데이터 활용을 위한 3가지 요소는 데이터, 기술, 인력이다.

데이터 사이언스는 정형·비정형 데이터 분석을 위해 다양한 분야의 전문지식을 통합한 학문이다. 데이터 사이언티스트가 갖춰야 할 역량은 하드 스킬(이론적 지식, 분석 기술)과 소프트 스킬(통찰력, 커뮤니케이션 능력)이다.

개인정보 비식별 기술에는 데이터 마스킹, 가명처리, 총계처리, 데이터 값 삭제, 데이터 범주화 등이 있다. 하둡은 여러 대의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술이고, 데이터 웨어하우스는 의사결정을 돕기 위해 통합된 데이터의 집합이다.


1.2. 정형 데이터, 반정형 데이터, 비정형 데이터

정형 데이터란 관계형 데이터베이스나 CSV 파일 등 일정한 형식이 정해져 있는 데이터를 말한다. 이러한 데이터는 구조화되어 있어 저장과 검색, 분석이 용이하다. 반면 반정형 데이터는 구조가 명확하지 않은 데이터로, 센서 데이터와 같이 눈으로 봤을 때 무슨 정보인지 모르는 경우가 많다. 이를 활용하기 위해서는 한 번의 변환 과정이 필요하다. 비정형 데이터는 소셜 데이터, 영상, 이미지 등 형태가 정해져 있지 않은 데이터를 말한다. 이는 구조화되어 있지 않아 저장과 처리에 많은 비용이 소모된다.

정량적 데이터는 수치나 도형, 기호로 표현되어 있어 정량적 분석이 가능하나, 정성적 데이터는 언어나 문자로 표현되어 있어 정량적 분석이 어렵다. 정성적 데이터는 언어나 문자로 표현되기 때문에 저장과 검색, 분석에 많은 비용이 소모된다. 하지만 정량적 데이터에 비해 풍부한 의미와 맥락을 담고 있어 질적 연구에 유용하게 활용될 수 있다.

암묵지는 문서나 매뉴얼로 표현되어 있지 않고 개인에게 체화된 지식을 말한다. 반면 형식지는 문서나 매뉴얼 등에 정형화된 지식을 의미한다. 암묵지는 개인화되어 있어 조직 내 공유가 어렵지만, 형식지는 언어나 숫자, 기호로 표현되어 있어 공유와 활용이 용이하다.

데이터는 DIKW 모델에 따라 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)의 위계를 갖는다. 데이터는 가공되지 않은 순수한 수치나 기호이고, 정보는 데이터에 의미와 패턴을 부여한 것이다. 지식은 상호 연결된 정보 패턴을 이해하여 예측한 결과물이며, 지혜는 창의적 아...


참고 자료

주의사항

저작권 EasyAI로 생성된 자료입니다.
EasyAI 자료는 참고 자료로 활용하시고, 추가 검증을 권장 드립니다. 결과물 사용에 대한 책임은 사용자에게 있습니다.
AI자료의 경우 별도의 저작권이 없으므로 구매하신 회원님에게도 저작권이 없습니다.
다른 해피캠퍼스 판매 자료와 마찬가지로 개인적 용도로만 이용해 주셔야 하며, 수정 후 재판매 하시는 등의 상업적인 용도로는 활용 불가합니다.
환불정책

해피캠퍼스는 구매자와 판매자 모두가 만족하는 서비스가 되도록 노력하고 있으며, 아래의 4가지 자료환불 조건을 꼭 확인해주시기 바랍니다.

파일오류 중복자료 저작권 없음 설명과 실제 내용 불일치
파일의 다운로드가 제대로 되지 않거나 파일형식에 맞는 프로그램으로 정상 작동하지 않는 경우 다른 자료와 70% 이상 내용이 일치하는 경우 (중복임을 확인할 수 있는 근거 필요함) 인터넷의 다른 사이트, 연구기관, 학교, 서적 등의 자료를 도용한 경우 자료의 설명과 실제 자료의 내용이 일치하지 않는 경우