본문내용
1. 데이터 이해
1.1. 데이터 유형
정성적 데이터와 정량적 데이터가 있다. 정성적 데이터는 언어나 문자로 표현되어 저장·검색·분석에 많은 비용이 드는 반면, 정량적 데이터는 수치·도형·기호로 표현되어 비용소모가 적다.
정형 데이터는 관계형 데이터베이스나 CSV 등 형식이 정해져 있는 데이터이고, 반정형 데이터는 눈으로 봤을 때 무슨 정보인지 모르는 데이터(센서데이터처럼)로 한번 변환이 있어야 하며, 비정형 데이터는 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터이다.
암묵지는 메뉴얼화 되어있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않는 지식이고, 형식지는 문서나 매뉴얼화된 지식이다. DIKW에서 데이터는 가공하기 전의 순수한 수치나 기호, 정보는 패턴을 인식하고 의미를 부여한 데이터, 지식은 상호 연결된 정보 패턴을 이해하여 예측한 결과물, 지혜는 창의적 아이디어이다.
데이터 단위로는 1바이트, 1킬로바이트, 1메가바이트, 1기가바이트, 1테라바이트, 1페타바이트, 1엑사바이트, 1제타바이트, 1요타바이트 순으로 1킬로가 1024배씩 증가한다.
데이터베이스의 특징은 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터이다. 데이터베이스 설계 절차는 요구사항 분석 → 개념적 설계 → 논리적 설계 → 물리적 설계 순이다.
기업 내부 데이터베이스로는 OLTP, OLAP, CRM, SCM, ERP, BI, BA 등이 있다. OLTP는 온라인 거래처리, OLAP는 다차원의 데이터를 대화식으로 분석, CRM은 고객 중심 자원을 극대화하고 마케팅에 활용, SCM은 공급망을 최적화해 고객 만족, ERP는 기업 전체를 통합적으로 관리, BI는 보고서 중심의 도구, BA는 데이터 통계 기반의 비즈니스 통찰력에 초점을 둔다.
DBMS는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이고, 관계형 DBMS는 테이블(표)로 데이터를 정리하고, 객체지향 DBMS는 정보를 객체(이미지나 영상)로 정리한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어로, COUNT()만 수치형과 문자형 모두 사용 가능하다.
빅데이터는 4V(Volume, Variety, Velocity, Value)로 특징지어지며, 클라우드 컴퓨팅 기술이 빅데이터 분석에 경제성을 제공했다. 빅데이터에 대한 기대는 석탄, 철, 원유, 렌즈, 플랫폼 등으로 비유되며, 사전처리보다 사후처리, 표본조사보다 전수조사, 질보다 양 지향, 인과관계보다 상관관계 접근이 강조된다.
그러나 데이터의 가치 선정이 어려운 이유는 데이터 재사용이나 재조합으로 언제 어디서 어떻게 활용될지 예측하기 어렵고, 기술 발전으로 가치가 변화하기 때문이다.
빅데이터 기본 테크닉으로는 연관규칙학습, 유형분석, 유전자 알고리즘, 회귀분석, 감정분석 등이 있다. 빅데이터 시대의 위기 요인은 사생활 침해, 책임 원칙 훼손, 데이터 오용 등이다.
빅데이터 활용을 위해서는 데이터, 기술, 인력이 필요하며, 데이터 사이언스는 데이터와 관련된 모든 분야의 전문지식을 종합한 학문으로 수학, IT, 비즈니스 분석 능력이 요구된다. 데이터 사이언티스트에게는 호기심이 필수적이다.
개인정보 비식별 기술로는 데이터 마스킹, 가명처리, 총계처리, 데이터 삭제, 데이터 범주화 등이 있다. 하둡은 여러 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술이고, 데이터 웨어하우스는 의사결정에 도움을 주는 통합적이고 시간성 있는 데이터의 집합이다.
1.2. 데이터베이스의 특징
데이터베이스는 통합된 데이터로 이루어져 있어 동일한 내용의 데이터가 중복되어 있지 않다. 데이터베이스에 저장된 데이터는 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다. 여러 사용자가 데이터베이스의 데이터를 공동으로 이용할 수 있다. 데이터베이스는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신이 이루어짐에도 불구하고 항상 현재의 정확한 데이터를 유지하고 있다. 데이터베이스 설계 시 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계의 단계를 거쳐 체계적으로 설계한다.
데이터베이스의 특징은 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터, 체계적 설계 절차로 볼 수 있다. 데이터베이스는 다수의 사용자가 공동으로 접근하여 이용할 수 있으며, 새로운 데이터의 삽입이나 기존 데이터의 삭제, 갱신이 이루어져도 항상 현재의 정확한 데이터 상태를 유지한다. 또한 데이터베이스 설계 시 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계의 체계적인 절차를 거친다.
1.3. 기업 내부 데이터베이스
기업 내부 데이터베이스는 기업의 주요 정보자원을 체계적으로 관리하고 활용하기 위한 시스템이다. 기업 내부 데이터베이스에는 다음과 같은 유형이 있다.
OLTP(On-Line Transaction Processing)는 데이터베이스의 데이터를 수시로 갱신하는 프로세싱 시스템이다. 온라인 거래처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템이다.
OLAP(On-Line Analytical Processing)는 다차원의 데이터를 대화식으로 분석하는 시스템이다.
CRM(Customer Relationships Management: 고객 관계 관리)은 고객과 관련된 내·외부 자료를 분석해 고객 중심 자원을 극대화하고 이를 토대로 효율적인 마케팅에 활용한다.
SCM(Supply Chain Management: 공급망 관리)은 공급망 단계를 최적화해 고객을 만족시키는 시스템이다.
ERP(Enterprise Resource Planning)는 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템이다.
BI(Business Intelligence)는 기업이 보유하고 있는 데이터를 정리하고 분석해 의사결정에 활용한다.
BA(Business Analytics)는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법이다.
이처럼 기업 내부 데이터베이스는 기업의 주요 경영활동을 체계적으로 관리하고 지원하는 핵심 시스템이다. 기업은 이를 통해 의사결정을 지원받고 경영 효율화를 달성할 수 있다.
1.4. DBMS(Data Base Management System)
DBMS(Da...