본문내용
1. 데이터 이해
1.1. 데이터의 유형
데이터는 정성적 데이터와 정량적 데이터로 구분된다. 정성적 데이터는 언어나 문자로 표현된 데이터로, 저장과 검색, 분석에 많은 비용이 소모된다. 반면 정량적 데이터는 수치, 도형, 기호로 표현된 데이터로, 간단하고 정형화되어 있어 비용이 적게 든다.
정형 데이터는 관계형 데이터베이스나 CSV와 같이 형식이 정해진 데이터를 말한다. 반정형 데이터는 센서 데이터와 같이 눈으로 봤을 때 무슨 정보인지 알기 어려운 데이터로, 한 번의 변환이 필요하다. 비정형 데이터는 소셜 데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터를 말한다.
암묵지는 매뉴얼화되어 있지 않고 개인에게 체화되어 있는 지식으로, 김치 담그기나 자전거 타기와 같은 행동이 이에 해당한다. 형식지는 문서나 매뉴얼화된 지식으로, 교과서나 비디오와 같은 자료가 이에 해당한다.
데이터는 데이터(D), 정보(I), 지식(K), 지혜(W)로 구분된다. 데이터는 가공하지 않은 수치나 기호이고, 정보는 데이터에 의미를 부여한 것이며, 지식은 상호 연결된 정보 패턴을 이해하여 예측한 결과물이고, 지혜는 창의적인 아이디어이다.
데이터 단위로는 1바이트(byte) = 8비트(bit), 1킬로바이트(KB) = 1024바이트, 1메가바이트(MB) = 1024킬로바이트, 1기가바이트(GB) = 1024메가바이트, 1테라바이트(TB) = 1024기가바이트, 1페타바이트(PB) = 1024테라바이트, 1엑사바이트(EB) = 1024페타바이트, 1제타바이트(ZB) = 1024엑사바이트, 1요타바이트(YB) = 1024제타바이트와 같은 단위가 사용된다.
데이터베이스의 특징은 통합된 데이터, 저장된 데이터, 공용 데이터, 변화되는 데이터로 정리할 수 있다. 데이터베이스 설계 절차는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계 순으로 진행된다.
기업 내부 데이터베이스에는 OLTP, OLAP, CRM, SCM, ERP, BI, BA와 같은 유형이 있다. OLTP는 데이터베이스 데이터를 실시간으로 갱신하는 시스템이고, OLAP는 다차원 데이터를 대화식으로 분석하는 시스템이다. CRM은 고객 관련 내·외부 데이터를 분석하여 고객 중심 자원을 극대화하는 시스템이며, SCM은 공급망 단계를 최적화하여 고객을 만족시키는 시스템이다. ERP는 기업 전체의 경영자원을 효과적으로 이용하여 경영 효율화를 기하는 시스템이고, BI는 기업 데이터를 정리하고 분석하여 의사결정에 활용하는 시스템이며, BA는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법론이다.
DBMS는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS는 테이블로 데이터를 정리하고, 객체지향 DBMS는 이미지나 영상으로 데이터를 정리한다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어이다.
빅데이터는 4V(Volume, Variety, Velocity, Value)로 특징지어진다. 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공했다. 빅데이터에 거는 기대는 산업혁명의 석탄, 철, 21세기 원유, 렌즈, 플랫폼과 같다. 또한 빅데이터는 사전처리에서 사후처리로, 표본조사에서 전수조사로, 질에서 양으로, 인과관계에서 상관관계로의 변화를 가져왔다.
빅데이터 가치 선정이 어려운 이유는 데이터 재사용과 재조합, 기술 발전으로 인한 새로운 가치 창출, 현재 가치가 없는 데이터가 향후 가치가 생길 수 있기 때문이다.
빅데이터 기본 기술로는 연관규칙학습, 유형분석, 유전자 알고리즘, 회귀분석, 감정분석이 있다. 빅데이터 시대의 위기요인으로는 사생활 침해, 책임원칙 훼손, 데이터 오용 등이 있다. 빅데이터 활용을 위해서는 데이터, 기술, 인력이 필요하다.
데이터 사이언스는 데이터와 관련된 모든 분야의 전문지식을 종합한 학문으로, 정형·비정형 데이터 분석, 이론적 지식, 프로그래밍 능력, 비즈니스 분석 능력이 필요하다. 데이터 사이언티스트에게 필요한 역량으로는 하드스킬과 소프트스킬이 있다.
1.2. 정형 및 비정형 데이터
정형 데이터는 관계형 데이터베이스나 CSV 파일과 같이 구조화된 형태로 존재하는 데이터이다. 이에 반해 비정형 데이터는 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터이다.
비정형 데이터는 언어나 문자로 표현되어 저장·검색·분석에 많은 비용이 소모되지만, 정량적 데이터는 수치나 도형, 기호로 표현되어 비용소모가 적다. 또한 정형 데이터는 관계형 데이터베이스나 CSV 등 형식이 정해져 있지만, 비정형 데이터는 형태가 정해져 있지 않다.
반정형 데이터는 정형 데이터와 비정형 데이터의 중간 형태로, 눈으로 봤을 때 무슨 정보인지 모르는 데이터(센서데이터처럼)로 한 번의 변환이 필요하다. 반정형 데이터는 스키마나 메타데이터와 같은 형태가 있다.
암묵지는 메뉴얼화되어 있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않은 지식이다. 예를 들어 김치 담그기, 자전거 타기 등이 암묵지에 해당한다. 반면 형식지는 문서나 매뉴얼화된 지식으로, 언어·숫자·기호로 표출화된 지식이다.
D(Data)는 가공하기 전의 순수한 수치나 기호이고, I(Information)는 패턴을 인식하고 의미를 부여한 데이터이다. K(Knowledge)는 상호 연결된...