본문내용
1. 데이터 이해
1.1. 데이터의 유형
데이터는 크게 정성적 데이터와 정량적 데이터로 나뉜다. 정성적 데이터는 언어나 문자로 표현되므로 저장, 검색, 분석에 많은 비용이 소모되지만, 정량적 데이터는 수치, 도형, 기호로 표현되어 비용 소모가 적다.
정형 데이터는 관계형 데이터베이스나 CSV 파일과 같이 형식이 정해져 있는 데이터이다. 반정형 데이터는 스키마나 메타데이터가 있지만 사람이 보기에는 형태가 정해져 있지 않아 한 번 변환이 필요한 데이터이다. 비정형 데이터는 소셜데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터이다.
또한 암묵지는 체화된 지식으로 겉으로 드러나지 않는 것이고, 형식지는 문서나 매뉴얼화된 지식이다. DIKW 개념에서 데이터는 가공되기 전의 순수한 수치나 기호이고, 정보는 데이터에 의미가 부여된 것이며, 지식은 정보 간의 상호 연결된 패턴을 이해한 결과물이고, 지혜는 창의적 아이디어이다.
데이터의 단위로는 1바이트가 8비트이며, 킬로바이트, 메가바이트, 기가바이트, 테라바이트, 페타바이트, 엑사바이트, 제타바이트, 요타바이트 순으로 증가한다.
1.2. 데이터베이스 특징
데이터베이스의 특징은 다음과 같다. 데이터베이스는 통합된 데이터로 구성되어 동일한 내용이 중복되어 있지 않다. 데이터베이스는 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다. 데이터베이스는 여러 사용자가 데이터를 공동으로 이용할 수 있다. 데이터베이스의 데이터는 새로운 데이터의 삽입, 기존 데이터 삭제, 갱신으로 항상 변화하지만 현재의 정확한 데이터를 유지해야 한다. 데이터베이스 설계 절차는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계 순으로 진행된다. 이와 같은 데이터베이스의 특징으로 인해 데이터를 효과적으로 관리할 수 있다.
1.3. 기업 내부 데이터베이스
기업에서는 다양한 유형의 내부 데이터베이스를 활용한다. 첫째, OLTP(On-Line Transaction Processing)는 데이터베이스의 데이터를 수시로 갱신하는 프로세싱 방식이다. 온라인 거래처리로 다양한 과정의 연산이 하나의 단위 프로세싱으로 실행되도록 하는 단순 자동화 시스템이다. 둘째, OLAP(On-Line Analytical Processing)는 다차원의 데이터를 대화식으로 분석한다. 셋째, CRM(Customer Relationships Management)은 고객과 관련된 내·외부 자료를 분석해 고객 중심 자원을 극대화하고, 이를 토대로 효율적인 마케팅에 활용한다. 넷째, SCM(Supply Chain Management)은 공급망 단계를 최적화해 고객을 만족시킨다. 다섯째, ERP(Enterprise Resource Planning)는 기업 전체를 경영자원의 효과적 이용이라는 관점에서 통합적으로 관리하고 경영의 효율화를 기하기 위한 시스템이다. 여섯째, BI(Business Intelligence)는 기업이 보유하고 있는 데이터를 정리하고 분석해 의사결정에 활용한다. 일곱째, BA(Business Analytics)는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법이다. 이처럼 기업은 다양한 내부 데이터베이스를 활용해 경영 효율화와 경쟁력 제고를 도모한다.
DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어로, 관계형 DBMS와 객체지향 DBMS가 대표적이다. 또한 SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어이다.
빅데이터는 4V(Volume, Variety, Velocity, Value)로 특징지어지며, 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공했다. 빅데이터는 산업 전반에 생산성을 향상시키고 새로운 산업 형성에 기여하는 등 혁명적 변화를 가져올 것으로 기대된다.
1.4. DBMS와 SQL
DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS와 객체지향 DBMS로 구분되는데, 관계형 DBMS는 데이터를 테이블(표)의 형태로 관리하며 SQL이라는 데이터베이스 언어를 사용한다. 객체지향 DBMS는 데이터를 객체(이미지, 영상 등)로 관리하며 객체지향 언어를 사용한다.
SQL(Structured Query Language)은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어로, 데이터 정의, 조작, 제어 기능을 제공한다. 집계함수 중 COUNT()는 수치형, 문자형 데이터 모두에 사용할 수 있다. SQL은 데이터베이스 관리와 조회에 필수적인 언어이며, 관계형 데이터베이스에 널리 쓰이고 있다.
빅데이터의 특징인 4V(Volume, Variety, Velocity, Value)를 처리하기 위해 DBMS의 발전이 이루어졌다. 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공하였다. 빅데이터는 산업혁명의 '석탄, 철'과 같은 혁명적 변화를 가져올 것이며, 21세기의 '원유', '렌즈'와 같은 중요한 역할을 수행할 것으로 기대된다. 또한 빅데이터는 사전처리에서 사후처리로, 표본조...