본문내용
1. 데이터 이해
1.1. 데이터의 유형
데이터는 정성적 데이터와 정량적 데이터로 구분된다. 정성적 데이터는 언어나 문자로 표현되는 데이터이고, 정량적 데이터는 수치, 도형, 기호 등으로 표현되는 데이터이다.
정량적 데이터는 간단하게 정형화되어 있어 비용 소모가 적지만, 정성적 데이터는 언어나 문자로 표현되어 저장, 검색, 분석에 많은 비용이 소모된다.
데이터는 또한 정형 데이터, 반정형 데이터, 비정형 데이터로 구분된다. 정형 데이터는 관계형 데이터베이스, CSV 등 형식이 정해져 있는 데이터이고, 반정형 데이터는 센서 데이터와 같이 무엇을 나타내는지 알기 어려운 데이터로 한 번 변환이 필요하다. 비정형 데이터는 소셜 데이터, 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터이다.
데이터는 또한 암묵지와 형식지로 구분된다. 암묵지는 메뉴얼화되어 있지 않고 개인에게 체화되어 있어 겉으로 드러나지 않는 지식이고, 형식지는 문서나 매뉴얼화된 지식이다.
데이터의 단위는 1바이트(byte), 1킬로바이트(KB), 1메가바이트(MB), 1기가바이트(GB), 1테라바이트(TB), 1페타바이트(PB), 1엑사바이트(EB), 1제타바이트(ZB), 1요타바이트(YB) 등이다.
1.2. 데이터베이스 특징
데이터베이스의 특징은 다음과 같다. 데이터베이스는 통합된 데이터로 구성되어 있어 동일한 내용이 중복되어 있지 않다. 데이터베이스의 데이터는 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다. 데이터베이스는 여러 사용자가 데이터를 공동으로 이용할 수 있다. 또한 데이터베이스의 데이터는 변화되는데, 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신이 일어나더라도 현재의 정확한 데이터를 유지해야 한다. 데이터베이스 설계 절차는 요구사항 분석 → 개념적 설계 → 논리적 설계 → 물리적 설계 순으로 진행된다.
1.3. 기업 내부 데이터베이스
기업에서는 효과적인 의사결정과 업무 수행을 위해 다양한 내부 데이터베이스를 활용하고 있다. 기업 내부 데이터베이스는 크게 OLTP(On-Line Transaction Processing), OLAP(On-Line Analytical Processing), CRM(Customer Relationships Management), SCM(Supply Chain Management), ERP(Enterprise Resource Planning), BI(Business Intelligence), BA(Business Analytics) 등으로 구분된다.
OLTP는 데이터베이스의 데이터를 수시로 갱신하는 프로세싱으로, 온라인 거래처리와 같은 단순 자동화 시스템이다. 반면 OLAP는 다차원의 데이터를 대화식으로 분석하는 것으로, 보고서 중심의 의사결정 지원에 활용된다. CRM은 고객과 관련된 내·외부 자료를 분석하여 고객 중심 자원을 극대화하고 효율적인 마케팅에 활용하는 것이다. SCM은 공급망 단계를 최적화하여 고객 만족도를 높이는 것이다. ERP는 기업의 경영자원을 통합적으로 관리하여 효율성을 높이는 시스템이다. BI는 기업이 보유한 데이터를 정리하고 분석하여 의사결정에 활용하는 것이며, BA는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔 방법이다.
이처럼 기업 내부 데이터베이스는 다양한 형태로 구축되어 기업의 경영 활동을 지원하고 있다. 각 데이터베이스는 고유의 목적과 특성을 가지고 있으며, 기업은 이를 효과적으로 활용하여 경쟁력을 높이고 있다.
1.4. DBMS
DBMS(Data Base Management System)는 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이다. 관계형 DBMS는 데이터를 테이블(표)로 정리하고, 객체지향 DBMS는 이미지나 영상과 같은 정보를 객체로 정리한다. DBMS를 통해 데이터베이스 접근, 관리, 통제가 가능하며, SQL(Structured Query Language)은 데이터베이스에 접근할 수 있는 데이터베이스 하부언어이다. SQL에서 COUNT()는 수치형, 문자형 데이터 모두에 사용할 수 있다.
1.5. SQL
SQL은 데이터베이스를 관리하고 데이터에 접근하기 위한 언어이다. SQL은 데이터베이스에 저장된 정보를 검색, 추가, 수정, 삭제하는 데 사용된다. SQL에서는 데이터베이스의 구조와 내용을 정의하고 조작할 수 있다.
SQL은 관계형 데이터베이스 관리 시스템(RDBMS)에서 주로 사용되며, 데이터를 테이블의 형태로 저장하고 이를 SQL을 통해 조작할 수 있다. SQL에는 데이터를 조회하는 SELECT문, 데이터를 추가하는 INSERT문, 데이터를 수정하는 UPDATE문, 데이터를 삭제하는 DELETE문 등이 있다. 또한 SQL에는 데이터베이스의 구조를 정의하는 CREATE, ALTER, DROP 등의 명령어가 있다.
SQL은 데이터 조작 뿐만 아니라 데이터베이스 객체의 생성과 관리, 사용자 권한 관리 등의 기능도 제공한다. 이를 통해 데이터베이스를 체계적으로 관...