본문내용
1. 데이터 이해
1.1. 데이터 유형
데이터에는 정성적 데이터와 정량적 데이터가 있다. 정성적 데이터는 언어나 문자로 표현되어 저장하고 검색하며 분석하는 데에 많은 비용이 들어간다. 반면 정량적 데이터는 수치나 도형, 기호로 표현되어 정량(양)으로 표현되므로 비용이 적게 든다. 정형 데이터는 관계형 데이터베이스나 CSV와 같이 형식이 정해진 데이터이고, 반정형 데이터는 센서 데이터처럼 무엇인지 알 수 없는 데이터로 한 번의 변환이 필요하다. 비정형 데이터는 소셜 데이터나 영상, 이미지와 같이 형태가 정해져 있지 않은 데이터이다.
또한 데이터에는 암묵지와 형식지가 있는데, 암묵지는 매뉴얼화되지 않고 개인에게 체화되어 있어 겉으로 드러나지 않는 지식이고, 형식지는 문서나 매뉴얼화된 지식이다.
데이터의 기본 단위인 비트(bit), 바이트(byte), 킬로바이트(KB), 메가바이트(MB), 기가바이트(GB), 테라바이트(TB), 페타바이트(PB), 엑사바이트(EB), 제타바이트(ZB), 요타바이트(YB)까지 다양한 단위로 표현된다.
데이터베이스의 특징은 데이터가 통합되어 있고, 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있으며, 여러 사용자가 공동으로 이용할 수 있고, 새로운 데이터의 삽입, 기존 데이터의 삭제 및 갱신이 가능하다는 것이다. 데이터베이스 설계 절차는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계 순으로 진행된다.
기업 내부에 OLTP(온라인 거래 처리 시스템), OLAP(온라인 분석 처리 시스템), CRM(고객 관계 관리 시스템), SCM(공급망 관리 시스템), ERP(전사적 자원 관리 시스템), BI(비즈니스 인텔리전스 시스템), BA(비즈니스 애널리틱스 시스템) 등의 다양한 데이터베이스 시스템이 존재한다.
DBMS(데이터베이스 관리 시스템)은 데이터베이스를 공유하고 관리할 수 있는 환경을 제공하는 소프트웨어이며, 관계형 DBMS와 객체지향 DBMS가 있다. SQL은 데이터베이스에 접근할 수 있는 데이터베이스 하부 언어이다.
빅데이터는 Volume(양), Variety(다양성), Velocity(속도), Value(가치)의 4V로 특징지어지며, 클라우드 컴퓨팅 기술의 발전으로 경제성이 제공되었다. 빅데이터는 산업혁명의 석탄, 철과 같은 역할을 하거나 21세기 원유와 같은 역할을 하는 등 다양한 비유로 표현된다.
데이터의 가치를 선정하기 어려운 이유는 데이터를 재사용하거나 재조합하여 활용하면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없게 되어 가치 산정이 어렵고, 기술이 발전하면서 기존에 없던 가치를 창출하기 때문이며, 현재는 가치가 없어도 나중에 가치가 생길 수 있어 가치를 확정하기 어렵기 때문이다.
빅데이터 활용을 위한 기본 테크닉으로는 연관규칙학습, 유형분석, 유전자 알고리즘, 회귀분석, 감정분석 등이 있다.
빅데이터의 도입으로 인한 위기 요인에는 사생활 침해, 책임 원칙 훼손, 데이터 오용 등이 있다. 이를 해결하기 위해서는 개인정보 비식별 기술, 결과에 대한 책임 원칙, 알고리즈미스트 등의 대응책이 필요하다.
빅데이터를 활용하기 위해서는 데이터, 기술, 인력이 필요하며, 데이터 사이언스는 데이터와 관련된 모든 분야의 전문지식을 종합한 학문이다. 데이터 사이언티스트에게 필요한 역량에는 하드 스킬과 소프트 스킬이 있는데, 하드 스킬은 이론적 지식과 분석 기술이고 소프트 스킬은 통찰력 있는 분석 능력, 협력 능력, 설득력 있는 전달 능력 등의 인문학적 능력이다.
개인정보 비식별 기술에는 데이터 마스킹, 가명처리, 총계처리, 데이터 값 삭제, 데이터 범주화 등이 있다.
1.2. 데이터베이스 특징
데이터베이스는 다음과 같은 특징을 가진다. 통합된 데이터여서 동일한 내용이 중복되어 있지 않다. 컴퓨터가 접근할 수 있는 저장 매체에 저장되어 있다. 여러 사용자가 데이터를 공동으로 이용할 수 있다. 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 인해 항상 변화하지만 현재의 정확한 데이터를 유지하고 있다. 데이터베이스는 요구사항 분석, 개념적 설계, 논리적 설계, 물리적 설계의 단계를 거쳐 설계된다.
데이터베이스의 통합성과 활용성을 높이기 위해 다양한 데이터베이스 시스템이 기업 내부에 구축되어 운영되고 있다. OLTP(온라인 거래 처리 시스템)는 데이터를 실시간으로 갱신하는 시스템이며, OLAP(온라인 분석 처리 시스템)은 다차원 데이터를 대화식으로 분석한다. CRM(고객관계관리)은 고객 정보를 활용하여 고객 중심적 경영을 하며, SCM(공급망관리)은 공급망 단계를 최적화하여 고객 만족을 높인다. ERP(전사적 자원관리)는 기업 전체의 경영자원을 효과적으로 활용하여 경영 효율화를 달성한다. BI(비즈니스 인텔리전스)는 기업 데이터를 정리하고 분석하여 의사결정에 활용하며, BA(비즈니스 애널리틱스)는 데이터 통계를 기반으로 성과와 비즈니스 통찰력에 초점을 둔다.
데이터베이스를 관리하고 활용하는 DBMS(데이터베이스 관리 시스템)에는 관계형 DBMS와 객체지향 DBMS가 있다. 관계형 DBMS는 데이터를 테이블 형식으로 관리하며, 객체지향 DBMS는 이미지나 영상과 같은 객체로 데이터를 정리한다. DBMS를 활용하기 위해서는 SQL(구조화 질의어)을 사용한다. SQL은 집계 함수 중 COUNT()만 수치형과 문자형 데이터에 모두 적용할 수 있다.
데이터의 양, 다양성, 속도, 가치 증가로 대표되는 빅데이터는 산업혁명의 원동력이 될 것으로 기대된다. 클라우드 컴퓨팅 기술은 빅데이터 분석에 경제성을 제공하며, 데이터의 가치 선정이 어려운 이유는 데이터의 재사용과 재조합, 새로운 가치 창출, 기술 발전 등으로 인해 언제 어디서 어떻게 활용될지 알 수 없기 때문이다. 빅데이터 분석에는 연관규칙 학습, 유형 분석, 유전자 알고리즘, 회귀분석, 감정 분석 등의 기술이 활용된다. 빅데이터 시대에는 사생활 침해, 책임 원칙 훼손, 데이터 오용 등의 위기 요인이 나타날 수 있으므로 개인정보 비식별화, 결과기반 책임 원칙, 알고리즈미스트 활용 등의 방안이 필요하다.
빅데이터 활용을 위해서는 데이터, 기술, 인력이 필수적이며, 데이터 사이언스는 이러한 요소들을 종합적으로 활용하여 데이터에서 의미 있는 정보를 추출하는 학문이다. 데이터 사이언티스트에게는 하드스킬(이론적 지식, 분석 기술) 뿐만 아니라 소프트스킬(통찰력, 커뮤니케이션 능력)이 중요하다.
1.3. 기업 내부 데이터베이스
기업 내부 데이터베이스는 기업이 자체적으로 운용하고 관리하는 데이터베이스이다. 기업 내부 데이터베이스의 대표적인 유형으로는 OLTP(On-Line Transaction Processing), OLAP(On-Line Analytical Processing), CRM(Customer Relationships Management: 고객 관계 관리), SCM(...