본문내용
1. 고객관계관리(CRM)의 이해
1.1. 데이터마이닝의 개념과 특징
데이터마이닝은 수집된 데이터로부터 발견되지 않은 유용한 지식을 찾기 위한 일련의 기술이다. CRM 시스템의 기능적 요구사항 중 하나로, 응용 기술과 기술적 인프라스트럭쳐 분야에 활용된다.
데이터마이닝의 특징은 다음과 같다. 첫째, 개발된 예측 모형이 새로운 데이터에서도 잘 적용되는지에 대해 초점을 둔다. 둘째, 통계학, 인공지능, 전산학과 같은 공학 기반의 지식을 바탕으로 만들어지고 검증되어 왔다. 셋째, 데이터를 얼마나 잘 정의하고 수집하는지가 매우 중요하다. 넷째, 대용량의 자료를 실시간으로 다룰 수 있다.
데이터마이닝은 CRM을 수행하기 위한 요소 기술 중 하나로, 운영 시스템으로부터 수집된 데이터를 분석하여 CRM을 수행할 수 있도록 구체적인 비즈니스 규칙을 만들어낸다. CRM에서 데이터마이닝이 제공할 수 있는 지식의 형태로는 연관 규칙, 분류 규칙, 군집화 규칙, 순차패턴, 일반화 규칙 등이 있다. 이를 통해 고객의 구매 연관성, 고객 세분화, 고객 이탈 예측 등 다양한 CRM 활동을 지원할 수 있다.
1.2. CRM에서 데이터마이닝의 역할
데이터마이닝은 CRM을 수행하기 위한 핵심 기술 중 하나이다. 운영 시스템으로부터 수집된 데이터를 분석하여 CRM을 수행할 수 있도록 구체적인 비즈니스 규칙을 만들어내는 과정이다. CRM을 위해 데이터마이닝이 제공할 수 있는 지식의 형태에는 연관 규칙, 분류 규칙, 군집화 규칙, 순차패턴 등이 있다. 연관 규칙은 구매된 상품들 간의 연관성과 교차 판매 대상 상품, 상품 패키지 구성 정보를 제공한다. 분류 규칙은 기 구분된 고객 그룹별 속성과 고객이탈 수준 등급, 신용등급을 파악할 수 있다. 군집화 규칙은 탐색적인 고객군집 별 속성을 파악하고 제품 카테고리, 매장 관리에 활용된다. 순차패턴은 연속 판매 프로그램과 로열티 강화 프로그램 등에 활용될 수 있다. 또한 일반화 규칙은 고객이탈 수 예측, 고객등급 예측, 구매 추세 예측 등에 활용된다. 이처럼 데이터마이닝은 CRM에서 다양한 분석 기법을 통해 고객 행동에 대한 통찰을 제공하여 보다 효과적인 CRM 전략 수립을 지원한다. 따라서 데이터마이닝은 고객 이해와 CRM 활동 개선을 위한 핵심적인 기술이라고 할 수 있다.데이터마이닝은 CRM 시스템의 기능적 요구사항 중 하나로, 응용 기술 활용(ERP, CRM, SCM)과 기술적 인프라스트럭처(데이터 웨어하우스, 데이터마이닝, OLAP)를 포함한다. 데이터마이닝은 CRM을 수행하기 위한 필수적인 요소 기술이며, 운영 시스템으로부터 수집된 데이터를 분석하여 CRM을 수행할 수 있도록 구체적인 비즈니스 규칙을 만들어낸다. 이를 통해 CRM에서 다양한 분석 기법을 활용하여 고객 행동에 대한 통찰을 제공하고, 보다 효과적인 CRM 전략 수립을 지원한다. 따라서 데이터마이닝은 CRM 구현을 위한 핵심적인 기술이라고 할 수 있다.
2. CRM 프로세스 분석
2.1. 데이터마이닝 프로세스
데이터마이닝 프로세스는 다음과 같다.
표본 추출 단계에서는 학습 데이터 표본, 평가 데이터 표본, 검증 데이터 표본 등 다양한 유형의 표본을 추출한다. 단순임의 추출이나 층화 추출 등의 샘플링 방법론을 활용한다.
데이터 탐색 단계에서는 데이터에 포함된 변수들의 분포와 변수들 간의 관계를 파악한다.
데이터 변환 및 변수선정 단계에서는 분석 목적에 맞게 변수의 형태를 수치형, 이산형, 서열척도, 명목척도 등으로 구분하고 변수를 선정한다. 종속변수에 영향을 줄 수 있는 변수를 중심으로 선정한다.
데이터 모델링 단계에서는 목적에 맞는 적절한 분석기법을 통해 모형을 개발한다. 종속변수 예측을 위해 투입변수의 통계적 유의성, 표준화 여부 등을 고려한다.
모형 평가 단계에서는 신뢰성, 타당성, 정확성, 유용성 등을 평가하여 가장 적합한 모형을 선정한다. 학습 데이터와 검증 데이터를 활용하여 모형을 평가한다.
이처럼 체계적인 데이터마이닝 프로세스를 통해 고객관계관리(CRM) 활동에 유용한 지식과 통찰을 도출할 수 있다.
2.2. 연관규칙 분석
연관규칙 분석이란 대규모의 데이터 항목들 중에서 유용한 연관성과 상관관계를 찾는 기법이다. 상품 또는 서비스 간의 관계를 살펴보고, 이로부터 유용한 규칙을 찾아내고자 할 때 이용한다.
상품 거래 데이터로부터 상품간의 연관성 정도를 측정하여 연관성이 많은 상품들을 파악한다. 상품 A가 구매된 경우 상품 C도 구매된다는 규칙을 찾아낼 수 있다.
연관규칙 분석에서는 지지도, 신뢰도, 향상도라는 세 가지 중요한 평가 기준이 고려된다. 지지도는 전체 거래 중에서 A와 C가 함께 포함된 거래의 비율이며, 신뢰도는 A를 구매한 경우 C를 구매할 확률이다. 향상도는 A와 C의 구매 패턴이 독립적인지 상관관계가 있는지를 나타낸다.
향상도가 1보다 크면 양의 상관관계, 1이면 독립적 관계, 0이면 음의 상관관계를 의미한다. 이러한 연관규칙 분석은 VIP 고객 군집화, 매장 관리, 교차 판매 전략 수립 등 다양한 분야에 활용된다.
연관규칙 분석의 장점은 사전에 그룹분류에 대한 정보가 없는 데이터에서도 사용자가 원하는 패턴으로 고객 그룹을 나눌 수 있다는 것이다. 단점은 K-means 기법을 사용할 경우 사전에 그룹 수를 정해야 하고, 결과 해석이 어려울 수 있다는 것이다.
따라서 연관규칙 분석은 대규모 데이터에서 유의미한 상관관계를 찾아내 실무에 활용할 수 있는 강력한 데이터마이닝 기법이라고 할 수 있다.
2.3. 의사결정나무
의사결정나무는 의사결정규칙을 나무구조로 도표화하여 분류를 수행하는 분석방법이다. 제일 먼저 나무구조가 시작되는 마디로써 전체 자료로 이루어져 있는 뿌리마디로부터 시작되며, 뿌리마디 이후의 노드들은 상대적인 관점으로 자식마디와 부모마디로 구성된다. 끝 마디 또는 잎이라고 불리는 노드는 각 나무줄기의 끝에 위치하고 있는 마디를 의미한다.
의사결정나무는 보험사기, 돈세탁 등 범죄사건에 대해 범죄자와 일반 사람들의 분리기준을 찾는 데 활용되며, 카드사에서 VIP의 카드 사용실태를 분류하고 사용 패턴을 정의하여 상품 설계 시 활용되기도 한다. 또한 백화점 우수고객에 영향을 주는 변수들을 선별하고 각 변수들로 구성된 규칙을 발견하여 효과적인 전략 수립에 사용된다.
의사결정나무의 장점은 분석 결과가 실용적이며 가독성이 높아 실제 비즈니스 현장에서 활용하기 좋고, 새로운 자료에 모형을 적합 시키기가 매우 쉬우며, 나무구조로부터 어떤 입력 변수가 목표 변수를 설명하기 위해서 더 중요한지를 쉽게 파악할 수 있다는 것이다. 단점으로는 분석에 사용된 변수의 수가 많아질수록 복잡한 규칙이...