본문내용
1. 데이터마이닝과 빅데이터 분석
1.1. 데이터마이닝의 정의와 활용
데이터마이닝은 기업이나 정부가 축적한 대용량의 데이터에서 숨겨진 유의미한 정보와 패턴을 찾아내는 기법이다. 데이터가 방대해지고 업무가 복잡해짐에 따라 데이터베이스 관리와 분석을 전문가가 직접 진행하기 어려워졌는데, 이를 해결하기 위해 데이터마이닝이 필요해졌다.
데이터마이닝은 사용자의 편견을 배제하고 오직 데이터에 기반하여 지식과 패턴을 추출하기 때문에, 전문가가 간과했을 수 있는 유의미한 정보를 발견할 수 있다. 데이터마이닝의 활용 분야는 다양한데, 카드사의 사기 탐지, 금융권의 대출 심사, 기업의 마케팅 및 판매 분석, 생산 공정 개선 등이 대표적이다.
따라서 데이터마이닝은 빅데이터 시대에 접어들면서 그 중요성이 더욱 강조되고 있으며, 기업과 정부 등 다양한 분야에서 광범위하게 활용되고 있다고 할 수 있다.
1.2. 모수적 모형과 알고리즘 접근법의 특징 및 사례
데이터마이닝에서는 모수적 모형과 알고리즘 접근법이 모두 활용될 수 있다. 모수적 모형 접근법은 모수를 추정하는 모델로, 대표적으로 단순 선형 회귀분석은 예측변수와 반응변수의 관계를 직선으로 나타내는 모형이다. 이러한 방법은 결과 해석이 쉽고 간단하다는 장점이 있다. 하지만 예측변수와 반응변수의 랜덤성으로 인해 오차항의 가정을 충족해야 하므로 이에 적용되지 않는 자료를 사용하면 결과 성능이 낮을 수 있다는 단점이 있다. 대표적인 모수적 모형으로는 선형회귀모형과 로지스틱회귀모형이 있다"
알고리즘 접근법은 주어진 알고리즘 방식으로 계산하고 결과를 분석하는 방식으로, 다양한 알고리즘이 존재하며 적절한 알고리즘을 사용하면 분석이 어려운 데이터에도 적용할 수 있다. 하지만 알고리즘의 근본 개념과 이론을 잘 모르고 사용하면 잘못된 방식으로 데이터마이닝이 될 수 있고, 특히 과적합이 나타날 수 있다. 또한 복잡한 알고리즘의 경우 사람의 이해를 벗어날 수 있다는 단점이 있다. 대표적인 알고리즘 접근법으로는 의사결정나무, 배깅, 부스팅, 랜덤포레스트, 신경망 모형 등이 있다"
1.3. SNS 데이터 분석을 통한 유의미한 정보 추출
SNS 데이터 분석을 통한 유의미한 정보 추출이란, SNS에 게시된 데이터를 분석하여 의미 있는 정보를 추출하는 것이다. 최근 네트워크 사용자가 급속하게 증가하면서 SNS 사용이 늘어났고, SNS를 통해 사람들의 일상생활, 취향, 의견 등을 엿볼 수 있게 되었다. 이러한 SNS 데이터를 데이터마이닝 기법을 활용하여 분석하면 유의미한 정보를 도출할 수 있다.
특히 SNS 상에서는 사용자들의 솔직한 반응이 드러나기 때문에, 전통적인 설문이나 직접적인 질문을 통한 분석보다 더 정확한 정보를 얻을 수 있다. 예를 들어 특정 상품에 대한 사용자들의 긍정적 또는 부정적 반응, 특정 인물에 대한 인식, 사회적 이슈에 대한 여론 등을 파악할 수 있다. 또한 기업의 재무적 능력뿐만 아니라 심리적 요인 역시 주식 시장에 영향을 미치므로, SNS상의 투자자 심리를 분석하여 유의미한 정보를 추출할 수 있다.
데이터마이닝 기법 중 감성 분석은 SNS 데이터 분석에 유용하게 활용될 수 있다. 감성 분석은 텍스트 데이터에 내재된 감정을 파악하는 방법으로, 특정 상품이나 인물, 사회적 이슈에 대한 긍정 및 부정의 반응을 분석할 수 있다. 또한 연관 분석이나 군집 분석을 통해 대중의 인식을 반영하는...