빅데이터의 다음 단계는 예측분석이다 –에릭시걸 지음빅데이터와 예측 분석, 제목에서 보이는 두 개의 키워드이다. 빅데이터란 과거 아날로그 환경에서 생성되던 데이터에 비하면 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다. 요즈음에는 네트워크의 발달로 데이터가 빅데이터화 되었다. 예측 분석은 데이터 마이닝 기법으로 보면, 기존 데이터나 미래 상황에 대한 가정을 활용하여 고객이 제안에 반응을 보이거나 특정 제품을 구매할 확률 등 비즈니스 활동 결과를 예측 하는 것을 말한다.현재 빅데이터 분석은 전통적인 기업 비즈니스에서의 고객관계 데이터 분석 외에도 트위터와 같은 소셜 네트워크 서비스에서 발생하는 방대한 소셜 빅데이터 분석 영역에서도 활발히 이루어지고 있다. 소셜 빅데이터 분석은 소셜 미디어인 인터넷 게시판, 블로그, 소셜 네트워크 서비스에서 끊임없이 쏟아져 나오는 정치, 경제, 사회적 이슈에 대한 사용자들의 다양한 대화와 의견들을 분석하여 여론의 흐름을 파악하는 것을 말한다. 2011년 서울시장 보궐선거에서 선거 판도를 엿볼 수 있는 트위터의 대화 분석이 대표적인 사례이다. 빅데이터 분석을 통해 미래를 예측할 수도 있다. 구글은 구글 검색 서비스를 이용하는 사용자의 대규모 검색 로그를 분석하여 다양한 이슈에 대한 예측 분석을 수행한 결과를 발표하였다. 구글의 대표적인 예측 분석 서비스로 검색 질의어를 분석하여 독감예보 서비스를 제공하는 ‘구글 독감 트렌드(Google Flu Trends)’가 있다. ‘감기’와 관련된 검색어 분석을 통하여 독감 환자의 분포 및 확산 정보를 제공할 수 있다. 는 구글 독감 트렌드가 실제 데이터와 얼마나 가깝게 예측하는지를 보여준다. 1)빅데이터의 활용 단계는 현상분석, 최적화, 예측으로 나뉜다고 한다. 첫 단계는 빅데이터를 분석하여 현 시점에서의 인사이트를 찾아내는 것이고, 그 다음은 이를 활용하여 현상을 최적화하는 단계이고, 마지막은 미래에 일어날 일을 사전 새로운 미지의 영토로 ‘과감하게 나아가고’ 있다. 데이터로부터 학습하는 것은 보편적으로 유용하고 그것을 마스터하면 어디서나 환영 받을 것이라고 존 엘더가 말한다. 예측에 경제적 가치를 매기는 것은 어려운 일이 아니다. 예측 자체는 정교한 수학적 계산을 통해서 나온 것이지만, 복잡 다단한 예측 뒤에 가려져 있는 손익 개선 효과는 간단한 산수를 해봄으로써 눈으로 확인할 수 있다. 예측 효과는 추상적인 개념이 아니라 곧 돈이다. 작은 예측에 의한 통찰, 즉 선택을 올바른 방향으로 향하게 하는 작은 예지적 넛지로부터 가치가 발생한다. 특히 기업에서의 예측 분석은 곧바로 돈과 직결되어 있다. 이를테면 우편 홍보물을 모든 고객에게 보내는 대신 약 3% 정도에 해당하는 반응예상 고객에게만 타겟팅하여 보낸다면 어떨까? 비용을 꽤나 절감하면서 전체 수익의 플러스에도 기여하게 될 것이다. 이것이 맞춤화, 개인화, 1:1 마케팅 등의 트렌드를 만들어 왔던 바, 지난 시대의 과학이 대중적 보편성에 포커스 했다면 최근의 혁명은 다양성을 이해하는 개인화에 더욱 포커스 하는 시대로 변화하고 있다.미래를 이렇게 어렴풋하게 나마 볼 수 있다는 것은 선택권이 주어진다는 뜻이다. 지난 10년 내지는 15년 동안 일어난 과학에서의 위대한 혁명은 보편성의 추구로부터 다양성의 이해로 옮겨간 것이다. 나이브 베이즈 모델에서 나이브라는 용어는 매우 똑똑한 사람의 아이디어를 취하되 그것을 응용할 때는 아이디어를 단순화시켜 실제 적용 가능한 것으로 만드는 것을 의미한다. 그렇게 함으로써 예측 능력에 있어서 충분히 의미가 있으면서도 당면한 과제에 맞게 규모를 조절한 실질적인 방법을 만들 수 있게 된다. 실시간 예측 분석 솔루션은 웹사이트, 신용카드 처리 시스템과 같은 업무운영 시스템에 직접적으로 통합 되어 있어야 한다. 예측은 빈틈없는 관찰로부터 나오고 다양한 사실들을 통합하는 방법을 배워야 한다.예측 모델은 클릭, 구매, 거짓말, 사망과 같은 한 개인의 행위를 예측하는 메커니즘이다. 그것은 개인의 특성을성이 오히려 높다는 트렌드를 발견한다. 예측 분석의 도입이 우려를 낳기도 하지만 그것의 부재 또한 우려를 낳기도 한다. 정부예산 긴축에 따라 불필요한 지출을 축소하는 수단으로 사용한다. 범죄자들 간의 사회적 관계망을 고려하는 방식으로 사기를 탐지하는 능력을 개선한다. 사기 거래와 합법적 거래 모두를 포함하는 광범위한 역사적 데이터 집합들은 본능적으로 이 양자 사이의 내재적 차이점을 코드화한다. 예측 분석은 데이터로부터 바로 이러한 차이를 발견하는 데 쓰는 도구이다. 학습 시스템의 결정적 특징은 이전에 관찰된 사례들을 일반화하여 향후 발생할 사기의 형태를 예측하는 것이다. 긍정 오류는 거짓 경보이고 그 일이 반드시 발생하였을 것이라는 점을 어떻게 증명할 수 있겠는가?라고 묻는 것은 윤리적 딜레마이다. 설사 통찰력 있는 의사결정을 하는 인간이라도 자신들이 깊이 이해하지 못하는 시스템이 제시하는 추천 내용에 대해서 상당히 큰 믿음을 가질 수 있다. 의사결정을 형식화하고 계량화하게 되면 의도와는 달리 소수에 대한 편견을 심어줄 수 있다. 우편 번호는 인종과 매우 높은 상관관계를 갖고 있다고 알려져 있다. 미래의 범죄를 예측하기 위해서 과거의 범죄 기록을 고려 요소로 삼음으로써 ‘현재의 인종적 차별을 미래에도 새겨 넣게 되는 것이다.’ 그것은 편견이 이미 가지고 있는 자기 실현적 예언을 확대 재생산하게 만든다. 범죄 예측은 ‘잘못’ 예측하였을 때 문제가 생기지만, 임신과 같은 민감한 사실들을 예측하는 것은 ‘제대로’ 예측하였을 때 문제가 된다. 따라서 데이터 프라이버시에 관한 모든 근본적인 질문들을 다시 점검해야 한다. ‘내가 기차에서 노인 또는 임산부에게 자리를 양보한 경우에 임신이나 나이와 같은 민감한 개인 데이터를 유추하려고 노력한 것인가? 아니면 그저 그 사람이 필요로 하는 바를 제공하려고 노력한 것인가?’ 나는 후자가 맞다고 생각한다. 개인정보를 유추하려고 노력한 것이 아닌 내 마음에서 우러나와 도와준 것이기 때문이다. 책에서도 한 기업이 알게 된 내용이 중요하나가 다른 하나의 원인이 된다는 것을 의미하지는 않는다. 많은 예측 분석 프로젝트는 미래를 예측하는 데에 목적이 있는 것이지 세상을 이해하고 무엇이 그렇게 작동하게 만드는 지를 알아내는 것이 목적이 아니다. 만약 대중적 불안감의 바로미터가 실제로 주식시장을 예측할 수 있게 해준다면 경제에 영향을 미치기까지 며칠이나 걸릴 것인가? 바로 그 다음날 그 효과를 점검해야 하는가, 아니면 한 달 뒤에 그 효과를 점검해야 하는가? 우리는 감정 상태를 해외 주식시장, 채권, 금과 같은 다양화된 자산 중 하나로 간주한다. 알파지니어스는 수많은 트윗과 인터넷 게시물을 분석하여 특정 주식 종목의 매도 또는 매입 시그널 여부를 결정한다. 그러나 주식시장에서 대성공을 거둘 만큼 대중의 기분을 통해 시장동향을 충분히 예측할 수 있는지에 대해서 공개적으로 알려진 결정적 증거는 아직 없다.4장은 학습하는 기계이다. 여러 사람이 언급한 기계 학습 부분이다. 의사결정 나무가 더 커지고 더 복잡해질수록 예측의 성능은 증가하지만 그 증가폭은 갈수록 미세해진다. 수확 체감의 법칙이 작용하는 것이다. 예측 모델의 성능을 비교하는 하나의 측정치가 있다. 일명 향상도라고 한다. 향상도는 널리 쓰이는 측정 기준으로 일종의 ‘예측 승수’라고 할 수 있는데, 모델을 적용하지 않았을 때와 비교해서 어떤 특정한 모델을 적용했을 때 얼마나 더 많은 목표 고객을 파악해 낼 수 있는지를 알려준다. 과잉학습은 너무나 많은 가정에서 온다. 학습을 죽이는 범인은 ‘과잉학습’ (다른 말로 과적합)이다. 과잉학습은 잡음을 정보로 잘못 간주하는 함정인데, 데이터로부터 너무 많은 것을 고려 요소에 포함 시키는 것을 가리킨다. 당신이 너무나 많은 것들을 숫자로 읽어들이면 과잉학습을 하게 되어 잠재되어 있는 진실을 발견하는 것으로부터 오히려 멀어지게 된다. 이러한 이유에서 우리는 변수를 선택하는 방법을 배웠었다. 학습과 과잉 학습 사이에서 균형을 유지하는 것은 심오한 도전과제이다. 기계 학습의 목표는 ‘귀납’이다. 귀납은 구체적 이 예를 통해 예측 분석의 적중도를 높이는 앙상블 효과를 보여주고 있다. 고객의 영화 선호도를 예측하는데 기존 시스템보다 10% 성능 향상을 보여주는 팀에게 100만불의 상금을 거는 경영대회였다. 여기에서 과학에 대한 열정은 치열한 경쟁 상태에서도 오히려 협력을 낳고, 그 협력과 공유를 통해 연합된 솔루션은 더욱 강력한 힘을 발휘한다는 교훈을 얻게 된다. 이는 집단 지성의 마법이라고 할 수 있다.6장은 인간을 이긴 기계 학습에 대해 다룬다. 모든 데이터의 약 80퍼센트를 차지한다고 일컬어지는 텍스트 데이터는 인간의 지식을 전달할 목적으로 만들어졌기 때문이다. 질문을 이해할 수 없으면 답하기 어렵다. 우리가 이 모든 책들을 스캐닝 하는 것은 사람들이 읽을 수 있게 하기 위해서가 아니다. 우리는 인공지능이 읽을 수 있도록 하기 위해서 그것들을 스캐닝하고 있다. ‘인공’이라는 부분은 별 문제가 안 된다. 문제는 ‘지능’이다. 지능이란 완전히 주관적인 개념이기에 인공지능은 잘 정의된 분야라고 말할 수 없다. 저나는 IBM의 왓슨이 미국의 퀴즈쇼 에서 인간 챔피온들을 누르고 우승하는 감동적인 스토리도 자세히 소개한다. 저자는 인공지능 학자로서 20여 년간 이 분야를 연구해 왔으나 사실 이러한 지능 이론에 대한 회의론자였음을 고백한다. 컴퓨터가 하기엔 너무 어려운 ‘인공불가능’ 영역을 억지로 컴퓨터가 하도록 시키는 것이 인공지능이라고 생각했던 것이다. 하지만 저자는 왓슨의 성공 스토리가 인공 지능이라는 용어를 최초로 정당화할 수 있는 신기원적 사건으로 평가한다. 그런데, 90대의 서버 클러스터링으로 만든 IBM의 왓슨은 인간의 뇌처럼 생각하는 메커니즘을 통해 이런 성과를 이룬 것이 아니라 여러 테크놀로지와 방법론들을 융합한 앙상블 모델이었음을 보여준다. 데이터 검색을 통해 수천 개의 후보답안을 수집한 후 각각의 답에 대해 그 증거를 찾고 예측 모델을 통해 그 중 가장 우수한 답을 찾아내는 과정을 밟는 것이다. 왓슨은 어떤 답안이 맞거나 틀리다는 판단을 하는 것이 아니라m/