본문 바로가기

카테고리 없음

why BIG DATA. 1st

반응형





시작하며

 요즘 다양한 기업들의 채용공고를 보면 <데이터 사이언스>의 구인이 활발해짐을 봅니다. 이미 실리콘밸리에서는 <데이터 사이언스>들이 다양한 활동을 하고 있으며, 기업들의 서비스를 더욱더 원활하게 제공될 수 있도록 만들어지고 있습니다.

 당연히 우리나라에는 이러한 부분이 좀 늦게 도입이 되고 있지만, 긍정적인 부분은 data에 대한 중요성을 인지했다는 부분입니다.

 예전에는 특정 서비스를 기획하는 이들의 '감'을 통해서 "이렇게 하면 잘될꺼야" 라는 insight를 통하여 서비스들이 빌드되고 출시되었지만 이제는 big data라는 놈으로 인해 더 깊은 부분과 다양성에 대한 insight가 가능해짐으로 인해 효율적인 접근이 가능하다는 부분입니다.

big data란?

 빅데이터는 지금까지 사용하던 database 시스템으로 처리할 수 있는 용량을 넘어선 데이터를 칭한다고 보면 됩니다.

 이 빅데이터는 꽤 크고, 꽤 빠르게 이동하며 기존의 데이터베이스 아키텍처의 제한사항에 들어맞지도 않는다고 봐야 합니다.
하지만 이런 빅데이터의 다양한 데이터에 가치를 끌어가려면 데이터를 원활하게 처리하기 위한 대안이 필요합니다. 

 빅데이터에는 3V가 있는데 volume(규모), velocity(속도), variability(다양성)이 있습니다. 이러한 요소들을 토대로 원활하게 다룰 수 있는 다양한 접근법들이 생겨나면서 광대한 빅데이터를 효율적으로 다룰 수 있게 된 것이 현재입니다. 하지만 3V는 데이터의 본질을 알기 위한 일종의 '렌즈' 일 뿐이지 명확한 정답을 지니고 있는 것은 아닙니다. 본질을 통해 데이터를 어떤식으로 활용할지 그걸 이끌어내는게 요즘의 '데이터 사이언스'들이 하는 일이라고 보면 됩니다.

volume - 규모
기존의 적은 용량의 데이터들과 비교할 수 없을 정도로 큰 데이터를 지닌 빅데이터를 통해 기업들의 가치를 창출할 수 있는 범위가 기하급수적으로 넓어졌습니다. 현재 IT구조에서 부딪히는 가장 큰 난관이 바로 이 <규모> 부분입니다.
현재의 구조로는 빅데이터를 담을 수 없을뿐더러 시도를 했다간 어떤일이 벌어질지도 모를 정도라고 봐야합니다. (예를 들어 200ml를 담을 수 있는 물컵에 500ml에 담았던 물을 부으면 어떻게 될까요?)
하지만 바로 이 부분을 처리하기 위해 2가지 방법이 있습니다. 하나는 그린플럼 등의 데이터 웨어하우스/데이터베이스와 같은 대량 병렬 처리 아키텍처 입니다. 진화 속도가 더딘 정규 데이터 세트와 어울리는 부분입니다. 다른 하나는 아파치 하둡기반 솔루션입니다. 처리할 수 있는 데이터의 구조에 어떤 조건도 부여하지 않을 수 있습니다. 위 두가지는 바로 3v 요소 중 다양성이 어느 정도의 영향력을 발휘하냐에 따라 달라진다고 봐야합니다.

velocity - 속도
속도는 일단 국내는 크게 할 말이 없을 정도로 오래전부터 빠르게 이동하는 데이터를 대처하는 시스템들이 많이 있습니다. 이걸 기업이, 사람이 어떻게 써야할지만 결정하면 되는 문제입니다.

variability - 다양성
다양성은 <데이터 사이언스>의 센스가 가장 잘 발휘되는 영역입니다. 쌓여져가는 데이터에는 관계성이 없이 무작위로 쌓이게 됩니다. (바로 현재의 데이터들이 그렇죠)
이런 데이터들에 어떤 관계성을 부여하고 그걸 통해 어떤 데이터를 결과물로 추출할지 결정을 해야 하기 때문입니다. 이러한 과정이 없이는 빅데이터가 완성될 수가 없습니다. 그리고 변동이 심한 시장에서 기업이 살아남을 수 있는 부분은 이 다양성을 어떠한 형태로 운영을 하느냐가 가장 큰 관건이라고 봐야 합니다.
가공되지 않는 데이터를 얼마나 효율적으로 끌어갈 수 있는지 그걸 빠른 시장에 어떻게 대입을 해야할지? 그게 걱정이라면 바로 'agile ' 방법론으로 접근을 해야 합니다. (이 부분은 2부에서 다뤄보겠습니다.) 이 애자일을 통해 기업들은 바로바로 시장에 데이터를 활용할 수 있습니다.

다양성을 어떻게 이끌어야하나

 기업에서의 데이터사이언스들은 다양성을 이끌어야 한다고 위에서 언급을 했습니다. 그 이유는 빅데이터는 무지막지한 놈입니다. 말 그대로 엄청나게 큽니다. 크다는게 단순히 크기만 큰게 아니라 엄청나게 다양한 데이터들이 있는데 이게 아무런 가공도 없이 불규칙하면서 엄청나게 있으며, 아무도 그걸 어떤식으로 써야한다고 지침을 주지 않습니다.

 이런 부분에서 데이터사이언스들은 그 많은 데이터를 가공하고 어떻게 써야 효율적이라는 답을 제시해야 합니다. 꽤 어렵죠? 정말 고단하고 힘든 과정은 데이터를 깔끔하게 정리하는 과정이고 이를 가공하는 과정입니다.

 가장 먼저 다양한 부서들을 만납니다. 그러면 그 부서에서 원하는 방향이 있을거구요. 하지만 데이터는 그 부서가 원하는 방향으로 답을 주지 않습니다. 정말 극현실적인 데이터를 줍니다. 만약 제조를 담당하는 부서이고 물건을 시장에 내놨을 때 잘 팔릴 수 있느냐 입니다. 이 과정을 위해서는 데이터 사이언스는 제조하는 제품들의 spec를 알아야 하고 시장의 어느곳에서 어떻게 누가 이 제품을 가장 많이 구매하는지, 할인은 했는지, 1+1인지? 부분들을 추출합니다.
 추출과정에서 엄청난 데이터들을 마주하게 됩니다. 하지만 이걸 다양성에 맞게 분류하는 일이 바로 데이터 사이언스의 일이기 때문에 그대로 분류를 합니다. 분류를 하다보면 굉장히 좋은 인사이트가 발견되고 그 안에서 이 제품을 어떤식으로 판매하면 더 좋은지 알게됩니다. 이를 마케팅 부서와 함께 연계해서 인사이트 리포팅을 해주면 제조부서와 마케팅부서가 서로 협업을 하며 제품을 더 원활하게 판매할 수 있는 대책을 마련하게 되고 직접 온라인이나 오프라인에 실행하는 부서들과 연계해서 판매가나 프로모션성으로 진행을 할 수도 있습니다.

 꽤 매력적이지 않나요?

 개인적으로 소셜 데이터들을 분석해서 현재 우리 회사의 뷰티제품이 얼마나 인지되고 판매되는지.. 그리고 어떠한 spec를 원하는지 알게되면서 꽤 재미있었습니다. 이러한 다양성을 지닌 데이터를 분류하면서 insight를 얻어서 광고를 하게 됐는데 실질적으로 광고비대비 매출 220%라는 성과를 얻게 되었었습니다.
지금은 기업들이 데이터 마이닝, 데이터 분석, 서비스 기획 등의 다양한 직군을 뽑아서 활용하고 있지만 이건 대기업이나 뽑는 수준이고 중소기업은 한 사람이 모든걸 다해야 합니다. ㅋㅋ

스티커 이미지


반응형