2014년 8월 18일 월요일

데이터 분석의 시작



기업들은 각자의 방식으로 자사의 데이터들을 분석하고 활용하고 있습니다. 외부 솔루션을 활용하거나, 자체적인 분석역량을 동원하여 데이터를 수집하고 분석하고 보고하고 있습니다. 이와 더불어, 산재해 있는 데이터를 어떻게 활용을 해야 하는지, 무슨 데이터를 볼 것인지에 대한 고민도 함께 있을 것입니다. 또한 방대한 양의 데이터를 혼자서 엑셀로 처리하기에도 한계가 있습니다.

그래서 비교적 쉽게 데이터 분석에 접근 할 수 있는 방법이 무엇일지 고민해 보았습니다. 그 핵심은 ‘보유하고 있는 데이터를 이해하기 쉽게 표현해 내기’라고 생각합니다. 즉, 시각화(Visualization)라고 할 수 있습니다. 시각화의 시작은 거창한 인포그래픽, 화려한 그림과 숫자가 아니라, 보는 이가 이해하기 쉽도록 내용을 구성하는 것입니다.

최근에는 유료 데이터 분석 도구뿐만 아니라, 오픈소스 패키지를 통해 다양한 방식으로 데이터를 처리하고 시각화를 하고 있습니다. 저는 온라인 쇼핑몰 데이터를 분석하고 현황을 탐색하기 위해 고려대 통계학과 허명회 교수님의 블로그를 통해 시각화 아이디어를 얻고 있습니다(Using R).

상자그림(box plot) 활용



위 그림은 box plot(상자 그림)을 활용하여, ‘우리나라 18대 국회의원 선거구의 선거인수 분포’를 나타낸 그림입니다. 상자그림에서 상자의 중앙선은 자료 분포의 중간값을 나타내고, 상자의 아래/위 모서리는 하위 사분위수와 상위 사분위수를 나타냅니다. 상자에 연결된 줄의 양 끝은 특이점이 아닌 자료 값들의 최소값과 최대값에 위치합니다. 특이점이 있는 경우, 줄의 양 끝 바깥에 동그란 점으로 찍힙니다.

상자그림(box plot) 분포도의 논리는 ‘쇼핑몰의 카테고리 별 상품분류의 구매 수 현황’ 탐색에 활용 할 수 있습니다. 쇼핑몰에서 판매하는 제품들은 카테고리별로 나누어져 있으며, 각 카테고리 별 제품들은 서로 다른 구매력을 갖고 있습니다. 특정 카테고리의 제품들은 골고루 잘 팔리는 반면, 불균형하게 일부 제품만 팔리는 경우도 있습니다. 아래 그림은 임의의 데이터를 활용하여 쇼핑몰에서 분석 할 수 있는 카테고리 별 제품 판매 현황입니다.



카테고리 내 상품들의 구매 수를 분석 한 결과, 최대값은 최소값의 약 2.5배이고, 하위 사분위수는 상위 사분위수의 1.4배입니다. 그만큼 카테고리 내 제품 구매의 불균형도가 크다는 것을 의미합니다.



여러 개의 자료 묶음으로 카테고리를 나누어 보면 비교에 있어 시각적 효과가 좋습니다. 화장품 카테고리의 중간값이 가장 크고, 채소&과일&계란이 가장 작게 나타나 있습니다. 채소&과일&계란과 어린이제품의 경우는 카테고리 내 상품간 구매 수의 불균형이 높은 것을 알 수 있습니다. 건강식품, 음료, 간식의 경우에는 하얀색 점을 볼 수 있는데, 이는 특정 제품에서 특이점을 보일 만큼 구매수가 높았다는 것을 발견할 수 있습니다.


이와 같은 방법을 사용하면 제품 판매에 대한 분포를 한눈에 볼 수 있습니다. 제품 카테고리의 하위 카테고리를 개별 상품과 연계하여 더 세분화한 분포를 보는 것도 의미가 있을 것입니다.

결론

데 이터 분석은 작은 아이디어에서부터 시작할 수 있습니다. 무슨 데이터를 어떻게 보아야 할지는 Small Data부터 보기 좋게 나열해 놓으면서 시작해 보시기 바랍니다. 그러면 그 시작이 Big Data로 가는 첫걸음이 될 것입니다.

메인 이미지 출처: zdnet

댓글 없음:

댓글 쓰기