2014년 8월 18일 월요일

트래픽 데이터를 활용한 통계 분석


웹에서 발생하는 데이터를 활용하여 다양한 지표들의 기술통계/추론통계의 수치를 확인하고 아이디어를 제시해 보는 방법에는 어떤 것들이 있을까요. 통계 분석에서 기본적이고 쉽게 다가갈 수 있는 방법으로 각 지표들 간의 상관계수를 구해 보는 것입니다. 즉, 지표(변수)들 간의 관계를 이해하고 이를 활용하는 방법입니다.

통계 활용 예

물건을 파는 사이트의 경우 가장 중요한 지표는 무엇일까요? 매출에 직접적으로 연결되는 “주문 수” 입니다. 즉 “물건이 얼마나 팔렸나” 입니다.

그렇다면 주문 수와 가장 관련성이 높은 변수(지표)는 무엇인지 궁금증이 생길 수 있습니다. 방문하는 횟수가 높으면 주문수가 높아 질까? 로그인 수가 많아 지면 방문 수가 높아질까? 제품을 많이 보면 주문 수가 높아 질까? 다양하게 변수 들을 조합하여 ‘주문 수’와 관련이 있는 지표들을 생각해 볼 수 있습니다.

Sample Data를 분석하여 각 변수(지표)들 간의 상관관계를 알아보았습니다. (3개월 간의 일별 데이터 분석 Using R)


[색이 진할 수록 상관이 높고, 옅을 수록 상관이 적으며, 이 그림에는 안보이지만 부적 상관일 경우, 붉은색으로 나타납니다.]


위의 표를 통해 주문이라는 지표는 제품보기 지표와 가장 높은 정적 상관을 보였음을 알 수 있습니다(r=0.53). 상관계수의 유의 수준(p-value)는 4.352e-14로 상관계수는 통계적으로 유의미했습니다.

위와 같은 결과를 통해 알 수 있는 직관적인 인사이트는 무엇이 있을까요?

주문을 중심으로 다른 지표들과 제품보기 지표의 상관계수에서 알 수 있듯이, 제품보기가 많을수록 주문이 늘어 나는 경향성이 높습니다. 또한, 주문 수는 다른 지표와의 관계는 낮은 수준으로 나타났습니다. 특히, 반송율은 주문 수와 낮은 정적 상관관계(r=0.23)를 보였습니다. 반송율의 의미와 부합되는 결과라고 볼 수 있겠습니다.

통계 결과 활용하기

위의 상관계수를 통해 다양한 아이디어를 제시할 수 있습니다. 실제 위 표를 보고 제가 받은 질문을 하나 소개해 드리겠습니다.

“회원가입과 주문 수의 상관관계가 낮다. 회원가입 시 최초주문에 대하여 쿠폰 등의 유인가를 제공하고, 주문 수와의 상관도를 높인다?”

상관계수가 낮은 지표들을 선정하여 상관계수를 높여보는 것은 어떤가 라는 아이디어 및 질문이었습니다. 만약 회원가입 수와 주문 수의 상관이 높다면 회원가입을 많이 하도록 최초주문에 대한 유인가를 제공하는 것이 의미 있는지 ‘테스트’를 해 볼 수는 있을 것입니다.
하지만 상관관계는 인과관계가 아닙니다. 회원가입과 주문 수의 상관이 낮다 하여, 회원가입 시 쿠폰을 주고 주문 수와의 상관계수를 높이는 것은 의미가 없을 수 있습니다. 마케팅의 목적은 상관계수를 높이는 것이 아니기 때문입니다(회원가입 시 쿠폰을 주는 것은 회원가입 수를 증가 시킬 수는 있겠지요).

오히려 상관이 낮은 지표가 아니라 상관이 높은 지표(제품보기)에 중점을 두고 추가 아이디어를 진행해 보는 것을 우선시 하는 것이 좋습니다. 예를 들어, 제품보기 페이지를 최적화 하여 주문 전환율을 높이거나, 사이트 내 혹은 사이트 외의 캠페인을 통해 제품보기 횟수를 늘릴 수 있는 방안을 제시하는 것이 선행되어야 할 것입니다.

지금까지의 분석은 시작에 불과 합니다. 데이터를 활용한 통계 분석은 매우 다양하며, 그 속에서 얻어 낼 수 있는 인사이트는 더 많을 것입니다. 그리고 얻어진 인사이트를 통해 마케팅에 적용하는 것은 그 무엇보다 중요하리라 생각합니다.

메인 이미지 출처: pssyyt.tistory.com

댓글 없음:

댓글 쓰기