Facebook 회원의 인종별 분포

Facebook 분석팀이 최근 Facebook 미국 회원들의 last name과 미국 Census 데이터의 last name을 비교분석하였는데, 그 결과  아래 그래프에서와 같이 백인, 흑인, Hispanic, 아시아인 등 각 인종별로 인터넷 사용인구 대비 Facebook 회원 비율이 점차적으로 100%에 근접하고 있는 것으로 나타났다.    아시아인의 인터넷 사용인구 대비 Facebook 회원 비율은 140% 정도로 나타났는데,  이는 아시아인 유학생들 때문인 것으로 추정된다.

Facebook팀은 Facebook 회원의 Profile 에 있는 인종 데이터를 사용하지 않았다고 하는데,  어떻게 위와 같은 분석이 가능했을까?

위 테이블은 Census 데이터에서 가져 온 것으로 가장 흔한 last name인 SMITH, JOHNSON, WILLIAMS 각각의 rank in the population, total count of people with the name, their proportion per 100k Americans, the percent for various races를 보여주고 있다.    이 테이블을 보면 1만명의 SMITH 중에 7,335명은 백인, 2,222명은 흑인이라는 것을 알 수 있다.

Facebook 팀은 이 데이터를 이용해서 Facebook 회원의 last name에서 회원의 인종을 추정했다.    아래 테이블은 각 인종별로 해당 인종 비율이 가장 높은 이름 3개씩 보여주고 있다.    예를 들어 Yoder, Krueger, Mueller이 Caucasian일 가능성은 각각 98.1%, 97.1%, 97.0% 나 된다.

각 last name 별로 인종 비율을 이런 방식으로 추정하면 여기에는 몇가지 에러가 있을 수 있다.   그래서 Facebook팀은 조금 어려운 통계기법인 mixture-modeling 기법을 적용해서 추정치를 조정했다고 한다.  이에 대한 설명은 생략하기로 하자.

이와 같은 분석은 target marketing에 매우 유용하게 사용될 수 있다.   마케팅의 정확성이 그만큼 높아지기 때문이다.    Provacy에 대한 요구가 커지면서 각 개인의 profile 데이터를 사용하기가 점차 어려워지고 있으나, 반면에 많은 open data 사이트들이 공개되고 있고 통계기법도 발달되어서 앞으로 이와 같은 분석들이 많이 수행될 것으로 보인다.    앞으로 통계학이 얼마나 중요해질지 쉽게 짐작할 수 있다.

Source:  Facebook Data Team: How Diverse is Facebook?

관련 Post:

Facebook 회원의 인종별 분포”에 대한 1개의 응답

  1. 그 중요성은 뉴욕타임즈의 멋진 그래픽 통계자료를 보면 정말 실감하죠

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중