다음과 같은 두가지 흐름에 의해 data mining이 자동화되고 있다.
첫째는 Google Squared & Google Search Options, Wolfram Alpha, Google Public Data 등에서 알 수 있듯이 인터넷에서 검색되는 Data들이 분석하기 좋게 structured 되고 있다는 점이다. 둘째는 Youtube for data라는 닉네임을 갖고 있는 Swivel과 같이 인터넷을 통해 데이터를 공유하는 Open Data 사이트들이 활성화되고 있다는 점이다. 이 두가지 흐름 중에 Open Data 사이트가 최근 관심을 끌고 있다.
대표적인 Open Data 사이트는 Swivel, ManyEyes, Factual 등을 들 수 있다. 누구든지 뭔가를 측정했거나 수집했거나 어떤 식으로든 만들어서 혼자 보관하고 있던 데이터를 Open Data 사이트에 upload해서 다른 사람들과 공유할 수 있다. 사람들은 Open Data 사이트에 upload된 데이터를 평가하고, comment를 달고, 자신이 갖고 있는 다른 데이터를 이용해서 점검하고 수정하고, 분석에 사용할 수 있다. 마치 Youtube에서 누군가에 의해 upload된 동영상을 보고, comment 달고, 다른 목적으로 자유롭게 사용할 수 있는 것과 유사하다고 할 수 있다.
그런데 Open data 사이트들은 자동화된 통계 분석 엔진이 있어서 이를 이용해서 upload된 다양한 데이터들간의 상관관계를 분석하고 있는데, 이 자동화된 분석에 의해 지금까지 파악되지 않았던 새로운 재미있는 상관관계 분석 결과가 나타나고 있다. 몇가지 예를 들면,
-
아래 그래프는 미국 각 주별로 종교가 중요하다고 생각하는 사람의 비율과 10대 출산율간의 상관관계를 보여주고 있다. 종교가 중요하다고 생각하는 사람의 비율이 높은 주일수록 10대 출산율이 높은 것으로 나타났다.
-
아래 그래프는 연도별 실업율과 연도별 기대수명을 보여주고 있다. 실업율과 기대수명이 함께 움직이는 것을 알 수 있다.
사람들이 거짓이나 장난 data를 올린다는 문제가 있지만 그런 문제만 잘 관리된다면, Open data는 위에서 보여준 예에서 알 수 있듯이 앞으로 과학 발전에 크게 기여할 것으로 기대된다.
Source: A YouTube for Data”
정말 신기하네요. 기존의 고정관념이나 예상을 뒤집는 이런 데이터들이네요. 이런걸 일일이 직접 조사한다면 시간과 비용이 엄청들겠죠…
이런 오픈된 데이터에는 과거와 달리 누구나 접근할 수 있으니, 앞으로 개인도 이것을 얼마나 잘 활용하느냐가 더욱 중요해지겠네요.
종교를 믿을수록 신앙심이 깊고 생명존중의식이 강해서 낙태를 안하고 출산을 해서 그런걸까요? 왜 그런지 궁금하네요…
핑백: 숫자를 이용한 Storytelling « Creativity, Innovation, and Tech – 변지석