일간 보관물: 10월 22, 2009

Open Data 사이트들이 활성화되면서 Data Mining이 자동화되고 있다

다음과 같은 두가지 흐름에 의해 data mining이 자동화되고 있다.

첫째는 Google Squared & Google Search Options, Wolfram Alpha, Google Public Data 등에서 알 수 있듯이  인터넷에서 검색되는 Data들이 분석하기 좋게 structured 되고 있다는 점이다.    둘째는  Youtube for data라는 닉네임을 갖고 있는  Swivel과 같이 인터넷을 통해 데이터를 공유하는 Open Data 사이트들이 활성화되고 있다는 점이다.     이 두가지 흐름 중에 Open Data 사이트가 최근 관심을 끌고 있다.

대표적인 Open Data 사이트는 Swivel,  ManyEyes, Factual 등을 들 수 있다.   누구든지 뭔가를 측정했거나 수집했거나 어떤 식으로든 만들어서 혼자 보관하고 있던 데이터를 Open Data 사이트에 upload해서 다른 사람들과 공유할 수 있다.   사람들은 Open Data 사이트에 upload된 데이터를 평가하고, comment를 달고, 자신이 갖고 있는 다른 데이터를 이용해서 점검하고 수정하고, 분석에 사용할 수 있다.  마치 Youtube에서 누군가에 의해 upload된 동영상을 보고, comment 달고, 다른 목적으로 자유롭게 사용할 수 있는 것과 유사하다고 할 수 있다.  

그런데 Open data 사이트들은 자동화된 통계 분석 엔진이 있어서  이를 이용해서 upload된 다양한 데이터들간의 상관관계를 분석하고 있는데,  이 자동화된 분석에 의해 지금까지 파악되지 않았던 새로운 재미있는 상관관계 분석 결과가 나타나고 있다.   몇가지 예를 들면,  

  • 아래 그래프는 미국 각 주별로 종교가 중요하다고 생각하는 사람의 비율과 10대 출산율간의 상관관계를 보여주고 있다.   종교가 중요하다고 생각하는 사람의 비율이 높은 주일수록 10대 출산율이 높은 것으로 나타났다. 

292

  • 아래 그래프는 연도별 실업율과 연도별 기대수명을 보여주고 있다.   실업율과 기대수명이 함께 움직이는 것을 알 수 있다.

ignore

사람들이 거짓이나 장난 data를 올린다는 문제가 있지만 그런 문제만 잘 관리된다면,  Open data는 위에서 보여준 예에서 알 수 있듯이 앞으로 과학 발전에 크게 기여할 것으로 기대된다. 

Source:  A YouTube for Data”