Open Data 사이트들이 활성화되면서 Data Mining이 자동화되고 있다

다음과 같은 두가지 흐름에 의해 data mining이 자동화되고 있다.

첫째는 Google Squared & Google Search Options, Wolfram Alpha, Google Public Data 등에서 알 수 있듯이  인터넷에서 검색되는 Data들이 분석하기 좋게 structured 되고 있다는 점이다.    둘째는  Youtube for data라는 닉네임을 갖고 있는  Swivel과 같이 인터넷을 통해 데이터를 공유하는 Open Data 사이트들이 활성화되고 있다는 점이다.     이 두가지 흐름 중에 Open Data 사이트가 최근 관심을 끌고 있다.

대표적인 Open Data 사이트는 Swivel,  ManyEyes, Factual 등을 들 수 있다.   누구든지 뭔가를 측정했거나 수집했거나 어떤 식으로든 만들어서 혼자 보관하고 있던 데이터를 Open Data 사이트에 upload해서 다른 사람들과 공유할 수 있다.   사람들은 Open Data 사이트에 upload된 데이터를 평가하고, comment를 달고, 자신이 갖고 있는 다른 데이터를 이용해서 점검하고 수정하고, 분석에 사용할 수 있다.  마치 Youtube에서 누군가에 의해 upload된 동영상을 보고, comment 달고, 다른 목적으로 자유롭게 사용할 수 있는 것과 유사하다고 할 수 있다.  

그런데 Open data 사이트들은 자동화된 통계 분석 엔진이 있어서  이를 이용해서 upload된 다양한 데이터들간의 상관관계를 분석하고 있는데,  이 자동화된 분석에 의해 지금까지 파악되지 않았던 새로운 재미있는 상관관계 분석 결과가 나타나고 있다.   몇가지 예를 들면,  

  • 아래 그래프는 미국 각 주별로 종교가 중요하다고 생각하는 사람의 비율과 10대 출산율간의 상관관계를 보여주고 있다.   종교가 중요하다고 생각하는 사람의 비율이 높은 주일수록 10대 출산율이 높은 것으로 나타났다. 

292

  • 아래 그래프는 연도별 실업율과 연도별 기대수명을 보여주고 있다.   실업율과 기대수명이 함께 움직이는 것을 알 수 있다.

ignore

사람들이 거짓이나 장난 data를 올린다는 문제가 있지만 그런 문제만 잘 관리된다면,  Open data는 위에서 보여준 예에서 알 수 있듯이 앞으로 과학 발전에 크게 기여할 것으로 기대된다. 

Source:  A YouTube for Data”

Open Data 사이트들이 활성화되면서 Data Mining이 자동화되고 있다”에 대한 3개의 응답

  1. 정말 신기하네요. 기존의 고정관념이나 예상을 뒤집는 이런 데이터들이네요. 이런걸 일일이 직접 조사한다면 시간과 비용이 엄청들겠죠…

    이런 오픈된 데이터에는 과거와 달리 누구나 접근할 수 있으니, 앞으로 개인도 이것을 얼마나 잘 활용하느냐가 더욱 중요해지겠네요.

  2. 종교를 믿을수록 신앙심이 깊고 생명존중의식이 강해서 낙태를 안하고 출산을 해서 그런걸까요? 왜 그런지 궁금하네요…

  3. 핑백: 숫자를 이용한 Storytelling « Creativity, Innovation, and Tech – 변지석

댓글 남기기