Monthly Archives: 6월 2010

Google Patents 검색 서비스

Google Patents는 미국특허청  (USPTO) 특허 관련 문건들을 대상으로 Google이 일반인들에게 제공하는 검색 서비스를 말한다.   2006년에 시작되었으며,  현재 7백만 건 정도의 문건이 제공된다.    Google은 특허청이 보유하고 있는 이미지화된 문건들을 Optical Character Recognition (OCR) 기술을 이용해서 TEXT로 변환시켜서 검색할 수 있도록 했다.    도서관들이 보관하고 있는 서적들을 대상으로 한 Google Books와 비슷한 기술과 서비스라고 할 수 있다.    Google Books는 2004년에 시작되었으며, 2009년 10월 현재 1천만 권이 넘는 책들이 scanning 되어서 저작권 문제가 있는 것만 유료로, 나머지는 무료로 제공되고 있다.

참고로 특허 관련 검색 서비스는 Google Patents만 일반인들에게 제공되고 있는 것은 아니다.    비영리조직인 Cambia가 제공하는 PatentLens는 현재 천만건이 넘은 특허 문건에 대한  검색 서비스를 무료로 제공하고 있다.

Source:  Free download: 10 terabytes of patents and trademarks

객관식 수학 문제와 Game Theory

Game Theory의 핵심은 상대방의 의도나 전략를 파악하고 고려해서 나에게 가장 유리한 것을 선택하는 것이다.   Game Theory 책들을 보면 다양한 사례들을 소개하고 있지만,  Game Theory를 공부하면서 실생활에 적용할만한 상황을 찾는 것이 쉽지 않다.   상대방이 있어야 하기 때문이다. 그런데 “잘 만들어진” 객관식 문제를 이용하면 Game Theory를 적용해볼 수 있다.

여기서 “잘 만들어진” 객관식 문제라는 것은 1개의 정답과 나머지 오답들로 구성된 문항들을 출제자가 상당히 신경써서 만들었다는 것을 의미한다.  우리나라 수능시험이나 미국 SAT 문제들이 이에 해당할 것이다.  잘 만들어진 문제는 문제의 답을 정확하게 알고 있으면 정답을 쉽게 찾을 수 있지만 문제를 정확하게 알지 못하면 틀린 답을 선택할 가능성이 크게 만들어진다.   즉 오답 문항들이 응시자가 범할 다양한 유형의 실수를 감안해서 만들어진다.     그런데 거꾸로 이렇게 잘만들어진 문제에서는 문제의 답을 알지 못하더라도 정답과 오답으로 구성된 문항들만 잘 분석해서 출제자의 의도를 파악해도 정답을 알아낼 수 있다.   출제자 의도를 파악하는데에 Game Theory가 적용된다.

그럼 예를 들어보자.   다음과 같은 5지선다형 객관식 SAT 문제에서 정답은 무엇일까?

a) 4π sq. inches

b) 8π sq. inches

c) 16 sq. inches

d) 16π sq. inches

e) 32π sq. inches

문제의 답을 모른다고 가정하고 답안 문항들만 보고 정답을 찾아내보자.   무엇이 정답일까?   정답은 d) 이다.   왜 그럴까?

UPDATE: 간고등어님이 comment에서 지적하셨듯이 만약 문항이 4π, 8,8π, 16,16π  이었다면 정답을 찾아내기 어려웠을까?  그래도 정답은 16π로 쉽게 찾을 수 있다.   왜 그럴까?    단위가 sq. inches 이기 때문에 8이나 8π는 오답일 가능성이 크다.

Source:   The Art of SATergy

온라인 비디오 시장에서 Youtube가 독보적이다

지난 4월 comScore 조사에 의하면, 178백만명의 미국 인터넷 사용자들이 시청한 online 비디오는 모두 303억 개에 달한다.    이들 온라인 비디오를 회사별로 순서대로 나열하면 아래 그래프와 같다.   1위인 Youtube 비디오는 130억개로 타의 추종을 불허하고 있다.    이들 비디오의 평균 길이는 4.4분인 것으로 나타났다.

Source:  YouTube Dominates Online Video Views

관련 Post: Youtube Leanback

폭발적으로 증가하는 데이터 2

폭발적으로 증가하는 데이터에서 데이터가 매년 60%씩 증가한다고 하면서 폭발적으로 증가하는 데이터 사례 몇 가지를 소개했다.    여기서 폭발적으로 증가하는 사례를 몇가지 더 소개하면,

  • 2002년에는 온라인 데이터가 5 exabyte였는데, 2009년에는 281 exabyte로 7년 동안 56배나 증가했다.
  • 개인별로 2009년에 온라인에 upload하는 데이터 규모는 3년전에 비해 3배나 증가했다.

HP의 CEO Mark Hurd는 이와 같이 폭발적으로 증가하는 데이터에 대해서,  ”앞으로 4년동안 만들어지는 데이터 규모는 지금까지 만들어진 데이터 규모보다 더 크다” 고 주장한다.

특히 오늘날 휴대폰들은 “ubiquitous nanosensors”라고 불리우는 카메라 (눈), microphone (귀), touch screen (피부)를 통해 다음과 같은 다양한 차원의 데이터를 각 분야 (유통, 교통, 날씨, 지질, 자원, 관광 등) 에서 엄청난 규모로 만들어내고 있다.

  • Vibration
  • Tilt
  • Rotation
  • Navigation
  • Sound
  • Air flow
  • Light
  • Temperature
  • Biological
  • Chemical
  • Humidity
  • Pressure
  • Location

결국 앞으로의 경쟁력은 이렇게 빠른 속도로 증가하는 데이터를 realtime으로 처리하고 분석할 수 있는 능력에 달려있다고 할 수 있다.

Source:  The Coming Data Explosion

교통신호에도 세심한 분석이 필요하다

다음은 Gary Lauder가 2010년 TED에서 한 강연 동영상이다.   그는 일단정지 신호 때문에 교통사고가 많이 발생하고, 연료와 시간이 낭비되고, 대기 오염이 증가한다고 주장한다.    그의 분석이 재미있다.   간단히 정리했다.

  • 두 종류의 교차로가 있다.  일단정지 신호가 있는 곳과 없는 곳이 있다.   교통사고의 50%는 일단정지 신호가 있는 곳에서 발생한다.   일단정지 신호가 있는 교차로보다는 로타리가 더 안전하다.
  • 조사 분석에 의하면 일단정지 신호가 있는 교차로를 로타리로 바꾸면 충돌사고는 40%,  인명 사고는 76%, 치명적인 사고는 90% 감소하는 것으로 나타났다.
  • 로타리에서는 차가 완전히 서지 않기 때문에 가속을 덜하게 되어서, 연료소비와 대기 오염이감소한다.   매일 3천 대의 차량이 지나다니는 교차로에 일단정지 신호가 있으면,
    • 차량 한대당 멈추었다가 가속하는데에 2온스의 연료 (5센트)가 사용된다.    이를 3천대가 1년동안 지나다니는 것으로 환산하면, 5센트 * 3,000대 * 365일 = 5만1천달러가 추가로 소비된다.
    • 시간은?   차량 1대당 10초 정도 지연되기 때문에 시간당 $20로 환산하면,  10초 * 3000대 * 365일 *20달러/시간 = 6만달러나 된다.
  • 교차로를 로타리를 바꾸는 것은 많은 비용이 소요된다.   로타리로 바꾸지 않고 Yield (양보) 사인을 잘 활용하는 것을 고려해볼 필요가 있다.

관련 Post: