Google은 고서의 디지털화에도 Crowdsourcing을 적용한다

많은 사람들의 자발적인 노력을 이용하는 것을 Crowdsourcing이라고 한다.    이와 관련된 다양한 사례들을 아래 나열된 관련 Post들에서 소개했었다.     이번에 소개하는 또 하나의 재미있는 사례는 박재형군이 소개한 것으로,  Google이 도서관 서적들을 디지털화는 작업을 수행하는 과정에서 적용한 것이다.  

Google은 수많은 도서관 서적을 스캔하고 광학문자인식(OCR) 프로그램을 이용해서 스캔된 이미지에서 글자를 파악하고 디지털화하고 있는데,  이 과정에서 오래된 책은 글자 식별이 잘 되지 않는다는 문제가 발생하고 있다.    이런 식별이 잘 안되는 글자들을 식별하는 작업은 사람이 일일이 직접해야 하는데,  수백만 권을 대상으로 하는 작업이기 때문에 엄청난 시간과 비용이 필요하게 된다.   

Google은 이 작업을 CAPTCHA 로 해결하고 있다.  웹사이트들은 Spammer들이 만든 프로그램의 침투를 막기 위해 가입자가 가입을 신청할 때 아래 그림과 같은 CAPTCHA 이미지에 적힌 글자를 직접 입력하도록 요구하고 있다.   Google은 이 CAPTCHA에 이용되는 글자 이미지에 도서에서 OCR 프로그램이 해독하지 못하는 글자들을 사용함으로써, 웹사이트에 가입하려는 수많은 사람들로 하여금 자신들도 모르는 사이에 도서 이미지 해독 작업에 참여하도록 하고 있다.   이렇게 해서 하루 약 2천만 단어가 해독되고 있다고 한다.    이런 목적에 사용하기 위해 Google은 CAPTCHA를 개발한 회사를 인수한다고 한다.    역시 Google이다.

 5028054196

관련 Post:

Google은 고서의 디지털화에도 Crowdsourcing을 적용한다”에 대한 1개의 응답

  1. 생각지도 못한거네요! 구글이 아니라면 어느기업이 이렇게 Crowdsourcing을 사용했을까 싶어 절로 탄성하게 됩니다!

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중