[TED] Massive Online Collaboration

글쓴이
UMakeMeHigh
등록일
2011-12-10 07:28
조회
4,657회
추천
1건
댓글
5건
http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration.html

오랜만에 TED에 들어가봤더니, 재미있는 동영상이 있네요..

간단히 요약하자면,

구글같은 온라인 사이트 가입하거나 파일 다운로드 받을 때,
프로그램에 의한 남용을 막기 위해 사람임을 확인하는 절차가 있습니다.
컴퓨터가 인식 불가능한 이미지의 글자를 그대로 입력함으로서 인간임을 증명을 하는 것이죠.
(솔직히 귀찮기는 하지만 필요한 것이려니 하고 순순히 입력해 왔었죠.)

프리젠터는 그걸 발명한 사람인데,
그 기능으로 하루에 인류가 소비하는 시간이 엄청나다는 것을 알게 되서 ( 하루 2억건 X 건당 10초)
비효율적이라는 것을 느끼고.. 도서관의 책들을 전자화 하는 일에 주목하게 됩니다.

오래된 책들은 바래고 글자가 흐려서 글자인식프로그램을 통한 인식률이 높지 않은데..
그걸 사람을 써서 전자화 하는 일은 막대한 돈이 들게 되겠지요. 그런데 글자인식이 불가능한
단어들을 위의 기능(사람임을 필터링하는)을 이용하면, 정말 돈 들이지 않고, 막대한 정보를 얻을 수 있는 일석2조의 효과가 납니다.

여기게 그치지 않고, 웹페이지를 여러 언어로 번역하는 일도 대중의 힘을 빌리게 됩니다.
(위키 스페인어 버전의 양은 영어 버전의 20% 정도라고 합니다)
언어 공부 사이트를 만들어서, 처음에는 단어를 해석하는 식으로 공부를 하는 학생이
레벨이 오르면 문장을 해석하게 하고, 그런 여러 사람의 해석을 모아서 전체 웹페이지를 다른 언어로
완성한다는 아이디어 인데요..

이 동영상을 보자마자 그 기발함에 무릎을 치게 되었습니다. 이것이 진짜 비지니스 모델이구나 싶네요.
동영상을 전체 보시면, 이런 비전문가 집단의 오입력을 막기 위한 장치도 있고, 이런 저런 흥미있는
내용이 많이 있습니다.
 
  • 아나로그의추억 ()

      재미있는 비디오입니다. 기술이 새로운 비즈니스를 만드는 핵심적인 자원이라는 것을 이해할 수 있습니다.

    관심있는 분들은 비즈니스위크 기사,

    <a href=http://www.businessweek.com/innovate/content/nov2008/id2008113_656340.htm target=_blank>http://www.businessweek.com/innovate/content/nov2008/id2008113_656340.htm</a>
     
    과학재단 특별 리포트를 읽어보시기 바랍니다.
    <a href=http://www.nsf.gov/news/special_reports/voices/luis_von_ahn.jsp target=_blank>http://www.nsf.gov/news/special_reports/voices/luis_von_ahn.jsp</a>

  • feeling ()

      첨에 무슨 말인지 이해를 못했는데, 이거군요.
    무의미한 글자들 똑같이 타이핑하는 것으로 인증절차로 하지 말고,
    번역이 필요한 고서등의 자료를 잘게 나눠서
    번역+타이핑하는걸로 인증절차를 대체해보자는 거죠?
    실효성이 있을지는 모르겠네요.. 사람마다 변역하는 방법도
    다 다르고 용어도 번역하는 방법이 다를 수 있어서
    중구난방 무슨 말 뜻인지 이해 못하는 상황이 올 수도....

  • UMakeMeHigh ()

      feeling//

    제가 기억에 의존해서 쓰다보니 좀 맥락이 섞여서 해석되게 쓴 모양입니다.
    두 개는 다른 프로젝트에요
    - 인간 인증을 무의미한 글자 따라치게 하는 것이 아니라 책 스캔시
      컴터가 해석못하는 단어를 입력하게 하는 것
    - 웹페이지 번역을 외국어 공부사이트를 이용해서 대중을 이용하는 것

    시뮬레이션 해 본 결과 승산이 있다고 본 모양입니다. 실제 전문 번역가의 번역도 포함시키고. 여러 사람의 번역을 모아서 만들면
    높은 수준의 번역은 아니더라도 맥락은 이해할 만한 수준은 되지 않을까 싶숩니다. 번역기 돌리는 것보다는 수준이 높다고 생각하는 것 같습니다.

  • Za쿠라 ()

      UMakeMeHigh//

    두번째는 웹페이지 같은 인터페이스 구축이 문제인것 같군요.

     첫번째는 궁금한것이 실제로 타이핑 하는 것이 사람인 것을 어떻게 확인하나요? 그러니까 예를 들어 희미하게 'feel' 이라고 보이는 것을 peel이라고 써도 컴퓨터는 그것을 검증하지 못하지 않나요?

  • UMakeMeHigh ()

      영상에 따르면 사용자는 두 개의 단어를 따라서 입력하도록 요구받는데
    한 단어는 기존 DB에 저장된 것으로 입력한 값이 맞게 입력되었는지 검증이 가능한 것이고
    또 다른 한 단어가 컴퓨터가 인식 못하는 값이죠..

    두 단어중 어느 단어가 기존에 등록된 값인지는 입력자는 모르므로
    사용자는 두 단어 모두 되도록 그대로 적으려고 노력하겠죠.

    시뮬레이션 해 본 결과 이방식으로도 입력 결과가 믿을만하다고 생각하는거 같기는 한데..
    추가적으로 제 의견을 덧붙이면

    애초에 컴터가 인식 못하는 글자이므로 컴퓨터 자체는 입력받은
    값을 검증할 방법이 없습니다.

    대신에 사람의 집단지성의 모집단을 늘리면 신뢰성이 높아지리라 봅니다.
    동일 단어를 여러 사람이 입력하도록 해서, 예를 들면 같은 단어를
    10명이 입력하게 하여 7명 이상이 동일하게 입력하였다면...
    맞는 입력값으로 간주하고, 70%가 넘는 답이 안나온다거나 하면... 그런 것들을 모아서
    전문가가 입력하도록 한다면... 보완이 되지 않을까요?

     



펀글토론방

게시판 리스트
번호 제목 글쓴이 등록일 조회 추천
7639 민태기박사 글, 태극기 휘날리며 묵공 12-30 923 0
7638 비겁하고 책임감 없는 미국의 어른들 (경찰 포함) 시간 05-10 1287 0
7637 이영훈의 왜곡을 영어책 한방으로 보낸 이민진 댓글 1 시간 04-26 1305 0
7636 방역을 못했다고 왜곡하는 ... 댓글 1 리영희 02-22 1308 0
7635 피를 토한다는 류근일 글을 보고 시간 01-31 1304 0
7634 찰지고 통쾌한 욕설 - 줄리아 가너 (배우) 시간 01-26 1491 0
7633 내기를 한번 해보면 어떨까? 시간 01-24 1192 0
7632 삼프로 티비 - 안철수 편 (이공계 출신) 리영희 01-05 1415 0
7631 부동산 허영심만 부추기는 말도 안되는 기사 리영희 12-03 1347 0
7630 Olympic 메달의 의미 - 하형주 리영희 11-23 1338 0
7629 donga- 패배자 입장에 있는 시각의 기사 시간 11-11 1372 0
7628 쭝앙- 왜곡된 오이시디 2000-2060 경제 보고서 댓글 1 시간 11-09 1486 0
7627 남의 딸 성적표 리영희 09-01 1713 0
7626 Atlanta spa 총기 사건: 명복 빕니다 리영희 03-21 1807 0
7625 가디언십 익스플로이테이션 리영희 06-26 2587 0
7624 2015년에 본 2020 년? 리영희 06-11 2136 0
7623 수 초내 코로나 바이러스 검출하면 좋겠으나 묵공 05-20 2175 0
7622 n번방 방지법 어떻게 생각하세요? 나루토 05-12 2196 0
7621 삼성바이오 관련 보스톤 "바이오젠", 슈퍼전파자로 시간 04-14 2183 0
7620 코로나 검체 취합 검사법이 널리 쓰이게 될까? 댓글 2 묵공 04-10 2596 0


랜덤글로 점프
과학기술인이 한국의 미래를 만듭니다.
© 2002 - 2015 scieng.net
모바일 버전으로 보기