I. 검색의 탄생
1994년 스텐포드 대학원생이던 제리 양과 그의 친구 데이빗 필로는 "제리의 인터넷 가이드 (Jerry's Guide to the World Wide Web)"라는 사이트를 열었습니다. 당시 새로 생겨난 인터넷은 어디로 가야 무엇을 얻을 수 있는 지 알 방법이 없었는데, 다양한 사이트에 대해 정리해 놓은 제리의 홈페이지 (나중에 야후로 이름을 바꿈)는 인터넷 사용자들에게 지도 같은 역할을 했죠.
웹서핑에 밤새는 줄 모르던 제리 양이 손수 찾아낸 링크를 모은 야후 사이트는 한동안 제리 앵의 정신을 이어받아 모든 홈페이지를 수작업으로 분류하였습니다. 이는 인터넷 홈페이지가 얼마 안되던 시절이라 가능한 일이었죠.
(96년판 야후 홈페이지. 매우 간결하다)
II. 기계 검색의 시대
수작업 분류로 홈페이지를 찾는 방식을 검색 1세대로 보자면, 검색 2세대는 컴퓨터가 홈페이지를 자동으로 분류하는 방식입니다. 비운의 검색엔진 알타비스타가 그 대표주자인데, 알타비스타는 당시 존재하던 대부분의 웹페이지를 검색해 사융자가 원하는 단어가 나오는 홈페이지를 연결해 주었습니다. 이는 당시로는 대단히 앞선 검색기술이었죠. 불행하게도 알타비스타는 시대를 잘못만나 닷컴 버블이 터진 후 주식공개를 하려다가 못하고, 이도저도 아닌, 흐지부지 사이트로 전락하고 말았습니다.
(96년도 알타비스타 홈페이지. 디자인이 정확히 90년대 스타일이다)
알타비스타는 많은 문서를 찾아주었지만, 어느 문서가 더 중요한지를 잘 판단하지 못하였습니다. 예를 들어, White House라는 표현을 검색했을 때, 검색자가 찾고자 하는 표현과 어느 홈페이지가 매치하는지 어떻게 판단할까요? 알타비스타는 이러한 표현이 많이 나온 홈페이지가 중요하다고 판단하였지만, 그렇다면 White House라는 표현을 무조건 많이 넣은 홈페이지는 실제로 White House와 관계가 없다고 하더라도 가장 중요한 홈페이지처럼 보이지 않겠습니까?
이러한 기계적 검색의 약점을 피하기 위해 레리 페이지와 세르게이 브린은 페이지의 중요도를 평가하는 알고리즘을 개발하고 이를 적용한 검색엔진을 시작합니다. 바로 구글이지요. 구글은 어떤 페이지가 검색어를 많이 포함한다고 중요하다고 보는 것이 아니라, 외부에서 많은 사이트가 링크하는 사이트는 중요한 사이트로 판단하고, 외부에서 링크가 적게 된 사이트는 중요하지 않다고 판단하는 방식으로 사이트의 순위를 매깁니다. 이러한 순위를 바탕으로 검색자의 의도에 맞는 사이트를 찾아주지요. 구글의 방식은 기계적 검색이면서도 기계적 검색의 약점을 피한 2.5세대 방식이라고 할 수 있겠네요 (세대별 분류는 설명을 돕기 위해 제가 임의로 정하였습니다).
2세대가 2.5세대로 발전하였듯, 수작업 중심의 1세대도 1.5세대로 발전합니다. 즉, 부분적으로 수작업을 거치되, 많은 부분은 기계적 검색을 도입한 것이지요. 네이버나 야후가 그런 예입니다. 예를 들어 네이버에서 검색한 결과는 대부분 기계적 검색 결과이지만, 잘 보면 중요한 몇 부분 (예를 들어 맨 위에 특별히 나오는 한 칸)은 단지 웹페이지를 분석한 결과가 아니라, 그 단에가 나오면 뜨도록 설정해 놓은 수작업의 결과입니다. 즉, 많은 소비자가 원하는 부분은 수작업으로 처리하고, 그렇지 않은 부분은 기계적 검색 결과를 보여주는 것이지요.
제가 1.5세대, 2.5세대 등의 표현을 썼지만, 이는 편의를 위한 표현이지 2.5세대가 꼭 1.5세대 보다 더 나은 서비스라는 뜻은 아닙니다. 1.5세대의 강점은 기계적 검색에 인간의 편집을 합하였기에 소비자에게 딱 맞는 서비스를 제공할 수 있습니다. 따라서 수작업 명품이 대량생산한 제품보다 더 비싸듯, 1.5세대가 2.5세대보다 더 나은 서비스일 수도 있습니다. 하지만 수작업을 너무 많이 하다 보면, 이게 IT 산업인지, 후진국형 단순노동 산업인지 구분이 안가게 됩니다. 예를 들어 Mahalo는 "본격 수작업 검색"을 지향하는 사이트인데, 이런 사이트가 사업엔 성공할 수 있을찌 몰라도, 90년대의 야후로 돌아온 듯한 느낌을 지우기는 힘들죠.
III. 모두가 참여하는 검색
2.5세대는 기계적 검색의 약점을 많이 극복하였지만, 기계가 행하는 검색이라는 근본적인 제한을 넘어서지는 못합니다. 예를 들어, 어떤 사람이 한나라당에 대한 비난을 담은 글을 썼어도, 글 자체에는 "비난"이라는 표현이 들어가지 않을 수 있습니다. 그런데 기계는 글 속에 포함된 단어만 인식하지, 글의 요지나 분위기는 파악하지 못하기 때문에 "한나라당 비난" 이라는 검색에 이 글은 나오지 않습니다. 하지만 문서를 읽은 사람이 글의 핵심을 태그 (이 경우는 "한나라당, 비난")로 정리하고, 나중에 태그만 검색한다면 "한나라당 비난"이라는 표현으로 원하는 글을 쉽게 찾겠지요. 단, 이러한 검색은 하나의 회사가 직원을 통해 하기엔 너무 분량이 많고, 일반 인터넷 사용자가 자발적으로 참여할 때만 가능합니다. 이러한 검색이 바로 외국의 웹 2.0 사이트에서 쉽게 볼 수 있는 3세대 검색이지요.
델리셔스는 이러한 새로운 검색의 좋은 예입니다. 엄밀히 말해 델리셔스는 검색 사이트는 아니지만, 영어 사이트를 찾는데는 웬만한 검색엔진만한 역할을 해냅니다. 델리셔스는 사용자가 인터넷을 돌아다니다가 흥미로운 사이트를 만났을 때 북마크를 하는 방식이지요. 따라서 델리셔스에 등록된 사이트는 모두 누군가가 매력을 느낀 사이트입니다. 그리고 각 사이트를 태그로 분류했기에 본문에 나오지 않는 글의 주제나 분위기가 태그에 나온다면 찾아낼 수 있지요. 앞으로는 이러한 소셜웹 사이트들이 구글이나 야후 같은 전통적 검색 사이트 처럼 검색용으로 활용될 가능성이 크다고 봅니다 (단, 범용 검색보다는 사진은 플록커, 인터넷 기사는 디그 처럼 특정한 분야는 특정한 사이트를 이용하는 방식으로 발전하겠죠).
(델리셔스 첫화면. 태그에 대한 강조를 볼 수 있다)
좀 아쉬운 사실은 한국에 델리셔스 같은 소셜 웹 사이트가 잘 발달하지 않았다는 점입니다. 델리셔스를 비롯한 태그와 사용자의 능동적인 참여가 필요한 웹 2.0 사이트가 미국에 등장하면서 한국에도 그와 유사한 움직임이 있었는데, 지금은 많이 정체된 느낌입니다. 그나마 외국의 웹 2.0 사이트에 가까운 것은 올블로그 같은 메타 사이트죠. 앞으로 한국에서도 소셜 웹 사이트가 더욱 발전하길 기대합니다.
IV. 인공지능의 도래
자, 그렇다면 앞으로 검색엔진은 어떤 방향으로 발전할까요? 현재 나온 기술을 바탕으로 상상한다면, 인공지능을 이용한 검색이 발전할 가능성이 큽니다.
구글 이미지 검색에서 허경영 으로 검색해보면, 대부분 허경영씨 사진이 뜨긴 하는데, 가끔 전혀 다른 사람의 얼굴도 보입니다. 이는 검색엔진이 사진을 인식하지 못하고 사진에 붙은 태그나 본문만 기준으로 검색하기 때문입니다. 지금까지는 이러한 검색오류를 당연하다고 여겼지만, 컴퓨터가 인간의 얼굴을 정확히 판단할 수 있다면 이런 문제는 피할 수 있겠지요.
사실 사람의 얼굴을 인식하는 기술에 대한 연구는 이미 활발하게 진행중이고, 실제로 그러한 연구를 체험할 수 있는 사이트도 몇 곳 있습니다. 예를 들어, Face Search on the Web라는 사이트에 가면 사진을 올려주면 비슷한 사진을 찾아 줍니다.
실험삼아 제 사진을 넣어 본 결과...

이름 모를 할아버지와 봉태규 ㅠ.ㅠ 역시 4세대 검색은 먼 미래의 일이군요.
어쨌든 인공지능을 통한 4세대 검색이 언젠가 실용화 된다면, 사람의 사진으로 그 사람이 들어간 인터넷 내의 모든 사진을 다 찾아볼 수 있겠죠 (그렇게 되면 정말 죄 짓고는 못사는 세상이 되겠지요). 또한 사람의 문체를 분석해 그 사람이 쓴 것 같은 글은 다 찾아볼 수도 있을테니, 내 글을 누가 퍼가도 금방 찾아낼 수 있고, 정치 지도자들도 어디에 어떤 글을 기고했었는지 금새 확인할 수 있겠죠.
검색 엔진은 지난 10여년간 대단한 발전을 이루었고, 앞으로도 무한한 발전이 기대되는 분야입니다. 앞으로 세상을 놀라게 할 어떤 검색 기술이 나올찌 기대가 됩니다.
이 블로그를 Hanrss에서 구독하세요--> 
1994년 스텐포드 대학원생이던 제리 양과 그의 친구 데이빗 필로는 "제리의 인터넷 가이드 (Jerry's Guide to the World Wide Web)"라는 사이트를 열었습니다. 당시 새로 생겨난 인터넷은 어디로 가야 무엇을 얻을 수 있는 지 알 방법이 없었는데, 다양한 사이트에 대해 정리해 놓은 제리의 홈페이지 (나중에 야후로 이름을 바꿈)는 인터넷 사용자들에게 지도 같은 역할을 했죠.
웹서핑에 밤새는 줄 모르던 제리 양이 손수 찾아낸 링크를 모은 야후 사이트는 한동안 제리 앵의 정신을 이어받아 모든 홈페이지를 수작업으로 분류하였습니다. 이는 인터넷 홈페이지가 얼마 안되던 시절이라 가능한 일이었죠.
II. 기계 검색의 시대
수작업 분류로 홈페이지를 찾는 방식을 검색 1세대로 보자면, 검색 2세대는 컴퓨터가 홈페이지를 자동으로 분류하는 방식입니다. 비운의 검색엔진 알타비스타가 그 대표주자인데, 알타비스타는 당시 존재하던 대부분의 웹페이지를 검색해 사융자가 원하는 단어가 나오는 홈페이지를 연결해 주었습니다. 이는 당시로는 대단히 앞선 검색기술이었죠. 불행하게도 알타비스타는 시대를 잘못만나 닷컴 버블이 터진 후 주식공개를 하려다가 못하고, 이도저도 아닌, 흐지부지 사이트로 전락하고 말았습니다.
알타비스타는 많은 문서를 찾아주었지만, 어느 문서가 더 중요한지를 잘 판단하지 못하였습니다. 예를 들어, White House라는 표현을 검색했을 때, 검색자가 찾고자 하는 표현과 어느 홈페이지가 매치하는지 어떻게 판단할까요? 알타비스타는 이러한 표현이 많이 나온 홈페이지가 중요하다고 판단하였지만, 그렇다면 White House라는 표현을 무조건 많이 넣은 홈페이지는 실제로 White House와 관계가 없다고 하더라도 가장 중요한 홈페이지처럼 보이지 않겠습니까?
이러한 기계적 검색의 약점을 피하기 위해 레리 페이지와 세르게이 브린은 페이지의 중요도를 평가하는 알고리즘을 개발하고 이를 적용한 검색엔진을 시작합니다. 바로 구글이지요. 구글은 어떤 페이지가 검색어를 많이 포함한다고 중요하다고 보는 것이 아니라, 외부에서 많은 사이트가 링크하는 사이트는 중요한 사이트로 판단하고, 외부에서 링크가 적게 된 사이트는 중요하지 않다고 판단하는 방식으로 사이트의 순위를 매깁니다. 이러한 순위를 바탕으로 검색자의 의도에 맞는 사이트를 찾아주지요. 구글의 방식은 기계적 검색이면서도 기계적 검색의 약점을 피한 2.5세대 방식이라고 할 수 있겠네요 (세대별 분류는 설명을 돕기 위해 제가 임의로 정하였습니다).
2세대가 2.5세대로 발전하였듯, 수작업 중심의 1세대도 1.5세대로 발전합니다. 즉, 부분적으로 수작업을 거치되, 많은 부분은 기계적 검색을 도입한 것이지요. 네이버나 야후가 그런 예입니다. 예를 들어 네이버에서 검색한 결과는 대부분 기계적 검색 결과이지만, 잘 보면 중요한 몇 부분 (예를 들어 맨 위에 특별히 나오는 한 칸)은 단지 웹페이지를 분석한 결과가 아니라, 그 단에가 나오면 뜨도록 설정해 놓은 수작업의 결과입니다. 즉, 많은 소비자가 원하는 부분은 수작업으로 처리하고, 그렇지 않은 부분은 기계적 검색 결과를 보여주는 것이지요.
제가 1.5세대, 2.5세대 등의 표현을 썼지만, 이는 편의를 위한 표현이지 2.5세대가 꼭 1.5세대 보다 더 나은 서비스라는 뜻은 아닙니다. 1.5세대의 강점은 기계적 검색에 인간의 편집을 합하였기에 소비자에게 딱 맞는 서비스를 제공할 수 있습니다. 따라서 수작업 명품이 대량생산한 제품보다 더 비싸듯, 1.5세대가 2.5세대보다 더 나은 서비스일 수도 있습니다. 하지만 수작업을 너무 많이 하다 보면, 이게 IT 산업인지, 후진국형 단순노동 산업인지 구분이 안가게 됩니다. 예를 들어 Mahalo는 "본격 수작업 검색"을 지향하는 사이트인데, 이런 사이트가 사업엔 성공할 수 있을찌 몰라도, 90년대의 야후로 돌아온 듯한 느낌을 지우기는 힘들죠.
III. 모두가 참여하는 검색
2.5세대는 기계적 검색의 약점을 많이 극복하였지만, 기계가 행하는 검색이라는 근본적인 제한을 넘어서지는 못합니다. 예를 들어, 어떤 사람이 한나라당에 대한 비난을 담은 글을 썼어도, 글 자체에는 "비난"이라는 표현이 들어가지 않을 수 있습니다. 그런데 기계는 글 속에 포함된 단어만 인식하지, 글의 요지나 분위기는 파악하지 못하기 때문에 "한나라당 비난" 이라는 검색에 이 글은 나오지 않습니다. 하지만 문서를 읽은 사람이 글의 핵심을 태그 (이 경우는 "한나라당, 비난")로 정리하고, 나중에 태그만 검색한다면 "한나라당 비난"이라는 표현으로 원하는 글을 쉽게 찾겠지요. 단, 이러한 검색은 하나의 회사가 직원을 통해 하기엔 너무 분량이 많고, 일반 인터넷 사용자가 자발적으로 참여할 때만 가능합니다. 이러한 검색이 바로 외국의 웹 2.0 사이트에서 쉽게 볼 수 있는 3세대 검색이지요.
델리셔스는 이러한 새로운 검색의 좋은 예입니다. 엄밀히 말해 델리셔스는 검색 사이트는 아니지만, 영어 사이트를 찾는데는 웬만한 검색엔진만한 역할을 해냅니다. 델리셔스는 사용자가 인터넷을 돌아다니다가 흥미로운 사이트를 만났을 때 북마크를 하는 방식이지요. 따라서 델리셔스에 등록된 사이트는 모두 누군가가 매력을 느낀 사이트입니다. 그리고 각 사이트를 태그로 분류했기에 본문에 나오지 않는 글의 주제나 분위기가 태그에 나온다면 찾아낼 수 있지요. 앞으로는 이러한 소셜웹 사이트들이 구글이나 야후 같은 전통적 검색 사이트 처럼 검색용으로 활용될 가능성이 크다고 봅니다 (단, 범용 검색보다는 사진은 플록커, 인터넷 기사는 디그 처럼 특정한 분야는 특정한 사이트를 이용하는 방식으로 발전하겠죠).
좀 아쉬운 사실은 한국에 델리셔스 같은 소셜 웹 사이트가 잘 발달하지 않았다는 점입니다. 델리셔스를 비롯한 태그와 사용자의 능동적인 참여가 필요한 웹 2.0 사이트가 미국에 등장하면서 한국에도 그와 유사한 움직임이 있었는데, 지금은 많이 정체된 느낌입니다. 그나마 외국의 웹 2.0 사이트에 가까운 것은 올블로그 같은 메타 사이트죠. 앞으로 한국에서도 소셜 웹 사이트가 더욱 발전하길 기대합니다.
IV. 인공지능의 도래
자, 그렇다면 앞으로 검색엔진은 어떤 방향으로 발전할까요? 현재 나온 기술을 바탕으로 상상한다면, 인공지능을 이용한 검색이 발전할 가능성이 큽니다.
사실 사람의 얼굴을 인식하는 기술에 대한 연구는 이미 활발하게 진행중이고, 실제로 그러한 연구를 체험할 수 있는 사이트도 몇 곳 있습니다. 예를 들어, Face Search on the Web라는 사이트에 가면 사진을 올려주면 비슷한 사진을 찾아 줍니다.
실험삼아 제 사진을 넣어 본 결과...
이름 모를 할아버지와 봉태규 ㅠ.ㅠ 역시 4세대 검색은 먼 미래의 일이군요.
어쨌든 인공지능을 통한 4세대 검색이 언젠가 실용화 된다면, 사람의 사진으로 그 사람이 들어간 인터넷 내의 모든 사진을 다 찾아볼 수 있겠죠 (그렇게 되면 정말 죄 짓고는 못사는 세상이 되겠지요). 또한 사람의 문체를 분석해 그 사람이 쓴 것 같은 글은 다 찾아볼 수도 있을테니, 내 글을 누가 퍼가도 금방 찾아낼 수 있고, 정치 지도자들도 어디에 어떤 글을 기고했었는지 금새 확인할 수 있겠죠.
검색 엔진은 지난 10여년간 대단한 발전을 이루었고, 앞으로도 무한한 발전이 기대되는 분야입니다. 앞으로 세상을 놀라게 할 어떤 검색 기술이 나올찌 기대가 됩니다.
'기술, 장비' 카테고리의 다른 글
| 컴퓨터 산업을 바꾸어 놓은 애플의 혁신 다섯 가지 (22) | 2007/12/13 |
|---|---|
| MS, Zune으로 iPod 이기기엔 아직 멀었다 (22) | 2007/12/07 |
| 미니홈피 지고 블로그 뜬 이유 (26) | 2007/12/03 |
| 한국에서 블로그로 생활비를 벌 수 있을까? (11) | 2007/12/01 |
| 인터넷 검색엔진 진화의 역사 (0) | 2007/11/30 |
| 네이버와 구글의 검색 철학 비교 (14) | 2007/11/29 |


이올린에 북마크하기
이올린에 추천하기

