(1)구글이란 무엇인가
(2)구글 검색 엔진의 특징
(3)구글 검색 엔진의 사용
2. 페이지 랭크(Page Rank) 알고리즘.
(1)페이지 랭크 알고리즘이란 무엇인가.
(2)웹 문서의 중요도.
3. 주요 구현 기술.
(1) 연결 URL 추출.
(2) URL/문서번호 변환.
(3) 상대/절대 URL 변환.
(4) 대소문자 구분
4. Page Rank 알고리즘의 적용.
(1) 구글이란 무엇인가.
구글(Google)은 1998년에 등장한 구글 검색 사이트(http://www.google.com)에 처음 소개된 검색 엔진으로 페이지 랭크 알고리즘을 사용한다. 이 페이지 랭크 알고리즘은 웹 문서들의 연결 구조에 기반하여 문서들간의 순위를 부여하는 방법이다. 페이지 랭크 알고리즘은 상용 검색 엔진에서 구현되어 사용되고 있으나, 상업상의 이유로 구현 기법에 관한 연구 결과는 거의 발표되지 않고 있다고 한다.
(2) 구글 검색엔진의 특징.
검색하는 사용자 입장에서 보면 원하는 자료는 가능한 모두 찾아내고 싶고 원하지 않는 자료는 최대한 찾아내고 싶지 않을 것이다. 즉 우리의 궁극적인 목표는 정보 욕구를 충족시키는 가장 적합한 자료를 빨리 찾아내는 데 있다. 정확한 검색에 앞서 생각해 볼 요소는 크게 다음과 같은 세 가지이다.
i)적합성 : 정보 속성 중에 가장 중요한 사항으로, 정보 전달자(구글 검색엔진)와 정보 입수자(최종 사용자) 사이에 얼마나 효과적인 의사 소통이 일어났는지를 평가하는 척도이다. 검색 질의어와 검색 결과로 얻은 자료가 일치할수록 적합성이 높다고 할 수 있다.
ii)재현율(recall ratio) 또는 민감도 : 시스템에 들어있는 전체 자료 중에서 사용자의 질의 결과 검색된 자료의 비율을 의미한다. 즉 적합한 자료를 얼마나 많이 검색했느냐를 나타내며, 재현율이 높을수록 시스템이 적합한 자료를 찾아내는 능력이 뛰어나다고 볼 수 있다.
iii)정확률(precision ratio) 또는 적합률 : 검색한 자료 중에서 적합한 자료의 비율을 의미한다. 이는 검색 정확성을 측정하는 기준이며, 정확률이 높을수록 시스템이 부적합한 자료를 검색하지 않는 능력이 뛰어나다.
여기서 한가지 고려할 사항이 있다. 재현율과 정확률은 반비례 관계에 있기 때문에 검색한 자료 숫자가 많아지면 많아질수록 적합 문헌은 많이 검색되지만, 반대로 부적합 문헌도 많이 포함되므로 정확률이 떨어지게 된다. 비록 구글 검색엔진이 탑재한 페이지 랭크 시스템을 사용해서 검색 결과 집합이 상당히 클 경우에도 가장 인기있는 자료를 우선적으로 순위를 높여서 보여주긴 하지만, 최종적으로는 사람이 적합성을 판단해야 하기에 검색 결과 집
[2] 김성진 등, “페이지랭크 알고리즘 적용을 위한 구현 기술”, [한국정보처리학회논문지],
제 9권 제 5호(2002), pp.745-754 .

분야