任何一個(gè)搜索引擎的目的就是更快速的響應(yīng)用戶的搜索,把滿足用戶需求的搜索結(jié)果反饋給搜索用戶。能否把與用戶檢索需求最相關(guān)的高質(zhì)量文檔納入結(jié)果排序的前面是衡量搜索引擎性能的關(guān)鍵技術(shù)之一。Google最成功的地方在于利用PageRank對Google排名結(jié)果排序,讓好的結(jié)果排在前面,從而提高了檢索質(zhì)量。
目前,不同的搜索引擎使用了不同的相關(guān)度排序方法。比較流行的有兩類:詞頻統(tǒng)計(jì)法,即網(wǎng)頁文檔中出現(xiàn)查詢詞的頻率越高,其排序就越靠前;超鏈接分析法,即一個(gè)網(wǎng)頁被鏈接的次數(shù)越多而且鏈接的站點(diǎn)越權(quán)威就說明此網(wǎng)頁的質(zhì)量越高。此外,還有點(diǎn)擊率法,即網(wǎng)頁被點(diǎn)擊的次數(shù)越多,相關(guān)度越高;付費(fèi)競價(jià)法,以網(wǎng)站付費(fèi)的多少來決定排序前后。
1.詞頻統(tǒng)計(jì)法
詞頻統(tǒng)計(jì)法也就是向量空間模型采用的相似度計(jì)算方法。許多搜索引擎都以索引項(xiàng)的詞頻和位置作為相關(guān)度的判定標(biāo)準(zhǔn),采用前述的詞頻加權(quán)方法來計(jì)算相關(guān)度。一個(gè)詞在網(wǎng)頁文檔中出現(xiàn)的頻率越高,它代表該文檔主題的程度就越大,其作為索引項(xiàng)的準(zhǔn)確性也就越高,權(quán)值就越大。在與查詢詞匹配時(shí),它所代表的文檔與查詢請求的相關(guān)度就越高。除詞頻外,一個(gè)詞在文檔中的位置也對索引器選詞和計(jì)算詞的權(quán)值產(chǎn)生影響。例如在網(wǎng)頁title標(biāo)簽、鏈點(diǎn)標(biāo)簽、Meta keyword標(biāo)簽、Meta description標(biāo)簽中選詞并按詞頻計(jì)算權(quán)值時(shí),或索引項(xiàng)出現(xiàn)在網(wǎng)頁標(biāo)題、文章前幾段、段首等位置時(shí),其權(quán)值會(huì)加大。雖然大多數(shù)搜索引擎都以詞頻和詞的位置來計(jì)算相關(guān)度,但在細(xì)節(jié)上又各有不同。在計(jì)算網(wǎng)頁的相關(guān)度時(shí),其中各詞的關(guān)系和詞間的相對位置也是影響因素。網(wǎng)頁中各詞的相互距離越近則結(jié)果排序越靠前。以詞頻和詞位置計(jì)算相關(guān)度的方法是較為客觀準(zhǔn)確的,它是應(yīng)用最為廣泛也是最成熟的方法,各大搜索引擎迄今仍以它作為計(jì)算相關(guān)度的基本方法。但它較易為人利用來實(shí)現(xiàn)不良競爭,輕易地把其網(wǎng)頁設(shè)計(jì)修改成“含有關(guān)鍵詞的網(wǎng)頁”,從而在搜索引擎結(jié)果中排在前面。這使搜索引擎結(jié)果的客觀性和準(zhǔn)確性受到侵害,檢索的查準(zhǔn)率受到影響。各大搜索引擎于是實(shí)施了各種反操縱技術(shù)和懲罰措施,特別是在網(wǎng)頁本身之外另辟蹊徑,尋找相關(guān)度的判定標(biāo)準(zhǔn),其中最主要的就是下面所述的鏈接分析法。
2.鏈接分析法
面對網(wǎng)絡(luò)這個(gè)新的環(huán)境,必須使用新的排序技術(shù)才能達(dá)到較好的檢索效果。由此,基于超鏈分析的各種排序算法被搜索引擎界提出。絕大部分超鏈分析算法都有共同的出發(fā)點(diǎn):更多地被其他頁面鏈接的頁面是質(zhì)量更好的頁面,并且從更重要的頁面出發(fā)的鏈接有更大的權(quán)重。最著名的鏈接分析法是Brin.s和Page.L于1998年提出并應(yīng)用到Google搜索引擎中的PageRank,以及IBM用于CLEVER搜索引擎的HITS(Hypertext InducedTopic Selection)。