我首先來介紹下搜索引擎發(fā)展的過程和趨勢(shì),搜索引擎整個(gè)的分成三個(gè)部分,第一個(gè)是信息收集(Crawler),第二是信息索引(Indexer),第三部分是信息查詢(Querier)。整個(gè)的搜索引擎發(fā)展的歷史,就是這三個(gè)歷史的演變。最早的搜索引擎是雅虎的搜索引擎,雅虎的時(shí)候可以說信息收集靠的是人工,由用戶自己收集網(wǎng)址,那時(shí)候就是一個(gè)網(wǎng)址的收集和展示,后來通過自動(dòng)化方式查詢網(wǎng)頁,使整個(gè)的搜索過程變得比較快。
后來隨著信息的爆炸,大家對(duì)搜索引擎的關(guān)注程度越來越高。最初的算法非常的簡(jiǎn)單,直到Google出現(xiàn)。Google當(dāng)時(shí)提出了Page Rank的算法,這在搜索行業(yè)是個(gè)突破。那時(shí)候Google的運(yùn)算速度非常慢,信息的索引建立得不夠完善,查詢速度是一秒到兩秒,2000年的時(shí)候,Google做了大規(guī)模的技術(shù)改進(jìn),整個(gè)系統(tǒng)大幅度提高,Google跟雅虎正式建立合作。
后來發(fā)展的歷史,一方面是在信息收集部分盡量多的收集信息,后來是盡量的使查詢過程加快,在查詢上算法不斷的優(yōu)化。
搜索引擎整個(gè)大方向的改進(jìn),基本上離不開這三個(gè)領(lǐng)域。前不久百度發(fā)布的阿拉丁計(jì)劃,主要是在信息收集的層面,加大了信息收集廣度。互聯(lián)網(wǎng)最開始的時(shí)候是一個(gè)靜態(tài)的網(wǎng)頁,后來出現(xiàn)了動(dòng)態(tài)的網(wǎng)頁,我對(duì)阿拉丁字面的理解,就是把動(dòng)態(tài)頁面的整理更廣了,不光是動(dòng)態(tài)網(wǎng)頁,還包括網(wǎng)頁背后的數(shù)據(jù)庫,感覺往這方面走,能把所有的信息收集到它的系統(tǒng)里。
這塊對(duì)互聯(lián)網(wǎng)也是一個(gè)挑戰(zhàn),信息的內(nèi)容越來越多,通過什么樣的渠道和方式,把這些信息從各個(gè)企業(yè)、網(wǎng)站,私有庫里面匯總到總的搜索引擎的大系統(tǒng)里,這個(gè)是一個(gè)挑戰(zhàn),百度在往這方面走。
信息的索引也有大的發(fā)展,當(dāng)前的整個(gè)的信息索引停留在文字索引的基礎(chǔ)上,不管是互聯(lián)網(wǎng)搜索圖片、錄像,最終還是環(huán)繞文字,沒有能力去把圖片和錄像能力分解下來。如果分解下來,我查一個(gè)人可能不是從文字,而是把這個(gè)人真正的錄像提取下來,通過錄像進(jìn)行查找,現(xiàn)在處再一個(gè)比較初步的階段,整個(gè)的互聯(lián)網(wǎng)對(duì)文字的檢索功能是一個(gè)完善的階段,對(duì)于圖片是剛剛的初步,對(duì)于錄像,現(xiàn)在還沒有特別有效的辦法,我想這是以后大家發(fā)展的方向。
另外,在搜索的信息查詢方面,也有很多提高的方面,一個(gè)是查詢的個(gè)性化,一個(gè)是查詢的互動(dòng)性。從整個(gè)的研發(fā)來講,在個(gè)性化的搜索上已經(jīng)是走出了很遠(yuǎn),Google在04年收購了一家公司,現(xiàn)在做的是革新化的PageRank算法,有一點(diǎn)個(gè)性化的東西。但是完全的個(gè)性化需要更大的演算量,現(xiàn)在很多公司面臨很大的挑戰(zhàn),未來應(yīng)該有所突破。
還有互動(dòng)性。當(dāng)你不知道的時(shí)候,搜索引擎可以給你一些互動(dòng),互動(dòng)的過程中,更好的了解你的需求,給你更準(zhǔn)確的一些結(jié)果,這方面也是搜索引擎發(fā)展的一個(gè)方向。總的來講 99年以前,大家使用搜索引擎普遍不滿意。之后隨著Google的出現(xiàn)和技術(shù)的普及,整個(gè)搜索引擎使用的滿意度得到很大的提高。現(xiàn)在大家對(duì)各個(gè)搜索引擎的感受不錯(cuò),用戶的滿意度提高了很多,搜索引擎似乎進(jìn)入了一個(gè)平臺(tái)期,大家都走到一個(gè)蠻成熟的階段了。
從我個(gè)人看,搜索引擎可能未來有很多突破的機(jī)會(huì),畢竟搜索引擎還是圍繞著99年、2000年時(shí)的市場(chǎng)環(huán)境制造的。一個(gè)明顯的特點(diǎn):大家面對(duì)是一個(gè)索搜框,這樣一個(gè)界面不是很好的人機(jī)交互界面,但這是當(dāng)時(shí)的互聯(lián)網(wǎng)環(huán)境決定的。對(duì)信息加以分析理解,包括更好的人機(jī)交互,個(gè)性化理解,搜索引擎在這幾方面有很多突破的機(jī)會(huì)。我個(gè)人覺得未來有可能大家不叫它搜索引擎,但是可以幫助大家更好的找到需要的信息。