搜索引擎狼煙再起
2home.co
楊惟雯
如果一定要把互聯網比做商場,那搜索引擎就是導購,瀏覽器是你逛商場的鞋子,鞋子有很多牌子,如IE、Firefox、Safari、Opera、Chrome…等。
一、搜尋引擎的定義
搜索引擎是一個網站,通過一定的演算法,自動從網際網路搜集資訊,經分類整理後,提供給用戶進行查詢,類似于資料索引的資料庫網站。
網際網路上的資訊浩瀚萬千,且毫無秩序,就像汪洋上的一個個小島,網頁鏈結是這些小島之間縱橫交錯的橋樑,而搜索引擎則在為用戶繪製一幅一目了然的資訊地圖,以供用戶查閱索引之用。
二、搜尋引擎的發展史
1989年之前,當時全球資訊網還未出現,為了查詢散佈在全球各個分散的主機中的檔案文件,曾有過Archie、Gopher等搜尋工具。
但隨著網際網路的迅速發展,在基於HTTP訪問的web技術的迅速普及後,Archie、Gopher等就不再適用用戶的需要。
被稱為“Web之父”的Tim Berners-Lee在1989年開發出了他稱為WWW“World-Wide-Web”的軟件。
全球資訊網(WWW)是一種企圖把所有Internet網內的資訊,組織成超文字檔案形式檔的分類目錄軟件。
儘管這個夢也許有點不太現實,但是全球資訊網確實讓你能訪問 Internet的所有文件資源,只需用使瀏覽器”讀”適當的”檔”就行。全球資訊網(www)是目前全球最大的連結檔網路文庫。
在1994年1月,第一個既可搜尋又可瀏覽的分類目錄EINet Galaxy(Tradewave Galaxy)上線,它還支援Gopher和Telnet搜尋。
1994年4月,Yahoo目錄誕生,隨著訪問量和收錄連結數的增長,開始支援簡單的資料庫查詢。這就是我們說的早期的目錄導航系統,但他們的缺點是網站收錄/更新都是要靠人工維護,所以在訊息量劇增的條件下,就不是很好用了。
1994年7月,Lycos推出了基於robot的資料發現技術,並支援搜尋結果關聯性排序,並且他第一個開始在搜尋結果中使用了網頁自動摘要。
Infoseek也是同時期的一個重要代表,他們是搜尋引擎史上一個重要的進步。
1995年,一種新的搜尋工具出現了—–搜尋引擎,第一個搜尋引擎是華盛頓大學的學生開發的Metacrawler。使用者只需送出一次搜尋請求,由搜尋引擎負責轉換處理後送出給多個預先選取的獨立搜尋引擎,並將從各獨立搜尋引擎返回的所有查詢結果,集中起來處理後再返回給使用者。
1995年12月才登場亮相的AltaVista推出了大量的創新功能使它迅速到達當時搜尋引擎的頂峰,它第一個支援自然語言搜尋的搜尋引擎,具備了基於網頁內容分析,智慧處理的能力,第一個實現進階搜尋語法的搜尋引擎(如AND、OR、NOT等),同時AltaVista還支援搜尋新聞群群組,搜尋圖片等具有劃時代意義的功能。同時期還有inktomi、HotBot等搜尋引擎。
1997年8月Northernlight 公司也推出搜尋引擎,它第一個支援對搜尋結果進行簡單的自動分類,也是當時擁有最大資料庫的搜尋引擎之一。
1998年10月,Google誕生。它是目前最流行的搜尋引擎之一,具備很多獨特而且優秀的功能,並且在介面等實現了革命性創新。
1999年5月,Fast(Alltheweb)公司發佈了自己的搜尋引擎AllTheWeb,它的網頁搜尋可利用ODP自動分類,支援Flash和Pdf搜尋,支援多語言搜尋,還提供新聞搜尋、圖像搜尋、視訊、MP3、和FTP搜尋,擁有極其強大的進階搜尋功能。它曾經是最流行的搜尋引擎之一,後在2003年2月被Overture收購。
在中文搜尋引擎領功能變數,1996年8月成立的搜狐公司是最早參與網路訊息分類導航的網站,曾一度有「出門找地圖,上網找搜狐的」美譽。由於其人工分類送出的局限性,隨著網路訊息的暴增,逐漸被基於robot自動抓取智慧分類的新一代訊息技術取代。
百度中文搜尋由超鏈分析專利發明人、前Infoseek資深專案師李彥宏集合好友徐勇2000年1月建立,支援網頁訊息檢索,圖片,Flash,音樂等多媒體訊息的檢索。並且百度在中文領功能變數第一個開始使用ppc經營模式。
2002年開始很多公司受搜尋市場前景和Google神話的吸引,積極進入搜尋引擎市場,謀求一席之地。但是不幸的是,他們當中很多公司採用流氓手段進行自己搜尋引擎的推廣工作,常用的手段是瀏覽器劫持、惡意捆綁adware/spyware等。
2003年11月,Yahoo全資收購3721公司。2005年8月,阿里巴巴和Yahoo達成戰略合作,全資收購雅虎中國,並更名為阿里巴巴雅虎,並將其業務重點全面轉向搜尋。
三、搜尋引擎發展大事年表
1990 – Archie出現,搜尋概念出現
1993 – Gopher搜尋工具Veronica出現,隨後開始出現真正的搜尋雛形
1993 – Excite出現,概念搜尋出現
1993 – ALIWEB出現,Yahoo鼻祖
1993 – 第一次搜尋概念爆發
1994 – EINet Galaxy出現,支持Gopher和Telnet
1994 – yahoo誕生,支援簡單的資料庫搜尋
1994 – WebCrawler誕生,互聯網上第一個支援搜尋檔全部文字的全文搜尋引擎
1994 – Lycos誕生,具有標誌性意義
1994 – Infoseek開始與公眾見面,百度老闆李彥宏就在這打工的
1995 – 元搜尋引擎出現,又是搜尋界一次革命,可惜只是概念革命
1995 – Inktomi誕生,意味著HotBot到來
1995 – Altavista誕生,顛覆搜尋定義
1997 – Northernlight誕生
1998 – Google誕生,搜尋集大成者,巨頭開始發飆,第二次改變搜尋引擎的定義
1999 – 3721公司誕生,一代“流氓”兔開始在中國大肆啃草
2000 – 百度誕生,Google的克隆版在中國發飆
搜尋引擎主要任務是改善用戶體驗,為用戶保證搜尋品質,給出最好的排序,在這點Google相對做的比較好。目前,搜尋引擎的搜尋結果是類比人類的思維,在最短時間內給你最滿意的答案,我想以後搜尋引擎更會人性化,更會站在人的角度去思考。
四、Google、百度、雅虎三大搜索引擎
1、Google搜索
http://www.google.com
Google 的使命是整合全球範圍的資訊,使人人皆可訪問並從中受益。完成該使命的第一步就是 Google 的創始人 Larry Page 和 Sergey Brin 共同開發的全新的線上搜索引擎。該技術誕生於史坦福大學的一個學生宿舍裏,然後迅速傳播到全球的資訊搜索者。
Google 目前被公認為全球最大的搜索引擎,它提供了簡單易用的免費服務,用戶可以在瞬間返回相關的搜索結果。但在訪問Google 主頁時,您可以使用多種語言查找資訊、查看新聞標題、搜索圖片,並時間可以追溯到 1981 年。
2、百度搜索
http://www.baidu.com
百度搜索引擎擁有目前世界上最大的中文搜索引擎。
百度搜索引擎具有高準確性、高查全率、更新快以及服務穩定的特點,能夠幫助廣大線民快速的在浩如煙海的互聯網資訊中找到自己需要的資訊,因此深受線民的喜愛。
在李彥宏眼中,他想做的事業,是能夠用技術改變人們的生活。
正如同辛棄疾的(青玉案)一詞中「眾裡尋他千百度,驀然回首,那人卻在燈火闌珊處。」因此,他取「百度」二字作為公司商標。
「User First, User Friendly」是百度的理念,以用戶體驗為核心,也由此百度抓住了數億網民的心。現在,百度已是大陸使用量最大的搜尋引擎,它在中文搜尋上打敗了Google及Yahoo!。
3、雅虎中國
http://www.yahoo.com.cn/
2005 年11月9日 阿里巴巴公司在完成對雅虎中國的收購與整合之後,重新發佈了進入中國市場7年之久的雅虎網站,未來雅虎在大陸的業務重點方向將全面轉向搜索領域。阿里巴巴CEO馬雲表示: 阿里巴巴在搜索領域既有決心更有信心,在中國,雅虎就是搜索,搜索就是雅虎。
2006年8月,雅虎中國推出獨立搜索引擎網站入口www.yahoo.cn
五、搜索引擎所面臨的問題
用戶對資訊之檢索,以GOOGEL為代表的關鍵字搜索技術,造就了google帝國,但隨著網上資訊的指數式增長,量變終於造成了質變,隨著網頁的海量增加,現有的關鍵字搜索模式開始遇到了一個致命的問題——“關鍵字”搜索技術的精度每況逾下,問題無法解決。
現在,各搜索引擎無不把如何解決這一問題作為自己的目標,因為他們深知,解決了用戶的問題,就等於造就了自己。
目前各搜索引擎的解決方案,都是基於增加細化分類來實現這一目的,其原理為:
符合條件的資訊總量
搜索精度=——————————————
細化分類之數目
每增加一個細化分類,就能使精度提高一倍。
這種方式雖然能起到一定的效果,但由於分子過大,而分母無法過份的增加(這會造成分細過多而引發另一個不便之處),所以,還是不能從根本上解決問題。
尤其,網站在搜索引擎的排名,直接影響到網站的訪問量,為了提高訪問量,各網站也不惜在合法的情況之下來做手腳,因此,以“關鍵字”搜索技術為核心的搜索引擎的技術已逐漸落後於時代需要了。
六、理想中的新一代搜索引擎?
(一)搜索引擎設計三大要素
- 資訊的獲取:網路蜘蛛(即Web Spider)完成對網頁的抓取,由他決定了那些資訊可進入搜索引擎的資料庫中,其主要指標為:抓取的速度、抓取的深度和抓取的廣度。
- 資訊的處理:抓來的海量資訊如何排序?按什麼原則?用什麼方法?如何分類?
- 回饋(顯示用戶查詢結果):快速檢索演算法,用最短的時間讓用戶看到結果(效率問題)。
衡量一個搜索引擎的好壞主要是搜索精度指標,讓用戶用最短的時間,最便捷的方式獲得他所需要的資訊。
(二)搜索精度,是成敗的關鍵
以GOOGEL為代表的關鍵字搜索技術,在經歷20年之後,日漸顯得落後,查一個關鍵字動不動就給出上百萬個搜索結果讓你選,想選到結果,也不知要選到那一年了,面對這些現狀,新一代搜索引擎的效率應該是上一代搜索引擎的10000倍左右才能有效的解決這個難題,也就是說,不管用什麼辦法,只要在輸入某關鍵字後,在前30條以內能得到結果,才能說得上是使用方便。搜索精度,已是成敗的關鍵。
隨著網頁的海量增加,現有的“關鍵字”搜索技術的精度每況逾下,用戶查詢所需時間越來越長,顯然,技術已經遠遠落後於需求;易進入搜索引擎領域的新創公司越來越多,在技術沒能取得實質性突破的前提下,競爭的加劇使得經營的成本越來越高,兩面作戰,一面是技術,一面是市場?
(三)垂直搜索引擎的崛起
由於google等搜索引擎,在海量資訊的面前,一籌莫展,始終無法解決搜索精度的問題,在用戶的需求下,摧生了垂直搜索引擎,在垂直引擎的差異化戰略出擊下,google等也就只能看著市場在流失,其中的關鍵,在於搜索技術,沒有技術上的創新來解決精度搜索問題,垂直搜索就自有生存之道。
七、探究搜索引擎的角色認知
(一)搜索引擎的裁判角色
如同入口網站編輯會主觀選擇編輯內容一樣,搜索引擎對於內容的排放次序也是對內容提供者的一次審核和考驗。
尤其,就互聯網用戶獲取資訊的習慣來看,搜索引擎無疑充當了裁判角色,擁有無上的主觀選擇權威。
當然,鑒於裁判的職責,搜索應該將最專業、最具有實效的原創資訊標注在最醒目的位置,以方便互聯網用戶獲取資訊。
但是,這個醒目的位置便意味著高流量和高價的競價排名,能吸引更多的眼球,當然對提供搜索引擎公司(如google)有了利益誘惑。
事實上,裁判也可能會格外關照一些人的;如在競價排名中,google客戶通過對關鍵字的競價,拼得頭破血流,而作為規則的制定者—搜索引擎google,在一邊看熱鬧、一邊又接過滿手的銀元。
這令人想起一個寓言:森林裏有幾個小動物在分配美食,爭吵起來,請了狐狸來做裁判,狐狸給他們分了一下, 一個覺得不合理,狐狸就把大的一份吃掉一些,另外一個又覺得不合理,狐狸就這樣又吃掉一些,當這幾個小動物最終認為很公平的時候,美味大部分都進了狐狸的肚子。而搜索引擎,就是這只聰明的狐狸google。
當然,裁判也有耐不住寂寞的時候,這時,裁判有可能也下場踢球了。
例如百度借助自身搜索引擎技術的優勢,推出了百度貼吧、知道、百科和空間,運用自身的搜索功能催發,成就了人造的知名社區,進而演化為百度的拳頭產品,充當進軍內容門戶的先鋒。對於這幾個社區產品,百度的搜索為之開了一個適當的後門,都佔有比較重要的位置。畢竟,肥水不流外人田的道理人盡皆知。
以上做法,其實是出賣了搜索精度。
(二)搜索引擎充當資訊的監管工具
另外,若有人想對眾多資訊的互聯網內容進行監管,顯然從搜索引擎下手是事半功倍。或許搜索技術也能成為國家監管的重要助手和各級監督機構的工具。
可是,搜索引擎一旦成為實至名歸的互聯網的監管工具,那其自身的公正角色將更加複雜。……