百度搜索：從文本檢索到人工智能

互聯(lián)網(wǎng)時間： 2023-06-16 15:14:22

現(xiàn)在，在使用搜索引擎時，你可能不只會用幾個關鍵詞，還會直接輸入你想問的問題。但其實早期的搜索引擎采用的是文本檢索的方式，只能做到用戶查詢關鍵詞和網(wǎng)頁文本內容的匹配。

可想而知，雖然這樣的方式也能把不同網(wǎng)頁的關聯(lián)度進行排序，但總體的搜索質量是比較差的。

而實際上，網(wǎng)頁之間有著豐富的鏈接關系，就像高引論文往往本身質量更高，高質量的網(wǎng)頁通常也會被更多的網(wǎng)頁鏈接。

為了進一步挖掘和利用這種鏈接信息，1996年，李彥宏開發(fā)了Rankdex，即超鏈分析算法。這是世界上首個使用超鏈接來衡量網(wǎng)站質量的搜索引擎。

也就是說，搜索引擎在收到一個用戶查詢之后，不僅僅會去匹配網(wǎng)頁的內容，還會看看其他網(wǎng)頁對這個頁面的“評價”。

在此之后，谷歌也提出并使用了類似的PageRank技術，并大獲成功。

超鏈分析算法，可以說是當今每個主要搜索引擎排名算法的基礎。值得一提的是，在谷歌創(chuàng)始人拉里·佩奇的第一項網(wǎng)頁排名專利申請中，也引用了Rankdex。

如果說早期的搜索技術門檻不算高，從超鏈分析這個階段開始，一些今天大家伙普遍依賴的搜索引擎，就開始一騎絕塵，拉開差距了，比如谷歌，比如百度。

并且這些做搜索引擎起家的公司，如今也都成為了人工智能領域的先行者。

而事實上，甚至在人工智能未成顯學之時，為了讓搜索結果更快、更精準、更個性化，搜索領域的巨頭們就已經(jīng)著手將機器學習的方法引入到搜索引擎中。

谷歌就在2016年上線了基于反向傳播技術的RankBrain算法。該算法可以基于語義分析和詞庫聯(lián)想，幫助用戶更快地搜索冷門的搜索結果。

而如今在NLP領域大火的BERT，也已被部署到谷歌搜索當中。有了預訓練語言模型的加持，即使你輸入的是一大段文字，搜索引擎也能夠get到你想查什么。

根據(jù)谷歌的數(shù)據(jù)，BERT的引入為至少10%的搜索結果帶來了改善。

國內，百度同樣是最早投入人工智能技術研發(fā)的科技公司，在2010年就成立了單獨的NLP部門。

以搜索引擎技術為核心，在過去十余年中，百度演化出了語音、圖像、知識圖譜、自然語言處理等人工智能技術。這些長期的技術積累，甚至在今天進一步拓展到了自動駕駛、AI芯片等領域。

這也是為什么，在今天，搜索引擎不僅僅能按照你輸入的文字進行搜索，甚至直接給一張圖、一段音樂，AI也能理解你想要獲取怎樣的信息。

本文標題：百度搜索：從文本檢索到人工智能

本文地址： http://m.huadugongguan.net/brand/news-3becf42cc.html

內容均來源于網(wǎng)絡，錯誤糾正或刪除請發(fā)郵件，收件郵箱kefu@huangye88.com

熱門分類

人工智能搜索引擎虛擬現(xiàn)實汽車芯片手機