現(xiàn)在,在使用搜索引擎時,你可能不只會用幾個關(guān)鍵詞,還會直接輸入你想問的問題。但其實(shí)早期的搜索引擎采用的是文本檢索的方式,只能做到用戶查詢關(guān)鍵詞和網(wǎng)頁文本內(nèi)容的匹配。
可想而知,雖然這樣的方式也能把不同網(wǎng)頁的關(guān)聯(lián)度進(jìn)行排序,但總體的搜索質(zhì)量是比較差的。
而實(shí)際上,網(wǎng)頁之間有著豐富的鏈接關(guān)系,就像高引論文往往本身質(zhì)量更高,高質(zhì)量的網(wǎng)頁通常也會被更多的網(wǎng)頁鏈接。
為了進(jìn)一步挖掘和利用這種鏈接信息,1996年,李彥宏開發(fā)了Rankdex,即超鏈分析算法。這是世界上首個使用超鏈接來衡量網(wǎng)站質(zhì)量的搜索引擎。
也就是說,搜索引擎在收到一個用戶查詢之后,不僅僅會去匹配網(wǎng)頁的內(nèi)容,還會看看其他網(wǎng)頁對這個頁面的“評價”。
在此之后,谷歌也提出并使用了類似的PageRank技術(shù),并大獲成功。
超鏈分析算法,可以說是當(dāng)今每個主要搜索引擎排名算法的基礎(chǔ)。值得一提的是,在谷歌創(chuàng)始人拉里·佩奇的第一項網(wǎng)頁排名專利申請中,也引用了Rankdex。
如果說早期的搜索技術(shù)門檻不算高,從超鏈分析這個階段開始,一些今天大家伙普遍依賴的搜索引擎,就開始一騎絕塵,拉開差距了,比如谷歌,比如百度。
并且這些做搜索引擎起家的公司,如今也都成為了人工智能領(lǐng)域的先行者。
而事實(shí)上,甚至在人工智能未成顯學(xué)之時,為了讓搜索結(jié)果更快、更精準(zhǔn)、更個性化,搜索領(lǐng)域的巨頭們就已經(jīng)著手將機(jī)器學(xué)習(xí)的方法引入到搜索引擎中。
谷歌就在2016年上線了基于反向傳播技術(shù)的RankBrain算法。該算法可以基于語義分析和詞庫聯(lián)想,幫助用戶更快地搜索冷門的搜索結(jié)果。
而如今在NLP領(lǐng)域大火的BERT,也已被部署到谷歌搜索當(dāng)中。有了預(yù)訓(xùn)練語言模型的加持,即使你輸入的是一大段文字,搜索引擎也能夠get到你想查什么。
根據(jù)谷歌的數(shù)據(jù),BERT的引入為至少10%的搜索結(jié)果帶來了改善。
國內(nèi),百度同樣是最早投入人工智能技術(shù)研發(fā)的科技公司,在2010年就成立了單獨(dú)的NLP部門。
以搜索引擎技術(shù)為核心,在過去十余年中,百度演化出了語音、圖像、知識圖譜、自然語言處理等人工智能技術(shù)。這些長期的技術(shù)積累,甚至在今天進(jìn)一步拓展到了自動駕駛、AI芯片等領(lǐng)域。
這也是為什么,在今天,搜索引擎不僅僅能按照你輸入的文字進(jìn)行搜索,甚至直接給一張圖、一段音樂,AI也能理解你想要獲取怎樣的信息。
本文標(biāo)題: 百度搜索:從文本檢索到人工智能
本文地址: http://m.huadugongguan.net/brand/news-3becf42cc.html
內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com
2009-2024 黃頁88版權(quán)所有 京ICP備2023012932號-1 │ 京公網(wǎng)安備 11010802023561號 京ICP證100626
內(nèi)容均來源于網(wǎng)絡(luò),錯誤糾正或刪除請發(fā)郵件,收件郵箱kefu@huangye88.com