Google和幼兒有什麼共同之處? 兩者都需要學習良好的聆聽技巧。

Google和幼兒有什麼共同之處? 兩者都需要學習良好的聆聽技巧。



在第六屆學習代表國際會議上,Google AI的研究人員Jannis Bulian和Neil Houlsby表示, 提交了一份文件 這為他們測試的新方法揭示了改進搜索結果的亮點。

雖然發表論文當然不意味著這些方法正在被使用,甚至會被使用,但當結果非常成功時,這可能會增加可能性。 當這些方法與穀歌正在採取的其他行動相結合時,幾乎可以肯定。

我相信這種情況正在發生,而這些變化對於搜索引擎優化專家(SEO)和內容創建者來說意義重大。

發生什麼了?

讓我們從基礎開始,並且看看正在討論的內容。

據說一張圖片勝過千言萬語,所以讓我們從紙張的主要圖像開始。

這張圖片絕對不值一千字。 事實上,沒有這些字眼,你可能很迷茫。 您可能想像一個搜索系統看起來更像是:

在最基本的形式中,搜索系統是:

  • 用戶提出問題。
  • 搜索算法解釋問題。
  • 算法應用於索引數據,並提供答案。

我們在第一張圖片中看到的,它說明了論文中討論的方法,卻有很大的不同。

在中間階段,我們看到兩部分:重構和總結。 基本上,這個新流程發生的是:

  • 用戶向積極提問問題(AQA)代理人的“重新配置”部分提出問題。
  • “重構”階段帶著這個問題,並且使用下面討論的各種方法創造一系列新問題。
  • 這些問題中的每一個都被發送到“環境”(我們可以鬆散地將其視為核心算法,就像您今天會想到的那樣)以獲得答案。
  • 每個生成的查詢的答案在“Aggregate”階段提供給AQA。
  • 獲勝的答案被選擇並提供給用戶。

看起來很簡單,對吧? 這裡唯一真正的區別是產生多個問題和一個系統,找出哪個是最好的,然後提供給用戶。

哎呀,有人可能會爭辯說,這是已經發生的算法評估一些網站,並一起工作,找出查詢的最佳匹配。 輕微的扭曲,但沒有革命性的,對嗎?

錯誤。 這篇論文和方法還有很多不僅僅是這張圖片。 所以讓我們繼續前進。 現在是時候添加一些…

機器學習

這種方法的真正威力來自於機器學習的應用。 以下是我們需要詢問的有關初始故障的問題:

系統如何從各種問題中進行選擇?

哪個問題產生了最佳答案?

這是它變得非常有趣的地方,結果令人著迷。

在他們的測試中,布魯恩和豪爾斯比開始了一系列“危險!”的問題(如果你看節目,你就知道這些問題真的是答案)。

他們這樣做是為了模擬人腦需要推斷正確或錯誤反應的場景。

如果您對遊戲節目“Jeopardy!”不熟悉,請點擊此處快速剪輯以幫助您了解“問題/答案”概念:

從論文:

面對複雜的信息需求,人們通過重新構建問題,發布多次搜索和匯總響應來克服不確定性。 受到人類提出正確問題的能力的啟發,我們向學員展示學習如何為用戶執行此過程。

這是算法提出的“危險!”問題/答案之一。 我們可以看到問題如何轉化為查詢字符串:

旅行似乎不是這個巫師和一次性外科醫生的問題; 星界投影和傳送是沒有問題的。

這不是一個容易回答的問題,因為它需要收集各種數據,並且還要解釋自己經常隱晦的問題的格式和背景。 事實上,沒有人發布“危險!” – 就像問題一樣,我不認為Google目前的算法能夠返回正確的結果,這正是他們正在尋求解決的問題。

Bulian和Houlsby用“Jeopardy!”編寫了他們的算法 – 就像問題一樣,並將一個成功的答案計算為給出正確或錯誤答案的答案。 該算法從未被意識到 為什麼 答案是對還是錯,所以沒有給出任何其他信息來處理。

由於缺乏反饋,算法無法通過任何其他方式學習成功指標,而不是獲得正確答案。 這就像在一個類似於現實世界的黑盒子裡學習一樣。

他們從哪裡得到問題?

測試中使用的問題來自哪裡? 他們被送到Reformulate階段的“用戶”。 一旦問題被添加,流程:

  • 從查詢中刪除了停用詞。
  • 將查詢置為小寫。
  • 添加了wh-短語(誰,什麼,何地,何時,為什麼)。
  • 增加了釋義的可能性。

對於釋義,該系統使用聯合國平行語料庫,​​該語料庫基本上包含1100多萬個與六種語言完全一致的短語。 他們製作了各種英文到英文的翻譯器,可以調整查詢但保持上下文。

結果

所以這就是所有這一切降落我們的地方:

訓練完系統後,結果非常壯觀。 他們開發和訓練的系統擊敗了所有變體並大幅提高了性能。 事實上,做得更好的唯一系統是人類。

以下是最終生成的查詢類型的一小部分示例:

他們所開發的系統能夠準確地理解複雜而復雜的問題,並通過訓練以驚人的準確度產生正確答案。

那麼,戴夫? 這對我有什麼幫助?

你可能會問為什麼這很重要。 畢竟,在搜索和持續改進方面不斷發展。 為什麼這會有什麼不同?

最大的區別是它對搜索結果意味著什麼。 谷歌也是最近 為ICLR會議發表了一篇論文 這表明谷歌可以生產 根據其他內容製作者提供的數據製作自己的內容。

我們都知道,僅僅因為寫了一篇論文,並不意味著搜索引擎實際上正在實施這個概念,但讓我們暫停一下,以便了解以下情況:

  1. Google有能力提供自己的內容,而且內容寫得很好。
  2. Google對確定正確答案的能力非常有信心。 事實上,通過調整其功能,它可能會超越人類。
  3. Google有多個例子可以讓用戶留在自己的網站上,並通過點擊佈局和內容更改的搜索結果。

隨著這一切堆積如山,我們需要問:

  • 這會影響搜索結果嗎? (它可能會。)
  • 它會阻礙網站管理員的內容製作工作嗎?
  • 它會限制我們的內容向更大的公眾傳播嗎?

再次,僅僅因為論文被發表,並不意味著內容將被實施; 但Google 以超越人類的方式獲得理解語言中復雜細微差別的能力。 Google也有興趣讓用戶留在谷歌地產上,因為在一天結束時,他們首先是一家出版公司。

你能做什麼?

你做同樣的事情,你一直做。 推銷您的網站。

無論您是在優化成為有機結果的前10名還是 優化語音搜索 或虛擬現實,正在銷售相同數量的藍色小部件。 你只需要適應,因為搜索引擎結果頁面(SERP)變化很快。

我們在這裡看到的方法提出了一個重要的主題,每個對搜索引擎優化(SEO)感興趣的人都應該密切關注,這就是實體的使用。

如果您查看由Bulian和Houlsby創建的系統生成的以上查詢集,您會注意到一般情況下,越精確地理解實體之間的關係,答案就越好。

事實上,具體措辭是無關緊要的。 完全部署後,系統不需要使用您或我理解的文字。 值得慶幸的是,它們使我們能夠看到,通過將實體及其關係進行分組,使得以這些關係為基礎的答案更加可靠,就可以實現成功。

如果你只是讓你的腳濕透 理解實體,這裡介紹這個概念 並涵蓋了來龍去脈。 我保證你很快就會看到它們之間的關係,並且當我們進入下一代搜索時你需要關注這個領域。


本文中表達的意見是來賓作者的意見,並不一定是搜索引擎土地。 職員作者被列出 這裡


關於作者

戴夫戴維斯創立 Beanstalk Internet Marketing,Inc. 2004年在該行業工作了3年,並且是其現任首席執行官。 他是一位出版良好的作家,並在多個會議上就有機搜索引擎優化問題發表演講,其中包括最受歡迎的SMX Advanced。 戴夫定期寫信 Beanstalk的博客 並且是搜索引擎領域的每月貢獻者。

歡迎您留言討論

發表迴響

Close Menu