660
shares
聚米幫你連接全球客戶
服務(wù)熱線:400-8817-968
發(fā)布于:2019-11-27
Google的最新算法更新BERT可以幫助Google更好地理解自然語言,尤其是在語音搜索中上起到非常大的作用。
BERT將影響大約10%的查詢。這也將影響自然排名和精選內(nèi)容結(jié)果,為用戶帶來更好的更精準的信息。所以這是不小的改變!
但是您是否知道BERT不僅是任何算法更新,還是研究論文和機器學(xué)習(xí)自然語言處理框架?
實際上,在實施該產(chǎn)品的前一年,BERT引起了產(chǎn)品搜索活動的狂熱風(fēng)暴。
之前有專家解釋了Google的BERT到底是什么,它如何工作,如何影響搜索以及是否可以嘗試為其優(yōu)化內(nèi)容。
搜索中的BERT是什么?
BERT代表變壓器的雙向編碼器表示,實際上有很多東西。
它被廣泛稱為Google搜索算法成分/ tool / framework(稱為Google BERT),旨在幫助Search更好地理解Search中單詞的細微差別和上下文,并使這些查詢與有用的結(jié)果更好地匹配。
此外,BERT是Google生成的自然語言處理NLP框架,然后將其開源,因此整個自然語言處理研究領(lǐng)域?qū)嶋H上可以更好地從整體上理解自然語言。
您可能會發(fā)現(xiàn),在線上大多數(shù)BERT提及都與Google BERT更新無關(guān)。
其他研究人員正在發(fā)表許多有關(guān)BERT的實際論文,這些論文并未使用您認為Google BERT算法更新時會使用的東西。
BERT極大地促進了自然語言對NLU的理解,而Google轉(zhuǎn)向開源BERT的舉動可能永遠改變了自然語言的處理方式。
機器學(xué)習(xí)的ML和NLP社區(qū)對BERT感到非常興奮,因為它需要花費大量的精力來進行自然語言的研究。它已經(jīng)對很多單詞進行了預(yù)訓(xùn)練,整個英語維基百科中有25億個單詞。
Vanilla BERT為機器學(xué)習(xí)和自然語言多樣化任務(wù)中的神經(jīng)網(wǎng)絡(luò)提供了預(yù)先訓(xùn)練的起點層。
雖然BERT已在Wikipedia上進行了預(yù)培訓(xùn),但已對問題和答案數(shù)據(jù)集進行了微調(diào)。
可以微調(diào)的那些問答數(shù)據(jù)集之一稱為MS MARCO:由Microsoft構(gòu)建和開放源代碼的人類生成的機讀理解數(shù)據(jù)集。
研究人員還與SQuAD(斯坦福問題解答數(shù)據(jù)集)就自然語言理解展開競爭。BERT現(xiàn)在甚至超過了SQuAD上的人類推理基準。
許多主要的AI公司也在構(gòu)建BERT版本:
(1)Microsoft通過MT-DNN(多任務(wù)深度神經(jīng)網(wǎng)絡(luò))擴展了BERT 。
(2)來自Facebook的RoBERTa。
(3)之所以創(chuàng)建SuperGLUE Benchmark是因為原始的GLUE Benchmark變得太容易了。
BERT可以解決哪些問題?
我們?nèi)祟惡苋菀桌斫饽承┦虑椋ㄋ阉饕嬖趦?nèi),機器根本無法真正理解。
(1)言語問題
單詞的問題在于它們無處不在。越來越多的內(nèi)容在那里
單詞是有問題的,因為很多單詞是模棱兩可的,多義的和同義的。
Bert旨在幫助解決含糊不清的句子和短語,這些句子和短語由許多具有多種含義的單詞組成。
(2)歧義和一詞多義
英語中幾乎所有其他單詞都有多種含義。用口語來說,由于同音詞和韻律,情況更糟。
例如,對于帶有英語口音的人,“四支蠟燭”和“叉子手柄”。另一個例子:喜劇演員的笑話主要是基于單詞的玩法,因為單詞很容易被誤解。
對于我們?nèi)祟悂碚f,這不是一個很大的挑戰(zhàn),因為我們具有常識和上下文,因此我們可以理解圍繞情境或?qū)υ捝舷挛牡乃衅渌麊卧~,但搜索引擎和機器則沒有。
對于未來的對話式搜索而言,這并不是一個好兆頭。
評論展示
660
shares
掃碼加微信咨詢
15815846676
長按號碼加微信
在線留言