結(jié)合視覺和語言或是開發(fā)更有能力的AI的關(guān)鍵

2022-04-11 08:49:08 來源：扣丁書屋

0瀏覽評論0條

或者當運行了AI系統(tǒng)的機器人被要求從冰箱里拿一罐蘇打水時，它們會繞過人、家具和寵物取出罐子并把它放在請求者可及的地方。

雖然現(xiàn)在的AI技術(shù)還不夠。但新研究表現(xiàn)出了令人鼓舞的進步跡象，從能找出滿足基本命令的步驟的機器人到能從解釋中學習的文本生成系統(tǒng)。在Techcrunch日前恢復的《Deep Science》中，他們將每周都會介紹AI和更廣泛的科學領(lǐng)域的最新發(fā)展，他們將介紹DeepMind、Google和OpenAI的工作--這些工作正朝著系統(tǒng)能夠以令人印象深刻的穩(wěn)健性解決諸如生成圖像的狹窄任務(wù)的方向邁進。

AI研究實驗室OpenAI的DALL-E改進版--DALL-E 2很容易成為AI研究實驗室深處出現(xiàn)的最令人矚目的項目。TechCrunch記者指出，雖然最初的DALL-E展示了創(chuàng)造圖像以匹配幾乎任何提示的非凡能力，但DALL-E 2在這方面更進一步。它產(chǎn)生的圖像更加詳細，且它還可以智能地替換掉圖像中的特定區(qū)域--比如將一張桌子插入充滿適當反射的大理石地板的照片中。

雖然DALL-E 2本周受到了大部分的關(guān)注，但在周四，Google的研究人員在GoogleAI博客上所介紹的一個視覺理解系統(tǒng)同樣令人深刻。據(jù)悉，這個系統(tǒng)被稱為視覺驅(qū)動的文字轉(zhuǎn)語音（Visually-Driven Prosody for Text-to-Speech，簡稱VDTTS）。VDTTS可以生成聽起來很真實的唇語，除了文字和說話的人的視頻幀之外，沒有其他東西。

VDTTS生成的語音雖然不是錄制的對話的完美替代品，但表現(xiàn)相當好，它具有令人信服的人類表達能力和時間。Google認為有一天它可以在演播室中使用，從而取代可能在嘈雜條件下錄制的原始音頻。

當然，視覺理解只是通往更有能力的AI道路上的一個步驟。另一個組成部分是語言理解，它在許多方面都落后于人--即使拋開AI有據(jù)可查的毒性和偏見問題。一個鮮明的例子是，根據(jù)一篇論文，Google的一個尖端系統(tǒng)Pathways Language Model(PaLM)記住了用于“訓練”它的40%的數(shù)據(jù)，結(jié)果PaLM剽竊了代碼片段中的文本，甚至是版權(quán)聲明。

所幸的是，由Alphabet支持的AI實驗室DeepMind也在探索解決這一問題的技術(shù)。在一項新研究中，DeepMind的研究人員研究了AI語言系統(tǒng)--它們學會從許多現(xiàn)有文本的例子中生成文本--是否可以從對這些文本的解釋中獲益。在對幾十個語言任務(wù)進行注釋后并評估了不同系統(tǒng)在這些任務(wù)上的表現(xiàn)，DeepMind團隊發(fā)現(xiàn)，例子確實提高了系統(tǒng)的表現(xiàn)。

DeepMind的方法如果在學術(shù)界獲得通過，那么有朝一日將可以應用到機器人技術(shù)中、形成機器人的構(gòu)件并在無需一步步指示的情況下理解模糊的請求。盡管存在很大的局限性，但Google新的Do As I Can, Not As I Say項目還是讓人們看到了這個未來。

作為Google的機器人技術(shù)和Alphabet的X實驗室的日常機器人技術(shù)團隊之間的合作，“Do As I Can, Not As I Say”項目旨在為AI語言系統(tǒng)提供條件以便為機器人提出可行的且適合環(huán)境的行動。機器人充當語言系統(tǒng)的“手和眼睛”，而系統(tǒng)則提供關(guān)于任務(wù)的高級語義知識--理論上，語言系統(tǒng)編碼了大量對機器人有用的知識。

此外，一個名為SayCan的系統(tǒng)則可以選擇機器人在響應命令時應該執(zhí)行的技能，其中它將特定技能有用的概率和成功執(zhí)行該技能的可能性考慮在內(nèi)。如如果有人說：“我的可樂灑了，你能給我拿點東西來清理嗎？”SayCan可以指示機器人找到一塊海綿，拿起海綿，然后將它送到提出該要求的人手中。

不過SayCan受到了機器人硬件的限制--研究小組不止一次觀察到他們選擇用來進行實驗的機器人意外地掉落物體。盡管如此，它跟DALL-E 2和DeepMind在語境理解方面的工作一起說明了AI系統(tǒng)如何在結(jié)合時使我們?nèi)祟惛咏诮苌患沂降奈磥怼?/p>