結(jié)合視覺和語(yǔ)言或是開發(fā)更有能力的AI的關(guān)鍵
2022-04-11 08:49:08 來(lái)源: 扣丁書屋
0瀏覽 評(píng)論0條
或者當(dāng)運(yùn)行了AI系統(tǒng)的機(jī)器人被要求從冰箱里拿一罐蘇打水時(shí),它們會(huì)繞過人、家具和寵物取出罐子并把它放在請(qǐng)求者可及的地方。
雖然現(xiàn)在的AI技術(shù)還不夠。但新研究表現(xiàn)出了令人鼓舞的進(jìn)步跡象,從能找出滿足基本命令的步驟的機(jī)器人到能從解釋中學(xué)習(xí)的文本生成系統(tǒng)。在Techcrunch日前恢復(fù)的《Deep Science》中,他們將每周都會(huì)介紹AI和更廣泛的科學(xué)領(lǐng)域的最新發(fā)展,他們將介紹DeepMind、Google和OpenAI的工作--這些工作正朝著系統(tǒng)能夠以令人印象深刻的穩(wěn)健性解決諸如生成圖像的狹窄任務(wù)的方向邁進(jìn)。
AI研究實(shí)驗(yàn)室OpenAI的DALL-E改進(jìn)版--DALL-E 2很容易成為AI研究實(shí)驗(yàn)室深處出現(xiàn)的最令人矚目的項(xiàng)目。TechCrunch記者指出,雖然最初的DALL-E展示了創(chuàng)造圖像以匹配幾乎任何提示的非凡能力,但DALL-E 2在這方面更進(jìn)一步。它產(chǎn)生的圖像更加詳細(xì),且它還可以智能地替換掉圖像中的特定區(qū)域--比如將一張桌子插入充滿適當(dāng)反射的大理石地板的照片中。
雖然DALL-E 2本周受到了大部分的關(guān)注,但在周四,Google的研究人員在GoogleAI博客上所介紹的一個(gè)視覺理解系統(tǒng)同樣令人深刻。據(jù)悉,這個(gè)系統(tǒng)被稱為視覺驅(qū)動(dòng)的文字轉(zhuǎn)語(yǔ)音(Visually-Driven Prosody for Text-to-Speech,簡(jiǎn)稱VDTTS)。VDTTS可以生成聽起來(lái)很真實(shí)的唇語(yǔ),除了文字和說話的人的視頻幀之外,沒有其他東西。
VDTTS生成的語(yǔ)音雖然不是錄制的對(duì)話的完美替代品,但表現(xiàn)相當(dāng)好,它具有令人信服的人類表達(dá)能力和時(shí)間。Google認(rèn)為有一天它可以在演播室中使用,從而取代可能在嘈雜條件下錄制的原始音頻。
當(dāng)然,視覺理解只是通往更有能力的AI道路上的一個(gè)步驟。另一個(gè)組成部分是語(yǔ)言理解,它在許多方面都落后于人--即使拋開AI有據(jù)可查的毒性和偏見問題。一個(gè)鮮明的例子是,根據(jù)一篇論文,Google的一個(gè)尖端系統(tǒng)Pathways Language Model(PaLM)記住了用于“訓(xùn)練”它的40%的數(shù)據(jù),結(jié)果PaLM剽竊了代碼片段中的文本,甚至是版權(quán)聲明。
所幸的是,由Alphabet支持的AI實(shí)驗(yàn)室DeepMind也在探索解決這一問題的技術(shù)。在一項(xiàng)新研究中,DeepMind的研究人員研究了AI語(yǔ)言系統(tǒng)--它們學(xué)會(huì)從許多現(xiàn)有文本的例子中生成文本--是否可以從對(duì)這些文本的解釋中獲益。在對(duì)幾十個(gè)語(yǔ)言任務(wù)進(jìn)行注釋后并評(píng)估了不同系統(tǒng)在這些任務(wù)上的表現(xiàn),DeepMind團(tuán)隊(duì)發(fā)現(xiàn),例子確實(shí)提高了系統(tǒng)的表現(xiàn)。
DeepMind的方法如果在學(xué)術(shù)界獲得通過,那么有朝一日將可以應(yīng)用到機(jī)器人技術(shù)中、形成機(jī)器人的構(gòu)件并在無(wú)需一步步指示的情況下理解模糊的請(qǐng)求。盡管存在很大的局限性,但Google新的Do As I Can, Not As I Say項(xiàng)目還是讓人們看到了這個(gè)未來(lái)。
作為Google的機(jī)器人技術(shù)和Alphabet的X實(shí)驗(yàn)室的日常機(jī)器人技術(shù)團(tuán)隊(duì)之間的合作,“Do As I Can, Not As I Say”項(xiàng)目旨在為AI語(yǔ)言系統(tǒng)提供條件以便為機(jī)器人提出可行的且適合環(huán)境的行動(dòng)。機(jī)器人充當(dāng)語(yǔ)言系統(tǒng)的“手和眼睛”,而系統(tǒng)則提供關(guān)于任務(wù)的高級(jí)語(yǔ)義知識(shí)--理論上,語(yǔ)言系統(tǒng)編碼了大量對(duì)機(jī)器人有用的知識(shí)。
此外,一個(gè)名為SayCan的系統(tǒng)則可以選擇機(jī)器人在響應(yīng)命令時(shí)應(yīng)該執(zhí)行的技能,其中它將特定技能有用的概率和成功執(zhí)行該技能的可能性考慮在內(nèi)。如如果有人說:“我的可樂灑了,你能給我拿點(diǎn)東西來(lái)清理嗎?”SayCan可以指示機(jī)器人找到一塊海綿,拿起海綿,然后將它送到提出該要求的人手中。
不過SayCan受到了機(jī)器人硬件的限制--研究小組不止一次觀察到他們選擇用來(lái)進(jìn)行實(shí)驗(yàn)的機(jī)器人意外地掉落物體。盡管如此,它跟DALL-E 2和DeepMind在語(yǔ)境理解方面的工作一起說明了AI系統(tǒng)如何在結(jié)合時(shí)使我們?nèi)祟惛咏诮苌患沂降奈磥?lái)。
傳化智聯(lián)旗下傳化支付打通產(chǎn)業(yè)端支付 助力實(shí)現(xiàn)數(shù)字
泉州民間傳統(tǒng)風(fēng)俗:中秋節(jié)拾瓦片燒塔仔 共賞江天月
讓木偶走進(jìn)尋常百姓家 給木偶行業(yè)帶來(lái)新希望
高安鎮(zhèn)坪水村特色村寨 自然資源與文化底蘊(yùn)并存
古代“儲(chǔ)錢罐”--元代陶撲滿 出土彌足珍貴陶撲滿





