(電子商務(wù)研究中心訊) 引言
“人工智能”這個(gè)名詞在沉寂了近30年之后,最近兩年“咸魚翻身”,成為了科技公司公關(guān)的戰(zhàn)場(chǎng)、網(wǎng)絡(luò)媒體吸睛的風(fēng)口,隨后受到政府的重視和投資界的追捧。于是,新聞發(fā)布會(huì)、高峰論壇接踵而來,政府戰(zhàn)略規(guī)劃出臺(tái),各種新聞應(yīng)接不暇,宣告一個(gè)“智能為王”時(shí)代的到來。
到底什么是人工智能?現(xiàn)在的研究處于什么階段?今后如何發(fā)展?這是大家普遍關(guān)注的問題。由于人工智能涵蓋的學(xué)科和技術(shù)面非常廣,要在短時(shí)間內(nèi)全面認(rèn)識(shí)、理解人工智能,別說非專業(yè)人士,就算對(duì)本行業(yè)研究人員,也是十分困難的任務(wù)。
所以,現(xiàn)在很多宣傳與決策沖到認(rèn)識(shí)之前了,由此不可避免地造成一些思想和輿論的混亂。
自從去年用了微信以來,我就常常收到親朋好友轉(zhuǎn)來的驚世駭俗的新聞標(biāo)題。我發(fā)現(xiàn)很多議論缺乏科學(xué)依據(jù),變成了“娛樂AI”。一個(gè)在1970年代研究黑洞的物理學(xué)博士,從來沒有研究過人工智能,卻時(shí)不時(shí)被抬出來預(yù)測(cè)人類末日的到來。某些公司的公關(guān)部門和媒體發(fā)揮想象力,動(dòng)輒把一些無辜的研究人員封為“大師”、“泰斗”。最近,名詞不夠用了。九月初,就有報(bào)道把請(qǐng)來的一位美國(guó)教授稱作“人工智能祖師爺”。這位教授的確是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)領(lǐng)軍人物,但人工智能是1956年開始的,這位教授也才剛剛出生。況且機(jī)器學(xué)習(xí)只是人工智能的一個(gè)領(lǐng)域而已,大部分其它重要領(lǐng)域,如視覺、語言、機(jī)器人,他都沒有涉足,所以這樣的封號(hào)很荒唐(申明一點(diǎn):我對(duì)這位學(xué)者本人沒有意見,估計(jì)他自己不一定知道這個(gè)封號(hào))。當(dāng)時(shí)我想,后面是不是有人會(huì)搬出“達(dá)摩老祖、佛祖如來、孔雀王、太上老君、玉皇大帝”這樣的封號(hào)。十月初,赫然就聽說達(dá)摩院成立了,宣稱要碾壓美國(guó),輿情轟動(dòng)!別說一般老百姓擔(dān)心丟飯碗,就連一些業(yè)內(nèi)的研究人員都被說得心慌了,來問我有什么看法。
我的看法很簡(jiǎn)單:大多數(shù)寫報(bào)道和搞炒作宣傳的人,基本不懂人工智能。這就像年輕人玩的傳話游戲,扭曲的信息在多次傳導(dǎo)過程中,逐級(jí)放大,最后傳回來,自己嚇到自己了。下面這個(gè)例子就說明公眾的誤解到了什么程度。今年9月我在車上聽到一家電臺(tái)討論人工智能。兩位主持人談到硅谷臉書公司,有個(gè)程序員突然發(fā)現(xiàn),兩臺(tái)電腦在通訊過程中發(fā)明了一種全新的語言,快速交流,人看不懂。眼看一種“超級(jí)智能”在幾秒之內(nèi)迅速迭代升級(jí)(我加一句:這似乎就像宇宙大爆炸的前幾秒鐘),程序員驚恐萬狀。人類現(xiàn)在只剩最后一招才能拯救自己了:“別愣著,趕緊拔電源啊!…”終于把人類從鬼門關(guān)又拉回來了。
回到本文的正題。全面認(rèn)識(shí)人工智能之所以困難,是有客觀原因的。
其一、人工智能是一個(gè)非常廣泛的領(lǐng)域。當(dāng)前人工智能涵蓋很多大的學(xué)科,我把它們歸納為六個(gè):
(1)計(jì)算機(jī)視覺(暫且把模式識(shí)別,圖像處理等問題歸入其中)、
(2)自然語言理解與交流(暫且把語音識(shí)別、合成歸入其中,包括對(duì)話)、
(3)認(rèn)知與推理(包含各種物理和社會(huì)常識(shí))、
(4)機(jī)器人學(xué)(機(jī)械、控制、設(shè)計(jì)、運(yùn)動(dòng)規(guī)劃、任務(wù)規(guī)劃等)、
(5)博弈與倫理(多代理人agents的交互、對(duì)抗與合作,機(jī)器人與社會(huì)融合等議題)。
(6)機(jī)器學(xué)習(xí)(各種統(tǒng)計(jì)的建模、分析工具和計(jì)算的方法),
這些領(lǐng)域目前還比較散,目前它們正在交叉發(fā)展,走向統(tǒng)一的過程中。我把它們通俗稱作“戰(zhàn)國(guó)六雄”,中國(guó)歷史本來是“戰(zhàn)國(guó)七雄”,我這里為了省事,把兩個(gè)小一點(diǎn)的領(lǐng)域:博弈與倫理合并了,倫理本身就是博弈的種種平衡態(tài)。最終目標(biāo)是希望形成一個(gè)完整的科學(xué)體系,從目前鬧哄哄的工程實(shí)踐變成一門真正的科學(xué)ScienceofIntelligence。
由于學(xué)科比較分散,從事相關(guān)研究的大多數(shù)博士、教授等專業(yè)人員,往往也只是涉及以上某個(gè)學(xué)科,甚至長(zhǎng)期專注于某個(gè)學(xué)科中的具體問題。比如,人臉識(shí)別是計(jì)算機(jī)視覺這個(gè)學(xué)科里面的一個(gè)很小的問題;深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)這個(gè)學(xué)科的一個(gè)當(dāng)紅的流派。很多人現(xiàn)在把深度學(xué)習(xí)就等同于人工智能,就相當(dāng)于把一個(gè)地級(jí)市說成全國(guó),肯定不合適。讀到這里,搞深度學(xué)習(xí)的同學(xué)一定不服氣,或者很生氣。你先別急,等讀完后面的內(nèi)容,你就會(huì)發(fā)現(xiàn),不管CNN網(wǎng)絡(luò)有多少層,還是很淺,涉及的任務(wù)還是很小。
各個(gè)領(lǐng)域的研究人員看人工智能,如果按照印度人的諺語可以叫做“盲人摸象”,但這顯然是言語冒犯了,還是中國(guó)的文豪蘇軾游廬山時(shí)說得有水準(zhǔn):
“橫看成嶺側(cè)成峰,遠(yuǎn)近高低各不同。
不識(shí)廬山真面目,只緣身在此山中。”
其二,人工智能發(fā)展的斷代現(xiàn)象。由于歷史發(fā)展的原因,人工智能自1980年代以來,被分化出以上幾大學(xué)科,相互獨(dú)立發(fā)展,而且這些學(xué)科基本拋棄了之前30年以邏輯推理與啟發(fā)式搜索為主的研究方法,取而代之的是概率統(tǒng)計(jì)(建模、學(xué)習(xí))的方法。留在傳統(tǒng)人工智能領(lǐng)域(邏輯推理、搜索博弈、專家系統(tǒng)等)而沒有分流到以上分支學(xué)科的老一輩中,的確是有很多全局視野的,但多數(shù)已經(jīng)過世或退休了。他們之中只有極少數(shù)人在80-90年代,以敏銳的眼光,過渡或者引領(lǐng)了概率統(tǒng)計(jì)與學(xué)習(xí)的方法,成為了學(xué)術(shù)領(lǐng)軍人物。而新生代(80年代以后)留在傳統(tǒng)人工智能學(xué)科的研究人員很少,他們又不是很了解那些被分化出去的學(xué)科中的具體問題。
這種領(lǐng)域的分化與歷史的斷代,客觀上造成了目前的學(xué)界和產(chǎn)業(yè)界思路和觀點(diǎn)相當(dāng)“混亂”的局面,媒體上的混亂就更放大了。但是,以積極的態(tài)度來看,這個(gè)局面確實(shí)為現(xiàn)在的年輕一代研究人員、研究生提供了一個(gè)很好的建功立業(yè)的機(jī)會(huì)和廣闊的舞臺(tái)。
鑒于這些現(xiàn)象,《視覺求索》編輯部同仁和同行多次催促我寫一篇人工智能的評(píng)論和介紹材料。我就免為其難,僅以自己30年來讀書和跨學(xué)科研究的經(jīng)歷、觀察和思辨,淺談什么是人工智能;它的研究現(xiàn)狀、任務(wù)與構(gòu)架;以及如何走向統(tǒng)一。
我寫這篇文章的動(dòng)機(jī)在于三點(diǎn):
(1)為在讀的研究生們、為有志進(jìn)入人工智能研究領(lǐng)域的年輕學(xué)者開闊視野。
(2)為那些對(duì)人工智能感興趣、喜歡思考的人們,做一個(gè)前沿的、綜述性的介紹。
(3)為公眾與媒體從業(yè)人員,做一個(gè)人工智能科普,澄清一些事實(shí)。
本文來歷:本文技術(shù)內(nèi)容選自我2014年來在多所大學(xué)和研究所做的講座報(bào)告。2017年7月,微軟的沈向洋博士要求我在一個(gè)朋友聚會(huì)上做一個(gè)人工智能的簡(jiǎn)介,我增加了一些通俗的內(nèi)容。2017年9月,在譚鐵牛和王蘊(yùn)紅老師的要求下,我參加了中科院自動(dòng)化所舉辦的人工智能人機(jī)交互講習(xí)班,他們派速記員和一名博士生整理出本文初稿。如果沒有他們的熱情幫助,這篇文章是不可能寫成的。原講座兩個(gè)半小時(shí),本文做了刪減和文字修飾。仍然有四萬字,加上大量插圖和示例。很抱歉,無法再壓縮了。
本文摘要:文章前四節(jié)淺顯探討什么是人工智能和當(dāng)前所處的歷史時(shí)期,后面六節(jié)分別探討六個(gè)學(xué)科的重點(diǎn)研究問題和難點(diǎn),有什么樣的前沿的課題等待年輕人去探索,最后一節(jié)討論人工智能是否以及如何成為一門成熟的科學(xué)體系。
誠(chéng)如屈子所言:“路漫漫其修遠(yuǎn)兮,吾將上下而求索”。
第一節(jié)現(xiàn)狀評(píng)估:正視現(xiàn)實(shí)
人工智能的研究,簡(jiǎn)單來說,就是要通過智能的機(jī)器,延伸和增強(qiáng)(augment)人類在改造自然、治理社會(huì)的各項(xiàng)任務(wù)中的能力和效率,最終實(shí)現(xiàn)一個(gè)人與機(jī)器和諧共生共存的社會(huì)。這里說的智能機(jī)器,可以是一個(gè)虛擬的或者物理的機(jī)器人。與人類幾千年來創(chuàng)造出來的各種工具和機(jī)器不同的是,智能機(jī)器有自主的感知、認(rèn)知、決策、學(xué)習(xí)、執(zhí)行和社會(huì)協(xié)作能力,符合人類情感、倫理與道德觀念。
拋開科幻的空想,談幾個(gè)近期具體的應(yīng)用。無人駕駛大家聽了很多,先說說軍用。軍隊(duì)里的一個(gè)班或者行動(dòng)組,現(xiàn)在比如要七個(gè)人,將來可以減到五個(gè)人,另外兩個(gè)用機(jī)器來替換。其次,機(jī)器人可以用在救災(zāi)和一些危險(xiǎn)的場(chǎng)景,如核泄露現(xiàn)場(chǎng),人不能進(jìn)去,必須靠機(jī)器人。醫(yī)用的例子很多:智能的假肢或外骨架(exoskeleton)與人腦和身體信號(hào)對(duì)接,增強(qiáng)人的行動(dòng)控制能力,幫助殘疾人更好生活。此外,還有就是家庭養(yǎng)老等服務(wù)機(jī)器人等。
但是,這方面的進(jìn)展很不盡人意。以前日本常常炫耀他們機(jī)器人能跳舞,中國(guó)有一次春節(jié)晚會(huì)也拿來表演了。那都是事先編寫的程序,結(jié)果一個(gè)福島核輻射事故一下子把所有問題都暴露了,發(fā)現(xiàn)他們的機(jī)器人一點(diǎn)招都沒有。美國(guó)也派了機(jī)器人過去,同樣出了很多問題。比如一個(gè)簡(jiǎn)單的技術(shù)問題,機(jī)器人進(jìn)到災(zāi)難現(xiàn)場(chǎng),背后拖一根長(zhǎng)長(zhǎng)的電纜,要供電和傳數(shù)據(jù),結(jié)果電纜就被纏住了,動(dòng)彈不得。有一次,一位同事在餐桌上半開玩笑說,以現(xiàn)在的技術(shù),要讓一個(gè)機(jī)器人長(zhǎng)時(shí)間像人一樣處理問題,可能要自帶兩個(gè)微型的核電站,一個(gè)發(fā)電驅(qū)動(dòng)機(jī)械和計(jì)算設(shè)備,另一個(gè)發(fā)電驅(qū)動(dòng)冷卻系統(tǒng)。順便說一個(gè),人腦的功耗大約是10-25瓦。
看到這里,有人要問了,教授說得不對(duì),我們明明在網(wǎng)上看到美國(guó)機(jī)器人讓人嘆為觀止的表現(xiàn)。比如,這一家波士頓動(dòng)力學(xué)公司(BostonDynamics)的演示,它們的機(jī)器人,怎么踢都踢不倒呢,或者踢倒了可以自己爬起來,而且在野外叢林箭步如飛呢,還有幾個(gè)負(fù)重的電驢、大狗也很酷。這家公司本來是由美國(guó)國(guó)防部支持開發(fā)出機(jī)器人來的,被谷歌收購(gòu)之后、就不再承接國(guó)防項(xiàng)目??墒?,谷歌發(fā)現(xiàn)除了燒錢,目前還找不到商業(yè)出路,最近一直待售之中。您會(huì)問,那谷歌不是很牛嗎?DeepMind下圍棋不是也一次次刺激中國(guó)人的神經(jīng)嗎?有一個(gè)逆天的機(jī)器人身體、一個(gè)逆天的機(jī)器人大腦,它們都在同一個(gè)公司內(nèi)部,那為什么沒有做出一個(gè)人工智能的產(chǎn)品呢?他們何嘗不在夜以繼日的奮戰(zhàn)之中啊。
人工智能炒作了這么長(zhǎng)時(shí)間,您看看周圍環(huán)境,您看到機(jī)器人走到大街上了?沒有。您看到人工智能進(jìn)入家庭了嗎?其實(shí)還沒有。您可能唯一直接領(lǐng)教過的是基于大數(shù)據(jù)和深度學(xué)習(xí)訓(xùn)練出來的聊天機(jī)器人,你可能跟Ta聊過。用我老家湖北人的話,這就叫做“扯白”---東扯西拉、說白話。如果你沒有被Ta氣得背過氣的話,要么您真的是閑得慌,要么是您真的有耐性。
為了測(cè)試技術(shù)現(xiàn)狀,美國(guó)國(guó)防部高級(jí)研究署2015年在洛杉磯郊區(qū)Pomona做了一個(gè)DARPARobotChallenge(DRC),懸賞了兩百萬美金獎(jiǎng)給競(jìng)賽的第一名。有很多隊(duì)伍參加了這個(gè)競(jìng)賽,上圖是韓國(guó)科技大學(xué)隊(duì)贏了第一名,右邊是他們的機(jī)器人在現(xiàn)場(chǎng)開門進(jìn)去“救災(zāi)”。整個(gè)比賽場(chǎng)景設(shè)置的跟好萊塢片場(chǎng)一樣,復(fù)制了三個(gè)賽場(chǎng),全是冒煙的救災(zāi)場(chǎng)面。機(jī)器人自己開著一個(gè)車子過來,自己下車,開門,去拿工具,關(guān)閥門,在墻上開洞,最后過一個(gè)磚頭做的障礙區(qū),上樓梯等一系列動(dòng)作。我當(dāng)時(shí)帶著學(xué)生在現(xiàn)場(chǎng)看,因?yàn)槲覀儎偤糜幸粋€(gè)大的DARPA項(xiàng)目,項(xiàng)目主管是里面的裁判員。當(dāng)時(shí),我第一感覺還是很震撼的,感覺不錯(cuò)。后來發(fā)現(xiàn)內(nèi)情,原來機(jī)器人所有的動(dòng)作基本上是人在遙控的。每一步、每一個(gè)場(chǎng)景分別有一個(gè)界面,每個(gè)學(xué)生控制一個(gè)模塊。感知、認(rèn)知、動(dòng)作都是人在指揮。就是說這個(gè)機(jī)器人其實(shí)并沒有自己的感知、認(rèn)知、思維推理、規(guī)劃的能力。造成的結(jié)果是,你就可以看到一些不可思議的事情。比如說這個(gè)機(jī)器人去抓門把手的時(shí)候,因?yàn)樗亢笈_(tái)人的感知,誤差一厘米,就沒抓著;或者腳踩樓梯的時(shí)候差了一點(diǎn)點(diǎn),它重心就失去了平衡,可是在后面控制的學(xué)生沒有重力感知信號(hào),一看失去平衡,他來不及反應(yīng)了。你想想看,我們?nèi)瞬然艘幌伦幽鼙3制胶?,因?yàn)槟阏麄€(gè)人都在一起反應(yīng),可是那個(gè)學(xué)生只是遠(yuǎn)遠(yuǎn)地看著,他反應(yīng)不過來,所以機(jī)器人就東倒西歪。
這還是一個(gè)簡(jiǎn)單的場(chǎng)景。其一、整個(gè)場(chǎng)景都是事先設(shè)定的,各個(gè)團(tuán)隊(duì)也都反復(fù)操練過的。如果是沒有遇見的場(chǎng)景,需要靈機(jī)決斷呢?其二、整個(gè)場(chǎng)景還沒有人出現(xiàn),如果有其他人出現(xiàn),需要社會(huì)活動(dòng)(如語言交流、分工協(xié)作)的話,那復(fù)雜度就又要上兩個(gè)數(shù)量級(jí)了。
其實(shí),要是完全由人手動(dòng)控制,現(xiàn)在的機(jī)器人都可以做手術(shù)了,而且手術(shù)機(jī)器人已經(jīng)在普及之中。上圖是我實(shí)驗(yàn)室與一家公司合作的項(xiàng)目,機(jī)器人可以開拉鏈、檢查包裹、用鉗子撤除炸彈等,都是可以實(shí)現(xiàn)的?,F(xiàn)在的機(jī)器人,機(jī)械控制這一塊已經(jīng)很不錯(cuò)了,但這也不是完全管用。比如上面提到的波士頓動(dòng)力學(xué)公司的機(jī)器人電驢走山路很穩(wěn)定,但是它馬達(dá)噪音大,轟隆隆的噪音,到戰(zhàn)場(chǎng)上去把目標(biāo)都給暴露了。特別是晚上執(zhí)勤、偵察,你搞那么大動(dòng)靜,怎么行呢?
2015年的這次DRC競(jìng)賽,暫時(shí)就斷送了美國(guó)機(jī)器人研究的重大項(xiàng)目的立項(xiàng)。外行(包含國(guó)會(huì)議員)從表面看,以為這個(gè)問題已經(jīng)解決了,應(yīng)該留給公司去開發(fā);內(nèi)行看到里面的困難,覺得一時(shí)半會(huì)沒有大量經(jīng)費(fèi)解決不了。這個(gè)認(rèn)識(shí)上的落差在某種程度上就是“科研的冬天”到來的前題條件。
小結(jié)一下,現(xiàn)在的人工智能和機(jī)器人,關(guān)鍵問題是缺乏物理的常識(shí)和社會(huì)的常識(shí)“Commonsense”。這是人工智能研究最大的障礙。那么什么是常識(shí)?常識(shí)就是我們?cè)谶@個(gè)世界和社會(huì)生存的最基本的知識(shí):(1)它使用頻率最高;(2)它可以舉一反三,推導(dǎo)出并且?guī)椭@取其它知識(shí)。這是解決人工智能研究的一個(gè)核心課題。我自2010年來,一直在帶領(lǐng)一個(gè)跨學(xué)科團(tuán)隊(duì),攻關(guān)視覺常識(shí)的獲取與推理問題。我在自動(dòng)化所做了另外一個(gè)關(guān)于視覺常識(shí)報(bào)告,也被轉(zhuǎn)錄成中文了,不久會(huì)發(fā)表出來。
那么是不是說,我們離真正的人工智能還很遙遠(yuǎn)呢?其實(shí)也不然。關(guān)鍵是研究的思路要找對(duì)問題和方向。自然界已經(jīng)為我們提供了很好的案例。
下面,我就來看一下,自然界給我們展示的解答。
第二節(jié)未來目標(biāo):一只烏鴉給我們的啟示
同屬自然界的鳥類,我們對(duì)比一下體型大小都差不多的烏鴉和鸚鵡。鸚鵡有很強(qiáng)的語言模仿能力,你說一個(gè)短句,多說幾遍,它能重復(fù),這就類似于當(dāng)前的由數(shù)據(jù)驅(qū)動(dòng)的聊天機(jī)器人。二者都可以說話,但鸚鵡和聊天機(jī)器人都不明白說話的語境和語義,也就是它們不能把說的話對(duì)應(yīng)到物理世界和社會(huì)的物體、場(chǎng)景、人物,不符合因果與邏輯。
可是,烏鴉就遠(yuǎn)比鸚鵡聰明,它們能夠制造工具,懂得各種物理的常識(shí)和人的活動(dòng)的社會(huì)常識(shí)。
下面,我就介紹一只烏鴉,它生活在復(fù)雜的城市環(huán)境中,與人類交互和共存。YouTube網(wǎng)上有不少這方面的視頻,大家可以找來看看。我個(gè)人認(rèn)為,人工智能研究該搞一個(gè)“烏鴉圖騰”,因?yàn)槲覀儽仨氄J(rèn)真向它們學(xué)習(xí)。
上圖a是一只烏鴉,被研究人員在日本發(fā)現(xiàn)和跟蹤拍攝的。烏鴉是野生的,也就是說,沒人管,沒人教。它必須靠自己的觀察、感知、認(rèn)知、學(xué)習(xí)、推理、執(zhí)行,完全自主生活。假如把它看成機(jī)器人的話,它就在我們現(xiàn)實(shí)生活中活下來。如果這是一個(gè)自主的流浪漢進(jìn)城了,他要在城里活下去,包括與城管周旋。
首先,烏鴉面臨一個(gè)任務(wù),就是尋找食物。它找到了堅(jiān)果(至于如何發(fā)現(xiàn)堅(jiān)果里面有果肉,那是另外一個(gè)例子了),需要砸碎,可是這個(gè)任務(wù)超出它的物理動(dòng)作的能力。其它動(dòng)物,如大猩猩會(huì)使用工具,找?guī)讐K石頭,一塊大的墊在底下,一塊中等的拿在手上來砸。烏鴉怎么試都不行,它把堅(jiān)果從天上往下拋,發(fā)現(xiàn)解決不了這個(gè)任務(wù)。在這個(gè)過程中,它就發(fā)現(xiàn)一個(gè)訣竅,把果子放到路上讓車軋過去(圖b),這就是“鳥機(jī)交互”了。后來進(jìn)一步發(fā)現(xiàn),雖然堅(jiān)果被軋碎了,但它到路中間去吃是一件很危險(xiǎn)的事。因?yàn)樵谝粋€(gè)車水馬龍的路面上,隨時(shí)它就犧牲了。我這里要強(qiáng)調(diào)一點(diǎn),這個(gè)過程是沒有大數(shù)據(jù)訓(xùn)練的,也沒有所謂監(jiān)督學(xué)習(xí),烏鴉的生命沒有第二次機(jī)會(huì)。這是與當(dāng)前很多機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)完全不同的機(jī)制。
然后,它又開始觀察了,見圖c。它發(fā)現(xiàn)在靠近紅綠路燈的路口,車子和人有時(shí)候停下了。這時(shí),它必須進(jìn)一步領(lǐng)悟出紅綠燈、斑馬線、行人指示燈、車子停、人流停這之間復(fù)雜的因果鏈。甚至,哪個(gè)燈在哪個(gè)方向管用、對(duì)什么對(duì)象管用。搞清楚之后,烏鴉就選擇了一根正好在斑馬線上方的一根電線,蹲下來了(圖d)。這里我要強(qiáng)調(diào)另一點(diǎn),也許它觀察和學(xué)習(xí)的是別的地點(diǎn),那個(gè)點(diǎn)沒有這些蹲點(diǎn)的條件。它必須相信,同樣的因果關(guān)系,可以搬到當(dāng)前的地點(diǎn)來用。這一點(diǎn),當(dāng)前很多機(jī)器學(xué)習(xí)方法是做不到的。比如,一些增強(qiáng)學(xué)習(xí)方法,讓機(jī)器人抓取一些固定物體,如積木玩具,換一換位置都不行;打游戲的人工智能算法,換一換畫面,又得重新開始學(xué)習(xí)。
它把堅(jiān)果拋到斑馬線上,等車子軋過去,然后等到行人燈亮了(圖e)。這個(gè)時(shí)候,車子都停在斑馬線外面,它終于可以從容不迫地走過去,吃到了地上的果肉。你說這個(gè)烏鴉有多聰明,這是我期望的真正的智能。
這個(gè)烏鴉給我們的啟示,至少有三點(diǎn):
其一、它是一個(gè)完全自主的智能。感知、認(rèn)知、推理、學(xué)習(xí)、和執(zhí)行,它都有。我們前面說的,世界上一批頂級(jí)的科學(xué)家都解決不了的問題,烏鴉向我們證明了,這個(gè)解存在。
其二、你說它有大數(shù)據(jù)學(xué)習(xí)嗎?這個(gè)烏鴉有幾百萬人工標(biāo)注好的訓(xùn)練數(shù)據(jù)給它學(xué)習(xí)嗎?沒有,它自己把這個(gè)事通過少量數(shù)據(jù)想清楚了,沒人教它。
其三、烏鴉頭有多大?不到人腦的1%大小。人腦功耗大約是10-25瓦,它就只有0.1-0.2瓦,就實(shí)現(xiàn)功能了,根本不需要前面談到的核動(dòng)力發(fā)電。這給硬件芯片設(shè)計(jì)者也提出了挑戰(zhàn)和思路。十幾年前我到中科院計(jì)算所講座,就說要做視覺芯片VPU,應(yīng)該比后來的GPU更超前。我最近參與了一個(gè)計(jì)算機(jī)體系結(jié)構(gòu)的大項(xiàng)目,也有這個(gè)目標(biāo)。
在座的年輕人想想看,你們有很大的機(jī)會(huì)在這里面,這個(gè)解存在,但是我們不知道怎么用一個(gè)科學(xué)的手段去實(shí)現(xiàn)這個(gè)解。
講通俗一點(diǎn),我們要尋找“烏鴉”模式的智能,而不要“鸚鵡”模式的智能。當(dāng)然,我們必須也要看到,“鸚鵡”模式的智能在商業(yè)上,針對(duì)某些垂直應(yīng)用或許有效。
我這里不是說要把所有智能問題都解決了,才能做商業(yè)應(yīng)用。單項(xiàng)技術(shù)如果成熟落地,也可以有巨大商業(yè)價(jià)值。我這里談的是科學(xué)研究的目標(biāo)。
第三節(jié)歷史時(shí)期:從“春秋五霸”到“戰(zhàn)國(guó)六雄”
要搞清楚人工智能的發(fā)展趨勢(shì),首先得回顧歷史。讀不懂歷史,無法預(yù)測(cè)未來。這一節(jié),我就結(jié)合自己的經(jīng)歷談一下我的觀點(diǎn),不見得準(zhǔn)確和全面。為了讓非專業(yè)人士便于理解,我把人工智能的60年歷史與中國(guó)歷史的一個(gè)時(shí)期做一個(gè)類比,但絕對(duì)不要做更多的推廣和延伸。如下圖所示,這個(gè)的時(shí)期是以美國(guó)時(shí)間為準(zhǔn)的,中國(guó)一般會(huì)滯后一兩年。
首先,從表面一層來看。反映在一些產(chǎn)業(yè)新聞和社會(huì)新聞層面上,人工智能經(jīng)過了幾起幾落,英文叫做BoomandBust,意思是一哄而上、一哄而散,很形象。每次興盛期都有不同的技術(shù)在里面起作用。
最早一次的興起是1956-1974,以命題邏輯、謂詞邏輯等知識(shí)表達(dá)、啟發(fā)式搜索算法為代表。當(dāng)時(shí)就已經(jīng)開始研究下棋了。然后進(jìn)入第一次冬天。這個(gè)時(shí)候,中國(guó)結(jié)束文革,開始學(xué)習(xí)西方科技。我上小學(xué)的時(shí)候,就聽到報(bào)紙報(bào)道計(jì)算機(jī)與人下國(guó)際象棋,十分好奇。
1980年代初又興起了第二次熱潮,一批吹牛的教授、研究人員登場(chǎng)了。做專家系統(tǒng)、知識(shí)工程、醫(yī)療診斷等,中國(guó)當(dāng)時(shí)也有人想做中醫(yī)等系統(tǒng)。雖然這次其中也有學(xué)者拿了圖靈獎(jiǎng),但這些研究沒有很好的理論根基。1986年我上了中國(guó)科大計(jì)算機(jī)系,我對(duì)計(jì)算機(jī)專業(yè)本身不是最感興趣,覺得那就是一個(gè)工具和技能,而人工智能方向水很深,值得長(zhǎng)期探索,所以我很早就去選修了人工智能的研究生課程,是由自動(dòng)化系一個(gè)到美國(guó)進(jìn)修的老師回來開的課。上完課,我很失望,感覺撲空了。它基本還是以符號(hào)為主的推理,離現(xiàn)實(shí)世界很遠(yuǎn)。當(dāng)時(shí)人工智能里面的人員也很悲觀,沒士氣。所以,我就去閱讀關(guān)于人的智能的相關(guān)領(lǐng)域:神經(jīng)生理學(xué)、心理學(xué)、認(rèn)知科學(xué)等,這就讓我摸到了計(jì)算機(jī)視覺這個(gè)新興的學(xué)科。在80年代末有個(gè)短暫的神經(jīng)網(wǎng)絡(luò)的研究熱潮,我們當(dāng)時(shí)本科五年制,我的大學(xué)畢業(yè)論文就是做神經(jīng)網(wǎng)絡(luò)的。隨后,人工智能就跌入了近30年的寒冬。
第三次熱潮就是最近兩年興起的深度學(xué)習(xí)推動(dòng)的。有了以前的教訓(xùn),一開始學(xué)者們都很謹(jǐn)慎,出來警告說我們做的是特定任務(wù),不是通用人工智能,大家不要炒作。但是,攔不住了。公司要做宣傳,然后,大家開始加碼宣傳。這就像踩踏事件,處在前面的人是清醒的,他們叫停,可是后面大量聞信趕來的人不知情,拼命往里面擠。人工智能的確是太重要了,誰都不想誤了這趟車。也有人認(rèn)為這次是真的,不會(huì)再有冬天了。冬天不冬天,那就要看我們現(xiàn)在怎么做了。
所以說,從我讀大學(xué)開始,人工智能這個(gè)名詞從公眾視線就消失了近30年。我現(xiàn)在回頭看,其實(shí)它當(dāng)時(shí)并沒有消失,而是分化了。研究人員分別聚集到五個(gè)大的領(lǐng)域或者叫做學(xué)科:計(jì)算機(jī)視覺、自然語言理解、認(rèn)知科學(xué)、機(jī)器學(xué)習(xí)、機(jī)器人學(xué)。這些領(lǐng)域形成了自己的學(xué)術(shù)圈子、國(guó)際會(huì)議、國(guó)際期刊,各搞各的,獨(dú)立發(fā)展。人工智能里面還有一些做博弈下棋、常識(shí)推理,還留在里面繼續(xù)搞,但人數(shù)不多。我把這30年叫做一個(gè)“分治時(shí)期”,相當(dāng)于中國(guó)歷史的“春秋時(shí)期”。春秋五霸就相當(dāng)于這分出去的五個(gè)學(xué)科,大家各自發(fā)展壯大。
其次、從深一層的理論基礎(chǔ)看。我把人工智能發(fā)展的60年分為兩個(gè)階段。
第一階段:前30年以數(shù)理邏輯的表達(dá)與推理為主。這里面有一些杰出的代表人物,如JohnMcCarthy、MarvinMinsky、HerbertSimmon。他們懂很多認(rèn)知科學(xué)的東西,有很強(qiáng)的全局觀念。這些都是我讀大學(xué)的時(shí)候仰慕的人物,他們拿過圖靈獎(jiǎng)和其它一堆大獎(jiǎng)。但是,他們的工具基本都是基于數(shù)理邏輯和推理。這一套邏輯的東西發(fā)展得很干凈、漂亮,很值得我們學(xué)習(xí)。大家有興趣,可以參考一本最新工具書:TheHandbookofKnowledgeRepresentation,2007年編寫的,1000多頁(yè)。但是,這些符號(hào)的知識(shí)表達(dá)不落地,全書談的沒有實(shí)際的圖片和系統(tǒng);所以,一本1000多頁(yè)的書,PDF文件只有10M,下載非常快。而我現(xiàn)在給的這個(gè)講座,PPT差不多1G,因?yàn)橛写罅康膱D片、視頻,是真實(shí)的例子。
這個(gè)邏輯表達(dá)的“體制”,就相當(dāng)于中國(guó)的周朝,周文王建立了一個(gè)相對(duì)松散的諸侯部落體制,后來指揮不靈,就瓦解了,進(jìn)入一個(gè)春秋五霸時(shí)期。而人工智能正好也分出了五大領(lǐng)域。
第二階段:后30年以概率統(tǒng)計(jì)的建模、學(xué)習(xí)和計(jì)算為主。在10余年的發(fā)展之后,“春秋五霸”在1990年中期都開始找到了概率統(tǒng)計(jì)這個(gè)新“體制”:統(tǒng)計(jì)建模、機(jī)器學(xué)習(xí)、隨機(jī)計(jì)算算法等。
在這個(gè)體制的轉(zhuǎn)型過程中,起到核心作用的有這么幾個(gè)人。講得通俗一點(diǎn),他們屬于先知先覺者,提前看到了人工智能的發(fā)展趨勢(shì),押對(duì)了方向(就相當(dāng)于80年代買了微軟、英特爾股票;90年代末,押對(duì)了中國(guó)房地產(chǎn)的那一批人)。他們沒有進(jìn)入中國(guó)媒體的宣傳視野。我簡(jiǎn)要介紹一下,從中我們也可以學(xué)習(xí)到一些治學(xué)之道。
第一個(gè)人叫UlfGrenander。他從60年代就開始做隨機(jī)過程和概率模型,是最早的先驅(qū)。60年代屬于百家爭(zhēng)鳴的時(shí)期,當(dāng)別的領(lǐng)軍人物都在談邏輯、神經(jīng)網(wǎng)絡(luò)的時(shí)候,他開始做概率模型和計(jì)算,建立了廣義模式理論,試圖給自然界各種模式建立一套統(tǒng)一的數(shù)理模型。我在以前談?dòng)?jì)算機(jī)視覺歷史的博文里寫過他,他剛剛?cè)ナ馈C绹?guó)數(shù)學(xué)學(xué)會(huì)AMS剛剛以他名字設(shè)立了一個(gè)獎(jiǎng)項(xiàng)(GrenanderPrize)獎(jiǎng)給對(duì)統(tǒng)計(jì)模型和計(jì)算領(lǐng)域有貢獻(xiàn)的學(xué)者。他絕對(duì)是學(xué)術(shù)思想的先驅(qū)人物。
第二個(gè)人是JudeaPearl。他是我在UCLA的同事,原來是做啟發(fā)式搜索算法的。80年代提出貝葉斯網(wǎng)絡(luò)把概率知識(shí)表達(dá)于認(rèn)知推理,并估計(jì)推理的不確定性。到90年代末,他進(jìn)一步研究因果推理,這又一次領(lǐng)先于時(shí)代。2011年因?yàn)檫@些貢獻(xiàn)他拿了圖靈獎(jiǎng)。他是一個(gè)知識(shí)淵博、思維活躍的人,不斷有原創(chuàng)思想。80多歲了,還在高產(chǎn)發(fā)表論文。順便吹牛一句,他是第一個(gè)在UCLA計(jì)算機(jī)系和統(tǒng)計(jì)系兼職的教授,我是多年之后第二個(gè)這樣兼職的。其實(shí)搞這種跨學(xué)科研究當(dāng)時(shí)思想超前,找工作或者評(píng)議的時(shí)候,兩邊的同行都不待見,不認(rèn)可。
第三個(gè)人是LesleiValiant。他因離散數(shù)學(xué)、計(jì)算機(jī)算法、分布式體系結(jié)構(gòu)方面的大量貢獻(xiàn),2010年拿了圖靈獎(jiǎng)。1984年,他發(fā)表了一篇文章,開創(chuàng)了computationallearningtheory。他問了兩個(gè)很簡(jiǎn)單、但是深刻的問題。第一個(gè)問題:你到底要多少例子、數(shù)據(jù)才能近似地、以某種置信度學(xué)到某個(gè)概念,就是PAClearning;第二個(gè)問題:如果兩個(gè)弱分類器綜合在一起,能否提高性能?如果能,那么不斷加弱分類器,就可以收斂到強(qiáng)分類器。這個(gè)就是Boosting和Adaboost的來源,后來被他的一個(gè)博士后設(shè)計(jì)了算法。順便講一句,這個(gè)機(jī)器學(xué)習(xí)的原理,其實(shí)中國(guó)人早就在生活中觀察到了,就是俗話說的“三個(gè)臭裨將、頂個(gè)諸葛亮”。這里的裨將就是副官,打仗的時(shí)候湊在一起商量對(duì)策,被民間以訛傳訛,說成“皮匠”。Valiant為人非常低調(diào)。我1992年去哈佛讀書的時(shí)候,第一學(xué)期就上他的課,當(dāng)時(shí)聽不懂他說話,他上課基本是自言自語。他把自己科研的問題直接布置作業(yè)讓我們?nèi)プ?,到哪里都找不到參考答案,也沒有任何人可以問??喟。?00分的課我考了40多分。上課的人從四十多人,到了期中只有十來個(gè)人,我開始擔(dān)心是不是要掛科了。最后,還是堅(jiān)持到期末。他把成績(jī)貼在他辦公室門上,當(dāng)我懷著忐忑不安心情去看分的時(shí)候,發(fā)現(xiàn)他給每個(gè)人都是A。
第四個(gè)人是DavidMumford。我把他放在這里,有點(diǎn)私心,因?yàn)樗俏也┦繉?dǎo)師。他說他60年代初本來對(duì)人工智能感興趣。因?yàn)樗麛?shù)學(xué)能力特別強(qiáng),上代數(shù)幾何課程的時(shí)候就發(fā)現(xiàn)能夠證明大定理了,結(jié)果一路不可收拾,拿了菲爾茨獎(jiǎng)。但是,到了80年代中期,他不忘初心,還是決定轉(zhuǎn)回到人工智能方向來,從計(jì)算機(jī)視覺和計(jì)算神經(jīng)科學(xué)入手。我聽說他把原來代數(shù)幾何的書全部拿下書架放在走廊,讓人拿走,再也不看了。數(shù)學(xué)家來訪問,他也不接待了。計(jì)算機(jī)視覺80年代至90年代初,一個(gè)最大的流派就是做幾何和不變量,他是這方面的行家,但他根本不過問這個(gè)方向。他就從頭開始學(xué)概率,那個(gè)時(shí)候他搞不懂的問題就帶我去敲樓上統(tǒng)計(jì)系教授的門,比如去問哈佛一個(gè)有名的概率學(xué)家PersyDiaconis。他完全是一個(gè)學(xué)者,放下架子去學(xué)習(xí)新東西,直奔關(guān)鍵的體系,而不是拿著手上用慣了的錘子到處找釘子---這是我最佩服的地方。然后,他皈依了廣義模式理論。他的貢獻(xiàn),我就避嫌不說了。
這個(gè)時(shí)期,還有一個(gè)重要的人物是做神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的多倫多大學(xué)教授Hinton。我上大學(xué)的時(shí)候,80年代后期那一次神經(jīng)網(wǎng)絡(luò)熱潮,他就出名了。他很有思想,也很堅(jiān)持,是個(gè)學(xué)者型的人物。所不同的是,他下面的團(tuán)隊(duì)有點(diǎn)像搖滾歌手,能憑著一首通俗歌曲(代碼),迅速紅遍大江南北。這里順便說一下,我跟Hinton只見過一面。他腰椎疾病使得他不能到處作報(bào)告,前幾年來UCLA做講座(那時(shí)候深度學(xué)習(xí)剛剛開始起來),我們安排了一個(gè)面談。一見面,他就說“我們總算見面了”,因?yàn)樗x過我早期做的統(tǒng)計(jì)紋理模型和隨機(jī)算法的一些論文,他們學(xué)派的一些模型和算法與我們做的工作在數(shù)理層面有很多本質(zhì)的聯(lián)系。我打印了一篇綜述文章給他帶在坐火車回去的路上看。這是一篇關(guān)于隱式(馬爾科夫場(chǎng))與顯式(稀疏)模型的統(tǒng)一與過渡的信息尺度的論文,他回Toronto后就發(fā)來郵件,說很高興讀到這篇論文。很有意思的是,這篇論文的初稿,我和學(xué)生匿名投到CVPR會(huì)議,三個(gè)評(píng)分是“(5)強(qiáng)烈拒絕;(5)強(qiáng)烈拒絕;(4)拒絕”。評(píng)論都很短:“這篇文章不知所云,很怪異weird”。我們覺得文章死定了,就懶得反駁(rebuttal),結(jié)果出乎意外地被錄取了。當(dāng)然,發(fā)表了也沒人讀懂。所以,我就寫成一篇長(zhǎng)的綜述,算是暫時(shí)擱置了。我把這篇論文給他看,Hinton畢竟是行家,他一定也想過類似的問題。最近,我們又回去做這個(gè)問題,我在今年的ICIP大會(huì)特邀報(bào)告上還提到這個(gè)問題,后面也會(huì)作為一個(gè)《視覺求索》文章發(fā)布出來。這是一個(gè)十分關(guān)鍵的問題,就是兩大類概率統(tǒng)計(jì)模型如何統(tǒng)一起來(就像物理學(xué),希望統(tǒng)一某兩個(gè)力和場(chǎng)),這是繞不過去的。
扯遠(yuǎn)了,回到人工智能的歷史時(shí)期,我作了一個(gè)比較通俗的說法,讓大家好記住,相當(dāng)于咱們中國(guó)早期的歷史。早期數(shù)理邏輯的體制相當(dāng)于周朝,到80年代這個(gè)體制瓦解了,人工智能大概有二三十年不存在了,說起人工智能大家都覺得不著調(diào),污名化了。其實(shí),它進(jìn)入一個(gè)春秋五霸時(shí)期,計(jì)算機(jī)視覺、自然語言理解、認(rèn)知科學(xué)、機(jī)器學(xué)習(xí)、機(jī)器人學(xué)五大學(xué)科獨(dú)立發(fā)展。在發(fā)展壯大的過程中,這些學(xué)科都發(fā)現(xiàn)了一個(gè)新的平臺(tái)或者模式,就是概率建模和隨機(jī)計(jì)算。春秋時(shí)期雖然有一些征戰(zhàn),但還是相對(duì)平靜的時(shí)期。
那么現(xiàn)在開始進(jìn)入一個(gè)什么狀態(tài)呢?這“春秋五霸”不斷擴(kuò)充地盤和人馬,在一個(gè)共同平臺(tái)上開始交互了。比如說視覺跟機(jī)器學(xué)習(xí)很早就開始融合了?,F(xiàn)在視覺與自然語言、視覺跟認(rèn)知、視覺跟機(jī)器人開始融合了。近年來,我和合作者就多次組織這樣的聯(lián)席研討會(huì)?,F(xiàn)在,學(xué)科之間則開始兼并了,就像是中國(guó)歷史上的“戰(zhàn)國(guó)七雄”時(shí)期。除了五霸,還有原來留在人工智能里面的兩個(gè)大方向:博弈決策和倫理道德。這兩者其實(shí)很接近,我后面把它們歸并到一起來講,一共六大領(lǐng)域,我把它歸納為“戰(zhàn)國(guó)六雄”。
所以,我跟那些計(jì)算機(jī)視覺的研究生和年輕人說,你們不要單純?cè)谝曈X這里做,你趕緊出去“搶地盤”,單獨(dú)做視覺,已經(jīng)沒有多少新東西可做的了,性能調(diào)不過公司的人是一方面;更麻煩的是,別的領(lǐng)域的人打進(jìn)來,把你的地盤給占了。這是必然發(fā)生的事情,現(xiàn)在正在發(fā)生的事情。
我的判斷是,我們剛剛進(jìn)入一個(gè)“戰(zhàn)國(guó)時(shí)期”,以后就要把這些領(lǐng)域統(tǒng)一起來。首先我們必須深入理解計(jì)算機(jī)視覺、自然語言、機(jī)器人等領(lǐng)域,這里面有很豐富的內(nèi)容和語意。如果您不懂這些問題domain的內(nèi)涵,僅僅是做機(jī)器學(xué)習(xí)就稱作人工智能專家,恐怕說不過去。
我們正在進(jìn)入這么一個(gè)大集成的、大變革的時(shí)代,有很多機(jī)會(huì)讓我們?nèi)ヌ剿髑把?,不要辜?fù)了這個(gè)時(shí)代。這是我演講的第一個(gè)部分:人工智能的歷史、現(xiàn)狀,發(fā)展的大趨勢(shì)。
下面,進(jìn)入我今天演講的第二個(gè)主題:用一個(gè)什么樣的構(gòu)架把這些領(lǐng)域和問題統(tǒng)一起來。我不敢說我有答案,只是給大家提出一些問題、例子和思路,供大家思考。不要指望我給你提供代碼,下載回去,調(diào)調(diào)參數(shù)就能發(fā)文章。
第四節(jié)人工智能研究的認(rèn)知構(gòu)架:小數(shù)據(jù)、大任務(wù)范式
智能是一種現(xiàn)象,表現(xiàn)在個(gè)體和社會(huì)群體的行為過程中?;氐角懊鏋貘f的例子,我認(rèn)為智能系統(tǒng)的根源可以追溯到兩個(gè)基本前提條件:
一、物理環(huán)境客觀的現(xiàn)實(shí)與因果鏈條。這是外部物理環(huán)境給烏鴉提供的、生活的邊界條件。在不同的環(huán)境條件下,智能的形式會(huì)是不一樣的。任何智能的機(jī)器必須理解物理世界及其因果鏈條,適應(yīng)這個(gè)世界。
二、智能物種與生俱來的任務(wù)與價(jià)值鏈條。這個(gè)任務(wù)是一個(gè)生物進(jìn)化的“剛需”。如個(gè)體的生存,要解決吃飯和安全問題,而物種的傳承需要交配和社會(huì)活動(dòng)。這些基本任務(wù)會(huì)衍生出大量的其它的“任務(wù)”。動(dòng)物的行為都是被各種任務(wù)驅(qū)動(dòng)的。任務(wù)代表了價(jià)值觀和決策函數(shù),這些價(jià)值函數(shù)很多在進(jìn)化過程中就已經(jīng)形成了,包括人腦中發(fā)現(xiàn)的各種化學(xué)成分的獎(jiǎng)懲調(diào)制,如多巴胺(快樂)、血清素(痛苦)、乙酰膽堿(焦慮、不確定性)、去甲腎上腺素(新奇、興奮)等。
有了物理環(huán)境的因果鏈和智能物種的任務(wù)與價(jià)值鏈,那么一切都是可以推導(dǎo)出來的。要構(gòu)造一個(gè)智能系統(tǒng),如機(jī)器人或者游戲環(huán)境中的虛擬的人物,我們先給他們定義好身體的基本行動(dòng)的功能,再定一個(gè)模型的空間(包括價(jià)值函數(shù))。其實(shí),生物的基因也就給了每個(gè)智能的個(gè)體這兩點(diǎn)。然后,它就降臨在某個(gè)環(huán)境和社會(huì)群體之中,就應(yīng)該自主地生存,就像烏鴉那樣找到一條活路:認(rèn)識(shí)世界、利用世界、改造世界。
這里說的模型的空間是一個(gè)數(shù)學(xué)的概念,我們?nèi)四X時(shí)刻都在改變之中,也就是一個(gè)抽象的點(diǎn),在這個(gè)空間中移動(dòng)。模型的空間通過價(jià)值函數(shù)、決策函數(shù)、感知、認(rèn)知、任務(wù)計(jì)劃等來表達(dá)。通俗來說,一個(gè)腦模型就是世界觀、人生觀、價(jià)值觀的一個(gè)數(shù)學(xué)的表達(dá)。這個(gè)空間的復(fù)雜度決定了個(gè)體的智商和成就。我后面會(huì)講到,這個(gè)模型的表達(dá)方式和包含哪些基本要素。
有了這個(gè)先天的基本條件(設(shè)計(jì))后,下一個(gè)重要問題:是什么驅(qū)動(dòng)了模型在空間中的運(yùn)動(dòng),也就是學(xué)習(xí)的過程?還是兩點(diǎn):
一、外來的數(shù)據(jù)。外部世界通過各種感知信號(hào),傳遞到人腦,塑造我們的模型。數(shù)據(jù)來源于觀察(observation)和實(shí)踐(experimentation)。觀察的數(shù)據(jù)一般用于學(xué)習(xí)各種統(tǒng)計(jì)模型,這種模型就是某種時(shí)間和空間的聯(lián)合分布,也就是統(tǒng)計(jì)的關(guān)聯(lián)與相關(guān)性。實(shí)踐的數(shù)據(jù)用于學(xué)習(xí)各種因果模型,將行為與結(jié)果聯(lián)系在一起。因果與統(tǒng)計(jì)相關(guān)是不同的概念。
二、內(nèi)在的任務(wù)。這就是由內(nèi)在的價(jià)值函數(shù)驅(qū)動(dòng)的行為、以期達(dá)到某種目的。我們的價(jià)值函數(shù)是在生物進(jìn)化過程中形成的。因?yàn)槿蝿?wù)的不同,我們往往對(duì)環(huán)境中有些變量非常敏感,而對(duì)其它一些變量不關(guān)心。由此,形成不同的模型。
機(jī)器人的腦、人腦都可以看成一個(gè)模型。任何一個(gè)模型由數(shù)據(jù)與任務(wù)來共同塑造。
現(xiàn)在,我們就來到一個(gè)很關(guān)鍵的地方。同樣是在概率統(tǒng)計(jì)的框架下,當(dāng)前的很多深度學(xué)習(xí)方法,屬于一個(gè)被我稱作“大數(shù)據(jù)、小任務(wù)范式(bigdataforsmalltask)”。針對(duì)某個(gè)特定的任務(wù),如人臉識(shí)別和物體識(shí)別,設(shè)計(jì)一個(gè)簡(jiǎn)單的價(jià)值函數(shù)Lossfunction,用大量數(shù)據(jù)訓(xùn)練特定的模型。這種方法在某些問題上也很有效。但是,造成的結(jié)果是,這個(gè)模型不能泛化和解釋。所謂泛化就是把模型用到其它任務(wù),解釋其實(shí)也是一種復(fù)雜的任務(wù)。這是必然的結(jié)果:你種的是瓜,怎么希望得豆呢?
我多年來一直在提倡的一個(gè)相反的思路:人工智能的發(fā)展,需要進(jìn)入一個(gè)“小數(shù)據(jù)、大任務(wù)范式(smalldataforbigtasks)”,要用大量任務(wù)、而不是大量數(shù)據(jù)來塑造智能系統(tǒng)和模型。在哲學(xué)思想上,必須有一個(gè)思路上的大的轉(zhuǎn)變和顛覆。自然辨證法里面,恩格斯講過,“勞動(dòng)創(chuàng)造了人”,這個(gè)有點(diǎn)爭(zhēng)議。我認(rèn)為一個(gè)更合適的說法是“任務(wù)塑造了智能”。人的各種感知和行為,時(shí)時(shí)刻刻都是被任務(wù)驅(qū)動(dòng)的。這是我過去很多年來一直堅(jiān)持的觀點(diǎn),也是為什么我總體上不認(rèn)可深度學(xué)習(xí)這個(gè)學(xué)派的做法,雖然我自己是最早提倡統(tǒng)計(jì)建模與學(xué)習(xí)的一批人,但是后來我看到了更大的問題和局勢(shì)。當(dāng)然,我們的假設(shè)前提是智能系統(tǒng)已經(jīng)有了前面講的基本的設(shè)置,這個(gè)系統(tǒng)設(shè)置是億萬年的進(jìn)化得來的,是不是通過大量數(shù)據(jù)了打磨(淘汰)出來的呢。有道理!如果我們把整個(gè)發(fā)展的過程都考慮進(jìn)來,智能系統(tǒng)的影響可以分成三個(gè)時(shí)間段:(1)億萬年的進(jìn)化,被達(dá)爾文理論的一個(gè)客觀的適者生存的pheontypelandscape驅(qū)動(dòng);(2)千年的文化形成與傳承;(3)幾十年個(gè)體的學(xué)習(xí)與適應(yīng)。我們?nèi)斯ぶ悄苎芯客ǔ?紤]的是第三個(gè)階段。
那么,如何定義大量的任務(wù)?人所感興趣的任務(wù)有多少,是個(gè)什么空間結(jié)構(gòu)?這個(gè)問題,心理和認(rèn)知科學(xué)一直說不清楚,寫不下來。這是人工智能發(fā)展的一個(gè)巨大挑戰(zhàn)。
理清了這些前提條件,帶著這樣的問題,下面我用六節(jié)分別介紹六大領(lǐng)域的問題和例子,看能不能找到共性的、統(tǒng)一的框架和表達(dá)模型。過去幾年來,我的研究中心一直把這六個(gè)領(lǐng)域的問題綜合在一起研究,目的就是尋找一個(gè)統(tǒng)一的構(gòu)架,找到“烏鴉”這個(gè)解。
第五節(jié)計(jì)算機(jī)視覺:從“深”到“暗”Dark,BeyondDeep
視覺是人腦最主要的信息來源,也是進(jìn)入人工智能這個(gè)殿堂的大門。我自己的研究也正是從這里入手的。這一節(jié)以一個(gè)具體例子來介紹視覺里面的問題。當(dāng)然,很多問題遠(yuǎn)遠(yuǎn)沒有被解決。
這是我家廚房的一個(gè)視角。多年前的一個(gè)下午,我女兒放學(xué)回家,我正在寫一個(gè)大的項(xiàng)目申請(qǐng)書,就拍了這一張作為例子。圖像就是一個(gè)像素的二維矩陣,可是我們感知到非常豐富的三維場(chǎng)景、行為的信息;你看的時(shí)間越長(zhǎng),理解的也越多。下面我列舉幾個(gè)被主流(指大多數(shù)研究人員)忽視的、但是很關(guān)鍵的研究問題。
一、幾何常識(shí)推理與三維場(chǎng)景構(gòu)建。以前計(jì)算機(jī)視覺的研究,需要通過多張圖像(多視角)之間特征點(diǎn)的對(duì)應(yīng)關(guān)系,去計(jì)算這些點(diǎn)在三維世界坐標(biāo)系的位置(SfM、SLAM)。其實(shí)人只需要一張圖像就可以把三維幾何估算出來。最早我在2002與一個(gè)學(xué)生韓峰發(fā)表了一篇文章,受到當(dāng)時(shí)幾何學(xué)派的嘲笑:一張圖像怎么能計(jì)算三維呢,數(shù)學(xué)上說不通呀。其實(shí),在我們的人造環(huán)境中,有很多幾何常識(shí)和規(guī)律:比如,你坐的椅子高度就是你小腿的長(zhǎng)度約16英寸,桌子約30英寸,案臺(tái)約35英寸,門高約80英寸---都是按照人的身體尺寸和動(dòng)作來設(shè)計(jì)的。另外,人造環(huán)境中有很多重復(fù)的東西,比如幾個(gè)窗戶一樣大小一致,建筑設(shè)計(jì)和城市規(guī)劃都有規(guī)則。這些就是geometriccommonsense,你根據(jù)這些幾何的約束就可以定位很多點(diǎn)的三維位置,同時(shí)估計(jì)相機(jī)位置和光軸。
見下圖所示,在這個(gè)三維場(chǎng)景中,我們的理解就可以表達(dá)成為一個(gè)層次分解(compositional)的時(shí)空因果的解譯圖(Spatial,TemporalandCausalParseGraph),簡(jiǎn)稱STC-PG。STC-PG是一個(gè)極其重要的概念,我下面會(huì)逐步介紹。
幾何重建的一個(gè)很重要的背景是,我們往往不需要追求十分精確的深度位置。比如,人對(duì)三維的感知其實(shí)都是非常不準(zhǔn)的,它的精確度取決于你當(dāng)前要執(zhí)行的任務(wù)。在執(zhí)行的過程中,你不斷地根據(jù)需要來提高精度。比如,你要去拿幾米以外的一個(gè)杯子,一開始你對(duì)杯子的方位只是一個(gè)大致的估計(jì),在你走近、伸手的過程中逐步調(diào)整精度。
這就回到上一節(jié)談的問題,不同任務(wù)對(duì)幾何與識(shí)別的精度要求不一樣。這是人腦計(jì)算非常高效的一個(gè)重要原因。最近,我以前一個(gè)博士后劉曉白(現(xiàn)在是助理教授)和我其他學(xué)生在這方面取得了很好進(jìn)展,具體可以查看他們相關(guān)文章。
二、場(chǎng)景識(shí)別的本質(zhì)是功能推理。現(xiàn)在很多學(xué)者做場(chǎng)景的分類和分割都是用一些圖像特征,用大量的圖片例子和手工標(biāo)注的結(jié)果去訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型---這是典型的“鸚鵡”模式。而一個(gè)場(chǎng)景的定義本質(zhì)上就是功能。當(dāng)你看到一個(gè)三維空間之后,人腦很快就可以想象我可以干什么:這個(gè)地方倒水,這里可以拿杯子,這里可以坐著看電視等?,F(xiàn)代的設(shè)計(jì)往往是復(fù)合的空間,就是一個(gè)房間可以多種功能,所以簡(jiǎn)單去分類已經(jīng)不合適了。比如,美式廚房可以做飯、洗菜、用餐、聊天、吃飯。臥室可以睡覺、梳妝、放衣服、看書。場(chǎng)景的定義是按照你在里面能夠干什么,這個(gè)場(chǎng)景就是個(gè)什么,按照功能劃分,這些動(dòng)作都是你想象出來的,實(shí)際圖像中并沒有。人腦感知的識(shí)別區(qū)與運(yùn)動(dòng)規(guī)劃區(qū)是直接互通的,相互影響。我的博士學(xué)生趙一彪就是做這個(gè)的,他畢業(yè)去了MIT做認(rèn)知科學(xué)博后,現(xiàn)在創(chuàng)立了一家自動(dòng)駕駛的AI公司。
為了想象這些功能,人腦有十分豐富的動(dòng)作模型,這些動(dòng)作根據(jù)尺度分為兩類(見下圖)。第一類(左圖)是與整個(gè)身體相關(guān)的動(dòng)作,如坐、站、睡覺、工作等等;第二類(右圖)是與手的動(dòng)作相關(guān)的,如砸、剁、鋸、撬等等。這些四維基本模型(三維空間加一維時(shí)間)可以通過日?;顒?dòng)記錄下來,表達(dá)了人的動(dòng)作和家具之間,以及手和工具之間的關(guān)系。正因?yàn)檫@一點(diǎn),心理學(xué)研究發(fā)現(xiàn)我們將物體分成兩大類,分別存放在腦皮層不同區(qū)域:一類是跟手的大小有關(guān),跟手的動(dòng)作相關(guān)的,如你桌上的東西;另一類是跟身體有關(guān),例如家具之類。
有了這個(gè)理解,我們就知道:下面兩張圖,雖然圖像特征完全不同,但是他們是同一類場(chǎng)景,功能上是等價(jià)的。人的活動(dòng)和行為,不管你是哪個(gè)國(guó)家、哪個(gè)歷史時(shí)期,基本是不變的。這是智能泛化的基礎(chǔ),也就是把你放到一個(gè)新的地區(qū),你不需要大數(shù)據(jù)訓(xùn)練,馬上就能理解、適應(yīng)。這是我們能夠舉一反三的一個(gè)基礎(chǔ)。
回到前面的那個(gè)STC-PG解譯圖,每個(gè)場(chǎng)景底下其實(shí)就分解成為一些動(dòng)作和功能(見STC-PG圖中的綠色方片節(jié)點(diǎn))。由計(jì)算機(jī)想象、推理的各種功能決定對(duì)場(chǎng)景的分類。想象功能就是把人的各種姿態(tài)放到三維場(chǎng)景中去擬合(見廚房解譯圖中人體線畫)。這是完全不同于當(dāng)前的深度學(xué)習(xí)方法用的分類方法。
三、物理穩(wěn)定性與關(guān)系的推理。我們的生活空間除了滿足人類的各種需求(功能、任務(wù))之外,另一個(gè)基本約束就是物理。我們對(duì)圖像的解釋和理解被表達(dá)成為一個(gè)解譯圖,這個(gè)解譯圖必須滿足物理規(guī)律,否則就是錯(cuò)誤的。比如穩(wěn)定性是人可以快速感知的,如果你發(fā)現(xiàn)周圍東西不穩(wěn),要倒了,你反應(yīng)非常快,趕緊閃開。最近我們項(xiàng)目組的耶魯大學(xué)教授BrianScholl的認(rèn)知實(shí)驗(yàn)發(fā)現(xiàn),人對(duì)物理穩(wěn)定性的反應(yīng)是毫秒級(jí),第一反應(yīng)時(shí)間大約100ms。
我們對(duì)圖像的理解包含了物體之間的物理關(guān)系,每個(gè)物體的支撐點(diǎn)在那里。比如,下面這個(gè)圖,吊燈和墻上掛的東西,如果沒有支撐點(diǎn),就會(huì)掉下來(右圖)。這個(gè)研究方向,MIT認(rèn)知科學(xué)系的JoshTenenbuam教授與我都做了多年。
我提出了一個(gè)新的場(chǎng)景理解的minimax標(biāo)準(zhǔn):minimizeinstabilityandmaximizefunctionality最小化不穩(wěn)定性且最大化功能性。這比以前我們做圖像理解的用的MDL(最小描述長(zhǎng)度)標(biāo)準(zhǔn)要更靠譜。這是解決計(jì)算機(jī)視覺的基本原理,功能和物理是設(shè)計(jì)場(chǎng)景的基本原則。幾何尺寸是附屬于功能推出來的,比如椅子的高度就是因?yàn)槟阋檬娣跃褪悄阈⊥鹊拈L(zhǎng)度。
回到我家廚房的例子,你就會(huì)問,那里面的水是如何被檢測(cè)到的呢?水是看不見的,花瓶和水壺里的水由各種方式推出來的。另外,你可能注意到,桌上的番茄醬瓶子是倒立著,為什么呢?你可能很清楚,你家的洗頭膏快用完的時(shí)候,瓶子是不是也是的倒著放的呢?這就是對(duì)粘稠液體的物理和功能理解之后的結(jié)果。由此,你可以看到我們對(duì)一個(gè)場(chǎng)景的理解是何等“深刻”,遠(yuǎn)遠(yuǎn)超過了用深度學(xué)習(xí)來做的物體分類和檢測(cè)。
四、意向、注意和預(yù)測(cè)。廚房那張圖有一個(gè)人和一只狗,我們可以進(jìn)一步識(shí)別其動(dòng)作、眼睛注視的地方,由此推導(dǎo)其動(dòng)機(jī)和意向。這樣我們可以計(jì)算她在干什么、想干什么,比如說她現(xiàn)在是渴了,還是累了。通過時(shí)間累積之后,進(jìn)而知道她知道哪些,也就是她看到了或者沒有看到什么。在時(shí)間上做預(yù)測(cè),她下面想干什么。只有把這些都計(jì)算出來了,機(jī)器才能更好地與人進(jìn)行交互。
所以,雖然我們只看到一張圖片,那張STC-PG中,我們?cè)黾恿藭r(shí)間維度,對(duì)人和動(dòng)物的之前和之后的動(dòng)作,做一個(gè)層次的分析和預(yù)測(cè)。當(dāng)機(jī)器人能夠預(yù)判別人的意圖和下面的動(dòng)作,那么它才能和人進(jìn)行互動(dòng)和合作。后面,我們講的語言對(duì)話可以幫助人機(jī)互動(dòng)和合作;但是,我們?nèi)粘:芏嘟换f(xié)助,靠的是默契,不需要言語也能做不少事。
下面的這一張圖,是多攝像機(jī)的一個(gè)綜合場(chǎng)景的解譯實(shí)例。這是我的實(shí)驗(yàn)室做出來的一個(gè)視覺系統(tǒng)。這個(gè)視頻的理解就輸出為一個(gè)大的綜合的STC-PG。在此基礎(chǔ)上,就可以輸出文字的描述(I2T)和回答提問QA。我們把它叫做視覺圖靈測(cè)試,網(wǎng)址:visualturingtest.com。
與第一節(jié)講的機(jī)器人競(jìng)賽類似,這也是一個(gè)DARPA項(xiàng)目。測(cè)試就是用大量視頻,我們算出場(chǎng)景和人的三維的模型、動(dòng)作、屬性、關(guān)系等等,然后就來回答各種各樣的1000多個(gè)問題。現(xiàn)在一幫計(jì)算機(jī)視覺的人研究VQA(視覺問答),就是拿大量的圖像和文本一起訓(xùn)練,這是典型的“鸚鵡”系統(tǒng),基本都是“扯白”。回答的文字沒有真正理解圖像的內(nèi)容,常常邏輯不通。我們這個(gè)工作是在VQA之前,認(rèn)真做了多年。我們系統(tǒng)在項(xiàng)目DARPA測(cè)試中領(lǐng)先,當(dāng)時(shí)其它團(tuán)隊(duì)根本無法完成這項(xiàng)任務(wù)。可是,現(xiàn)在科研的一個(gè)現(xiàn)實(shí)是走向“娛樂化”:膚淺的歌曲流行,大家都能唱,復(fù)雜高深的東西大家躲著走。
既然說到這里,我就順便說說一些競(jìng)賽的事情。大約從2008年開始,CVPR會(huì)議的風(fēng)氣就被人“帶到溝里”了,組織各種數(shù)據(jù)集競(jìng)賽,不談理解了,就是數(shù)字掛帥。中國(guó)很多學(xué)生和團(tuán)隊(duì)就開始參與,俗稱“刷榜”。我那個(gè)時(shí)候跟那些組織數(shù)據(jù)集的人說(其實(shí)我自己2005年是最早在湖北蓮花山做大型數(shù)據(jù)標(biāo)注的,但我一早就看到這個(gè)問題,不鼓勵(lì)刷榜),你們這些比賽前幾名肯定是中國(guó)學(xué)生或者公司?,F(xiàn)在果然應(yīng)驗(yàn)了,大部分榜上前幾名都是中國(guó)人名字或單位了。咱們刷榜比打乒乓球還厲害,刷榜變成咱們AI研究的“國(guó)球”。所謂刷榜,一般是下載了人家的代碼,改進(jìn)、調(diào)整、搭建更大模塊,這樣速度快。我曾經(jīng)訪問一家技術(shù)很牛的中國(guó)公司(不是搞視覺的),那個(gè)公司的研發(fā)主管非常驕傲,說他們刷榜總是贏,美國(guó)一流大學(xué)都不在話下。我聽得不耐煩了,我說人家就是兩個(gè)學(xué)生在那里弄,你們這么大個(gè)團(tuán)隊(duì)在這里刷,你代碼里面基本沒有算法是你自己的。如果人家之前不公布代碼,你們根本沒法玩。很多公司就拿這種刷榜的結(jié)果宣傳自己超過了世界一流水平。
五、任務(wù)驅(qū)動(dòng)的因果推理與學(xué)習(xí)。前面我談了場(chǎng)景的理解的例子,下面我談一下物體的識(shí)別和理解,以及為什么我們不需要大數(shù)據(jù)的學(xué)習(xí)模式,而是靠舉一反三的能力。
我們?nèi)耸欠浅9纳鐣?huì)動(dòng)物,就是說做什么事情都是被任務(wù)所驅(qū)動(dòng)的。這一點(diǎn),2000年前的司馬遷就已經(jīng)遠(yuǎn)在西方功利哲學(xué)之前看到了(《史記》“貨殖列傳”):
“天下熙熙,皆為利來;天下攘攘,皆為利往。”
那么,人也就帶著功利的目的來看待這個(gè)世界,這叫做“teleologicalstance”。這個(gè)物體是用來干什么的?它對(duì)我有什么用?怎么用?
當(dāng)然,有沒有用是相對(duì)于我們手頭的任務(wù)來決定的。很多東西,當(dāng)你用不上的時(shí)候,往往視而不見;一旦要急用,你就會(huì)當(dāng)個(gè)寶。俗話叫做“勢(shì)利眼”,沒辦法,這是人性!你今天干什么、明天干什么,每時(shí)每刻都有任務(wù)。俗話又叫做“屁股決定腦袋”,一個(gè)官員坐在不同位置,他就有不同的任務(wù)與思路,位置一調(diào),馬上就“物是人非”了。
我們的知識(shí)是根據(jù)我們的任務(wù)來組織的。那么什么叫做任務(wù)呢?如何表達(dá)成數(shù)學(xué)描述呢?
每個(gè)任務(wù)其實(shí)是在改變場(chǎng)景中的某些物體的狀態(tài)。牛頓發(fā)明了一個(gè)詞,在這里被借用了:叫做fluent。這個(gè)詞還沒被翻譯到中文,就是一種可以改變的狀態(tài),我暫且翻譯為“流態(tài)”吧。比如,把水燒開,水溫就是一個(gè)流態(tài);番茄醬與瓶子的空間位置關(guān)系是一個(gè)流態(tài),可以被擠出來;還有一些流態(tài)是人的生物狀態(tài),比如餓、累、喜悅、悲痛;或者社會(huì)關(guān)系:從一般人,到朋友、再到密友等。人類和動(dòng)物忙忙碌碌,都是在改變各種流態(tài),以提高我們的價(jià)值函數(shù)(利益)。
懂得這一點(diǎn),我們?cè)賮碚劺斫鈭D像中的三維場(chǎng)景和人的動(dòng)作。其實(shí),這就是因果關(guān)系的推理。所謂因果就是:人的動(dòng)作導(dǎo)致了某種流態(tài)的改變。理解圖像其實(shí)與偵探(福爾摩斯)破案一樣,他需要的數(shù)據(jù)往往就是很小的蛛絲馬跡,但是,他能看到這些蛛絲馬跡,而普通沒有受偵探訓(xùn)練的人就看不見。那么,如何才能看到這些蛛絲馬跡呢?其一、你需要大量的知識(shí),這個(gè)知識(shí)來源于圖像之外,是你想象的過程中用到的,比如一個(gè)頭發(fā)怎么掉在這里的?還有就是行為的動(dòng)機(jī)目的,犯案人員到底想改變什么“流態(tài)”?
我把這些圖像之外的東西統(tǒng)稱為“暗物質(zhì)”---DarkMatter。物理學(xué)家認(rèn)為我們可觀察的物質(zhì)和能量只是占宇宙總體的5%,剩下的95%是觀察不到的暗物質(zhì)和暗能量。視覺與此十分相似:感知的圖像往往只占5%,提供一些蛛絲馬跡;而后面的95%,包括功能、物理、因果、動(dòng)機(jī)等等是要靠人的想象和推理過程來完成的。
有了這個(gè)認(rèn)識(shí),我們來看一個(gè)例子(見下圖左)。這個(gè)例子來自我們CVPR2015年發(fā)的paper,主要作者是朱毅鑫,這也是我很喜歡的一個(gè)工作。一個(gè)人要完成的任務(wù)是砸核桃,改變桌子上那個(gè)核桃的流態(tài)。把這個(gè)任務(wù)交給UCLA一個(gè)學(xué)生,他從桌面上的工具里面選擇了一個(gè)錘子,整個(gè)過程沒有任何過人之處,因?yàn)槟阋矔?huì)這么做。
不過你細(xì)想一下,這個(gè)問題還相當(dāng)復(fù)雜。這個(gè)動(dòng)作就包含了很多信息:他為什么選這個(gè)錘子而不選別的東西,他為什么拿著錘這個(gè)柄靠后的位置?他揮動(dòng)的力度用多少,這都是經(jīng)過計(jì)算的。這還有幾千幾萬的可能其他各種選擇、解法,他沒有選擇,說明他這個(gè)選法比其它的選擇肯定會(huì)好,好在哪呢?看似簡(jiǎn)單的問題,往往很關(guān)鍵,一般人往往忽略了。
你通過這一琢磨、一對(duì)比就領(lǐng)悟到這個(gè)任務(wù)是什么,有什么竅門。以前學(xué)徒就是跟著師傅學(xué),師傅經(jīng)常在做任務(wù),徒弟就看著,師傅也不教,徒弟就靠自己領(lǐng)悟。有時(shí)候師傅還要留一手,不然你早早出師了,搶他的飯碗。有時(shí)候師傅擋著不讓你看;莫言的小說就有這樣的情節(jié)。人就是在觀察的時(shí)候,把這個(gè)任務(wù)學(xué)會(huì)了。
現(xiàn)在到一個(gè)新的場(chǎng)景(圖右),原來學(xué)習(xí)的那些工具都不存在了,完全是新的場(chǎng)景和物體,任務(wù)保持不變。你再來砸這個(gè)核桃試試看,怎么辦?人當(dāng)然沒有問題,選這個(gè)木頭做的桌子腿,然后砸的動(dòng)作也不一樣。這才是舉一反三,這才是智能,這沒有什么其他數(shù)據(jù),沒有大量數(shù)據(jù)訓(xùn)練,這不是深度學(xué)習(xí)方法。
那這個(gè)算法怎么做的呢?我們把對(duì)這個(gè)物理空間、動(dòng)作、因果的理解還是表達(dá)成為一個(gè)Spatial,TemporalandCausalParseGraph(STC-PG)。這個(gè)STC-PG包含了你對(duì)空間的理解(物體、三維形狀、材質(zhì)等)、時(shí)間上動(dòng)作的規(guī)劃、因果的推理。最好是這樣子砸,它物理因果能夠?qū)崿F(xiàn),可能會(huì)被砸開,再連在一塊來求解,求時(shí)間、空間和因果的這么一個(gè)解析圖,就是一個(gè)解。也就是,最后你達(dá)到目的,改變了某種物理的流態(tài)。
我再?gòu)?qiáng)調(diào)幾點(diǎn):
一、這個(gè)STC-PG的表達(dá)是你想象出來的。這個(gè)理解的過程是在你動(dòng)手之前就想好了的,它里面的節(jié)點(diǎn)和邊大多數(shù)在圖像中是沒有的,也就是我稱作的“暗物質(zhì)”。
二、這個(gè)計(jì)算的過程中,大量的運(yùn)算屬于“top-down”自頂向下的計(jì)算過程。也就是用你腦皮層里面學(xué)習(xí)到的大量的知識(shí)來解釋你看到的“蛛絲馬跡”,形成一個(gè)合理的解。而這種Top-down的計(jì)算過程在目前的深度多層神經(jīng)網(wǎng)絡(luò)中是沒有的。神經(jīng)網(wǎng)絡(luò)只有feedforward向上逐層傳播信息。你可能要說了,那不是有Back-propagation嗎?那不是top-down。一年前,LeCun來UCLA做講座,他看到我在座,就說DNN目前缺乏朱教授一直提倡的Top-Down計(jì)算進(jìn)程。
三、學(xué)習(xí)這個(gè)任務(wù)只需要極少的幾個(gè)例子。如果一個(gè)人要太多的例子,說明Ta腦袋“不開竅”,智商不夠。順便說一句,我在UCLA講課,期末學(xué)生會(huì)給老師評(píng)估教學(xué)質(zhì)量。一個(gè)常見的學(xué)生意見就是朱教授給的例子太少了。對(duì)不起,我沒時(shí)間給你上課講那么多例子,靠做題、題海訓(xùn)練,那不是真本事,也不是學(xué)習(xí)的本質(zhì)。子曰:“學(xué)而不思則罔,思而不學(xué)則殆”。這里的“思”應(yīng)該是推理,對(duì)于自然界或者社會(huì)的現(xiàn)象、行為和任務(wù),形成一個(gè)符合規(guī)律的自洽的解釋,在我看來就是一個(gè)STC-PG。
那么STC-PG是如何推導(dǎo)出來的呢?它的母板是一個(gè)STC-AOG,AOG就是And-OrGraph與或圖。這個(gè)與或圖是一個(gè)復(fù)雜的概率語法圖模型,它可以導(dǎo)出巨量的合乎規(guī)則的概率事件,每一個(gè)事件就是STC-PG。這個(gè)表達(dá)與語言、認(rèn)知、機(jī)器人等領(lǐng)域是一致的。在我看來,這個(gè)STC-AOG是一個(gè)統(tǒng)一表達(dá),它與邏輯以及DNN可以打通關(guān)節(jié)。這里就不多講了。
接著砸核桃的例子講,還是朱毅鑫那篇文章的實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)很難做。比如現(xiàn)在的一個(gè)任務(wù)是“鏟土”,我給你一個(gè)例子什么叫鏟土,然后開始測(cè)試這個(gè)智能算法(機(jī)器人)的泛化能力。見下圖。
第一組實(shí)驗(yàn)(圖左)。我給你一些工具,讓你鏟土,機(jī)器人第一選擇挑了這個(gè)鏟子,這個(gè)不是模式識(shí)別,它同時(shí)輸出用這個(gè)鏟子的動(dòng)作、速度;輸出鏟子柄的綠色地方表示它要手握的地方,這個(gè)紅的表示它用來鏟土的位置。第二選擇是一把刷子。
第二組實(shí)驗(yàn)(圖中)。假如我要把這些工具拿走,你現(xiàn)在用一些家里常見的物體,任務(wù)還是鏟土。它的第一選擇是鍋,第二選擇是杯子。二者的確都是最佳選擇。這是計(jì)算機(jī)視覺做出來的,自動(dòng)的。
第三組實(shí)驗(yàn)(圖右)。假如我們回到石器時(shí)代,一堆石頭能干什么事情?所以我經(jīng)常說,咱們石器時(shí)代的祖先,比現(xiàn)在的小孩聰明。因?yàn)樗麄兡軌蚶斫膺@個(gè)世界的本質(zhì),現(xiàn)在,工具和物體越來越特定了,一個(gè)工具做一個(gè)任務(wù),人都變成越來越傻了。視覺認(rèn)知就退化成模式識(shí)別的問題了:從原來工具的理解變成一個(gè)模式識(shí)別。也就是由烏鴉變鸚鵡了。
計(jì)算機(jī)視覺小結(jié):我簡(jiǎn)短總結(jié)一下視覺的歷史。見下圖。
視覺研究前面25年的主流是做幾何,以形狀和物體為中心的研究:Geometry-BasedandObject-Centered。最近25年是從圖像視角通過提取豐富的圖像特征描述物體的外觀來做識(shí)別、分類:Appearance-BasedandView-Centered。幾何當(dāng)然決定表觀。那么幾何后面深處原因是什么呢?幾何形狀的設(shè)計(jì)是因?yàn)橛腥蝿?wù),最頂層是有任務(wù),然后考慮到功能、物理、因果,設(shè)計(jì)了這些物體再來產(chǎn)生圖像,這是核心問題所在。我把在當(dāng)前圖像是看不見的“東西”叫darkmatter。物理里面darkmatterenergy占95%,確確實(shí)實(shí)在我們智能里面darkmatter也占了大部分。而你看到的東西就是現(xiàn)在深度學(xué)習(xí)能夠解決的,比如說人臉識(shí)別、語音識(shí)別,就是很小的一部分看得見的東西;看不見的在后面,才是我們真正的智能,像那個(gè)烏鴉能做到的。
所以,我的一個(gè)理念是:計(jì)算機(jī)視覺要繼續(xù)發(fā)展,必須發(fā)掘這些“darkmatter”。把圖像中想象的95%的暗物質(zhì)與圖像中可見的5%的蛛絲馬跡,結(jié)合起來思考,才能到達(dá)真正的理解?,F(xiàn)在大家都喜歡在自己工作前面加一個(gè)Deep,以為這樣就算深刻了、深沉了,但其實(shí)還是非常膚淺的。不管你多深,不管你卷積神經(jīng)網(wǎng)絡(luò)多少層,它只是處理可見的圖像表觀特征、語音特征,沒有跳出那5%,對(duì)吧?那些認(rèn)為深度學(xué)習(xí)解決了計(jì)算機(jī)視覺的同學(xué),我說服你了么?如果沒有,后面還有更多的內(nèi)容。
視覺研究的未來,我用一句話來說:GoDark,BeyondDeep---發(fā)掘暗,超越深。
這樣一來,視覺就跟認(rèn)知和語言接軌了。
第六節(jié)認(rèn)知推理:走進(jìn)內(nèi)心世界
上一節(jié)講到的智能的暗物質(zhì),已經(jīng)屬于感知與認(rèn)知的結(jié)合了。再往里面走一步,就進(jìn)入人與動(dòng)物的內(nèi)心世界Mind,內(nèi)心世界反映外部世界,同時(shí)受到動(dòng)機(jī)任務(wù)的影響和扭曲。研究?jī)?nèi)涵包括:
Ta看到什么了?知道什么了?什么時(shí)候知道的?這其實(shí)是對(duì)視覺的歷史時(shí)間求積分。
Ta現(xiàn)在在關(guān)注什么?這是當(dāng)前的正在執(zhí)行的任務(wù)。
Ta的意圖是什么?后面想干什么?預(yù)判未來的目的和動(dòng)機(jī)。
Ta喜歡什么?有什么價(jià)值函數(shù)?這在第九節(jié)會(huì)談到具體例子。
自從人工智能一開始,研究者就提出這些問題,代表人物是Minsky:societyofminds,心理學(xué)研究叫做Theoryofminds。到2006年的時(shí)候,MIT認(rèn)知科學(xué)系的Saxe與Kanwisher(她是我一個(gè)項(xiàng)目合作者)發(fā)現(xiàn)人的大腦皮層有一個(gè)專門的區(qū),用于感受、推理到別人的想法:我知道你在想什么、干什么。這是人工智能的重要部分。
說個(gè)通俗的例子,你可能聽到過這樣的社會(huì)新聞:某男能夠同時(shí)與幾個(gè)女朋友維持關(guān)系,而且不被對(duì)方發(fā)現(xiàn),就是他那幾個(gè)女朋友互相不知情。這其實(shí)很難做到,因?yàn)槟阋徊恍⌒木鸵┞读?。他需要記住跟誰說過什么謊話、做過或者答應(yīng)過什么事。這種人的這個(gè)腦皮層區(qū)一定是特別發(fā)達(dá),而他的那些女朋友的這個(gè)區(qū)可能不那么發(fā)達(dá)。電影中的間諜需要特別訓(xùn)練這方面的“反偵察”能力,就是你盡量不讓對(duì)方發(fā)現(xiàn)你的內(nèi)心。這是極端狀況?,F(xiàn)實(shí)生活中,一般非隱私性的活動(dòng)中,我們是不設(shè)防的,也就是“君子坦蕩蕩”。
不光是人有這個(gè)偵察與反偵察的能力,動(dòng)物也有(見上圖)。比如說這個(gè)鳥(圖左),它藏果子的時(shí)候,會(huì)查看周圍是否有其它鳥或者動(dòng)物在那里看到它;如果有,它就不藏,它非要找到?jīng)]人看它的時(shí)候和地方藏。這就是它在觀察你,知道你知道什么。圖中是一個(gè)狐貍和水獺對(duì)峙的視頻。水獺抓到魚了以后,發(fā)現(xiàn)這個(gè)狐貍在岸上盯著它呢,它知道這個(gè)狐貍想搶它嘴里叼著的魚。水獺就想辦法把魚藏起來,它把這個(gè)魚藏到水底下,然后這個(gè)狐貍?cè)フ?。這說明了動(dòng)物之間互相知道對(duì)方在想什么。
小孩從一歲多的時(shí)候開始就有了這個(gè)意識(shí)。一個(gè)關(guān)鍵反應(yīng)證據(jù)是:他會(huì)指東西給你看,你看到了、還是沒看到的,他會(huì)知道。FelixWarneken現(xiàn)在在哈佛大學(xué)當(dāng)心理學(xué)系的助理教授。他當(dāng)博士生的時(shí)候做過一系列心理實(shí)驗(yàn)。一般一歲多的小孩能知道給你開門,小孩很樂意、主動(dòng)去幫忙。小孩很早就知道跟人進(jìn)行配合,這就是人機(jī)交互。你把這個(gè)小孩看成一個(gè)機(jī)器人的話,你要設(shè)計(jì)一個(gè)機(jī)器人,就是希望它知道看你想干什么,這是人工智能的一個(gè)核心表現(xiàn)。
盡管人工智能和認(rèn)知科學(xué),以及最近機(jī)器人領(lǐng)域的人都對(duì)這個(gè)問題感興趣,但是,大家以前還都是嘴上、紙上談兵,用的是一些toyexamples作為例子來分析。要做真實(shí)世界的研究,就需要從計(jì)算機(jī)視覺入手。計(jì)算機(jī)視覺里面的人呢,又大部分都在忙著刷榜,一時(shí)半會(huì)還沒意思到這是個(gè)問題。我的實(shí)驗(yàn)室就捷足先登,做了一些初步的探索,目前還在積極推進(jìn)之中。
我們首先做一個(gè)簡(jiǎn)單的試驗(yàn),如上圖。這個(gè)人在廚房里,當(dāng)前正在用微波爐。有一個(gè)攝像頭在看著他,就跟監(jiān)控一樣,也可以是機(jī)器人的眼睛(圖左)。首先能夠看到他目前在看什么(圖中),然后,轉(zhuǎn)換視角,推算他目前看到了什么(圖右)。
上面這個(gè)圖是實(shí)驗(yàn)的視頻的截圖。假設(shè)機(jī)器人事先已經(jīng)熟悉某個(gè)三維房間(圖e),它在觀察一個(gè)人在房間里面做事(圖a)。為了方便理解,咱們就想象這是一個(gè)養(yǎng)老院或者醫(yī)院病房,機(jī)器人需要知道這個(gè)人現(xiàn)在在干什么,看什么(圖c)。它的輸入僅僅是一個(gè)二維的視頻(圖a)。它開始跟蹤這個(gè)人的運(yùn)動(dòng)軌跡和眼睛注視的地方,顯示在圖e的那些軌跡和圖f的行為分類。然后,圖d(右上角)是它估算出來的,這個(gè)人應(yīng)該在看什么的圖片。也就是,它把它附體到這個(gè)人身上,來感知。這個(gè)結(jié)果與圖b對(duì)比,非常吻合。圖b是這個(gè)人帶一個(gè)眼鏡,眼鏡有一個(gè)小攝像頭記錄下來的,他確實(shí)在看的東西。這個(gè)實(shí)驗(yàn)結(jié)果是魏平博士提供的,他是西交大前校長(zhǎng)鄭南寧老師那里的一個(gè)青年教師,博士期間在我實(shí)驗(yàn)室訪問,后來又回來進(jìn)修。
這里面需要推測(cè)動(dòng)作與物體的時(shí)空交互,動(dòng)作隨時(shí)間的轉(zhuǎn)換,手眼協(xié)調(diào)。然后,進(jìn)一步猜他下面干什么,意圖等等。這個(gè)細(xì)節(jié)我不多講了。
對(duì)這個(gè)人內(nèi)心的狀態(tài),也可以用一個(gè)STC-AOG和STC-PG來表達(dá)的,見下圖,大致包含四部分。
一、時(shí)空因果的概率“與或圖”,STC-AOG。它是這個(gè)人的一個(gè)總的知識(shí),包含了所有的可能性,我待會(huì)兒會(huì)進(jìn)一步闡述這個(gè)問題。剩下的是他對(duì)當(dāng)前時(shí)空的一個(gè)表達(dá),是一個(gè)STC-PG解譯圖。此解譯圖包含三部分,圖中表達(dá)為三個(gè)三角形,每個(gè)三角形也是一個(gè)STC-PG解譯圖。
二、當(dāng)前的情景situation,由上圖的藍(lán)色三角形表示。當(dāng)前的情況是什么,這也是一個(gè)解,表示視覺在0-t時(shí)間段之間對(duì)這個(gè)場(chǎng)景的理解的一個(gè)解譯圖。
三、意向與動(dòng)作規(guī)劃圖,由上圖的綠色三角形表示。這也是一個(gè)層次化的解譯圖,預(yù)判他下面還會(huì)做什么事情,
四、當(dāng)前的注意力,由上圖的紅色三角形表示。描述他正在關(guān)注什么。
把這整個(gè)解譯圖放在一塊,基本上代表著我們腦袋的過去、現(xiàn)在、未來的短暫時(shí)間內(nèi)的狀態(tài)。用一個(gè)統(tǒng)一的STC-PG和STC-AOG來解釋。這是一個(gè)層次的分解。因?yàn)槭荂omposition,它需要的樣本就很少。
有人要說了,我的深度神經(jīng)網(wǎng)絡(luò)也有層次,還一百多層呢。我要說的是,你那一百多層其實(shí)就只有一層,對(duì)不對(duì)?因?yàn)槟銖奶卣髯鲞@個(gè)識(shí)別,中間的東西是什么你不知道,他不能去解釋中間那些過程,只有最后一層輸出物體類別。
上面說的這個(gè)表達(dá),是機(jī)器人對(duì)某個(gè)人內(nèi)心狀態(tài)的一個(gè)估計(jì),這個(gè)估計(jì)有一個(gè)后驗(yàn)概率,這個(gè)估計(jì)不是唯一的,存在不確定性。而且,它肯定不是真相。不同的人觀察某個(gè)人,可能估計(jì)都不一樣。那么在一個(gè)機(jī)器與人共生共存的環(huán)境中,假設(shè)這個(gè)場(chǎng)景里有N個(gè)機(jī)器人或者人,這里面有很多N個(gè)“自我”minds。然后,每個(gè)人有對(duì)別人有一個(gè)估計(jì),這就有Nx(N-1)個(gè)minds表達(dá)。我知道你在想什么,你知道我在想什么,這至少是平方級(jí)的。你有一百個(gè)朋友的話,哪個(gè)朋友他腦袋里想什么你心里都有數(shù)。關(guān)系越近,理解也就越深,越準(zhǔn)確。
當(dāng)然,我們這里只是做一階推理,在復(fù)雜、對(duì)抗的環(huán)境中,人們不得不用多階的表達(dá)。當(dāng)年司馬懿和諸葛亮在祁山對(duì)峙時(shí),諸葛亮比司馬懿總是要多算一階。所謂兵不厭詐,就是有時(shí)候我故意把一個(gè)錯(cuò)誤信息傳給你,《三國(guó)演義》中很多此類的精彩故事,比如周瑜打黃蓋、蔣干盜書。
我用下面這個(gè)圖來大致總結(jié)一下。兩個(gè)人A與B或者一個(gè)人一個(gè)機(jī)器人,他們腦袋里面的表達(dá)模式。圖中是一個(gè)嵌套的遞歸結(jié)構(gòu),每一個(gè)橢圓代表一個(gè)大腦的內(nèi)心mind。
每個(gè)mind除了上面談到的知識(shí)STC-AOG和狀態(tài)STC-PG,還包含了價(jià)值函數(shù),就是價(jià)值觀,和決策函數(shù)。價(jià)值觀驅(qū)動(dòng)動(dòng)作,然后根據(jù)感知、行動(dòng)去改變世界,這樣因果就出來了。我后面再細(xì)談這個(gè)問題。
最底下中間的那個(gè)橢圓代表真實(shí)世界(“上帝”的mind,真相只有TA知道,我們都不知道),上面中間的那個(gè)橢圓是共識(shí)。多個(gè)人的話就是社會(huì)共識(shí)。在感知基礎(chǔ)上,大家形成一個(gè)統(tǒng)一的東西,共同理解,我們達(dá)成共識(shí)。比如,大家一起吃飯,菜上來了,大家都看到這個(gè)菜是什么菜,如果沒有共識(shí)那沒法弄。比如,“指鹿為馬”或者“皇帝的新裝”,就是在這些minds之間出現(xiàn)了不一致的東西。這是所謂“認(rèn)識(shí)論”里面的問題。以前,在大學(xué)學(xué)習(xí)認(rèn)識(shí)論,老師講得比較空泛,很難理解;現(xiàn)在你把表達(dá)寫出來,一切都清楚了。這也是人工智能必須解決的問題。
我們要達(dá)成共識(shí),共同的知識(shí),然后在一個(gè)小的團(tuán)體、大致社會(huì)達(dá)成共同的價(jià)值觀。當(dāng)有了共同價(jià)值觀的時(shí)候,就有社會(huì)道德和倫理規(guī)范,這都可以推導(dǎo)出來了。俗話說,入鄉(xiāng)隨俗。當(dāng)你加入一個(gè)新的團(tuán)體或者社交群體,你可能先觀察看看大家都是怎么做事說話的。機(jī)器人要與人共生共存必須理解人的團(tuán)體的社會(huì)道德和倫理規(guī)范。所以說,這個(gè)認(rèn)識(shí)論是機(jī)器人發(fā)展的必經(jīng)之道。烏鴉知道人類在干什么,它才能夠利用這個(gè)在社會(huì)里生存。
那么如何達(dá)成共識(shí)呢?語言就是必要的形成共識(shí)的工具了。
第七節(jié)語言通訊:溝通的認(rèn)知基礎(chǔ)
我要介紹的人工智能的第三個(gè)領(lǐng)域是語言、對(duì)話。最近我兩次在視覺與語言結(jié)合的研討會(huì)上做了報(bào)告,從我自己觀察的角度來談,視覺與語言是密不可分的。
人類的語言中樞是獨(dú)特的,有趣的是它在運(yùn)動(dòng)規(guī)劃區(qū)的附近。我們?yōu)槭裁匆獙?duì)話呢?語言的起源就是要把一個(gè)人腦袋(mind)的一個(gè)信息表達(dá)傳給你一個(gè)人,這就包括上一節(jié)講的知識(shí)、注意、意向計(jì)劃,歸納為圖中那三個(gè)三角形的表達(dá)。希望通過對(duì)話形成共識(shí),形成共同的任務(wù)規(guī)劃,就是我們一致行動(dòng)。所以,語言產(chǎn)生的基礎(chǔ)是人要尋求合作。
動(dòng)物之間就已經(jīng)有豐富的交流的方式,很多借助于肢體語言。人的對(duì)話不一定用語言,手語、啞?。╬antomine)同樣可以傳遞很多信息。所以,在語言產(chǎn)生之前,人類就已經(jīng)有了十分豐富的認(rèn)知基礎(chǔ),也就是上一節(jié)談的那些表達(dá)。沒有這樣的認(rèn)知基礎(chǔ),語言是空洞的符號(hào),對(duì)話也不可能發(fā)生。
發(fā)育心理學(xué)實(shí)驗(yàn)表明,12個(gè)月的小孩就可以知道去指東西,更小年齡就不會(huì),但是很多動(dòng)物永遠(yuǎn)達(dá)不到這個(gè)水平。舉個(gè)例子,有人做了個(gè)實(shí)驗(yàn)。一群大猩猩坐在動(dòng)物園里,一個(gè)猩猩媽媽帶一個(gè)小猩猩,玩著玩著小猩猩跑不見了,然后這個(gè)媽媽去找。周圍一大堆閑著的猩猩坐在那里曬太陽(yáng),它們明明知道那個(gè)小猩猩去哪了。如果是人的話,我們就會(huì)熱心地指那個(gè)小孩的方向,人天生是合作的,去幫助別人的,助人為樂,所以這是為什么我們?nèi)诉M(jìn)化出來了。猩猩不會(huì),猩猩不指,它們沒有這個(gè)動(dòng)機(jī),它們腦袋與人相比一定是缺了一塊。人和動(dòng)物相比,我們之所以能夠比他們更高級(jí),因?yàn)槟X袋里有很多通信的認(rèn)知構(gòu)架(就像多層網(wǎng)絡(luò)通訊協(xié)議)在大腦皮層里面,沒有這些認(rèn)知構(gòu)架就沒法通信。研究語言的人不去研究底下的認(rèn)知構(gòu)架,那是不會(huì)有很大出息的。下面這個(gè)圖來源于人類學(xué)的研究的一個(gè)領(lǐng)軍人物MichaelTomasello。
除了需要這個(gè)認(rèn)知基礎(chǔ),語言的研究不能脫離了視覺對(duì)外部世界的感知、機(jī)器人運(yùn)動(dòng)的因果推理,否則語言就是無源之水、無本之木。這也就是為什么當(dāng)前一些聊天機(jī)器人都在“扯白”。
我們先來看一個(gè)最基本的的過程:信息的一次發(fā)送。當(dāng)某甲(sender)要發(fā)送一條消息給某乙(receiver),這是一個(gè)簡(jiǎn)單的通訊communication。這個(gè)通訊的數(shù)學(xué)模型是當(dāng)年貝爾實(shí)驗(yàn)室香農(nóng)Shannon1948年提出來的信息論。首先把它編碼,因?yàn)檫@樣送起來比較短,比較快;針對(duì)噪聲通道,加些冗余碼防錯(cuò);然后解碼,某乙就拿到了這個(gè)信息。見下圖。
在這個(gè)通訊過程之中他有兩個(gè)基本的假設(shè)。第一、這兩邊共享一個(gè)碼本,否則你沒法解碼,這是一個(gè)基本假設(shè)。第二、就是我們有個(gè)共享的外部世界的知識(shí)在里面,我們都知道世界上正在發(fā)生什么什么事件,比如哪個(gè)股票明天要漲了,哪個(gè)地方要發(fā)生什么戰(zhàn)爭(zhēng)了等等。我給你傳過去的這個(gè)信息其實(shí)是一個(gè)解譯圖的片段(PG:parsegraph)。這個(gè)解譯圖的片段對(duì)于我們物理世界的一個(gè)狀態(tài)或者可能發(fā)生的狀態(tài)的描述。這個(gè)狀態(tài)也有可能就是我腦袋Mind里面的一個(gè)想法、感覺、流態(tài)(fluents)。比如,很多女人拿起電話,叫做“煲粥”,就在交流內(nèi)心的一些經(jīng)歷和感受。
如果沒有這個(gè)共同的外部世界,那我根本就不知道你在說什么。比如外國(guó)人聚在一起講一個(gè)笑話,我們可能聽不懂。我們中國(guó)人說“林黛玉”,那是非常豐富的一個(gè)文化符號(hào),我們都明白誰是林黛玉,她的身世、情感、性格和價(jià)值觀,就輪到外國(guó)人聽不懂了。
Shannon的通訊理論只關(guān)心碼本的建立(比如視頻編解碼)和通訊帶寬(3G,4G,5G)。1948年提出信息論后,盡管有很多聰明人、數(shù)學(xué)根底很強(qiáng)的人進(jìn)到這個(gè)領(lǐng)域,這個(gè)領(lǐng)域一直沒有什么大的突破。為什么?因?yàn)樗麄兒鲆暳藥讉€(gè)更重大的認(rèn)識(shí)論的問題,避而不談:
甲應(yīng)該要想一下:乙腦袋里面是否與甲有一個(gè)共同的世界模型?否則,解碼之后,乙也不能領(lǐng)會(huì)里面的內(nèi)容?或者會(huì)誤解。那么我發(fā)這個(gè)信息的時(shí)候,措辭要盡量減少這樣的誤解。
甲還應(yīng)該要想一下:為什么要發(fā)這個(gè)信息?乙是不是已經(jīng)知道了,乙關(guān)不關(guān)注這個(gè)信息呢?乙愛不愛聽呢?聽后有什么反應(yīng)?這一句話說出去有什么后果呢?
乙要想一下:我為什么要收這個(gè)信息呢?你發(fā)給我是什么意圖?
這是在認(rèn)知層面的,遞歸循環(huán)的認(rèn)知,在編碼之外。所以,通訊理論就只管發(fā)送,就像以前電報(bào)大樓的發(fā)報(bào)員,收錢發(fā)報(bào),他們不管你發(fā)報(bào)的動(dòng)機(jī)、內(nèi)容和后果。
縱觀人類語言,中國(guó)的象形文字實(shí)在了不起。所謂象形文字就完全是“明碼通訊”。每個(gè)字就是外部世界的一個(gè)圖片、你一看就明白了,不需要編解碼。我覺得研究自然語言的人和研究視覺統(tǒng)計(jì)建模的人,都要好好看看中國(guó)的甲骨文,然后,所有的事情都清楚了。每個(gè)甲骨文字就是一張圖,圖是什么?代表的就是一個(gè)解譯圖的片段(fragmentofparsegraph)。
上面這個(gè)圖是一個(gè)漢字的演變和關(guān)系圖,從一本書叫做《漢字樹》得來的。幾年前,我到臺(tái)灣訪問,發(fā)現(xiàn)這本叢書,很有意思。這個(gè)圖是從眼睛開始的一系列文字。
首先從具象的東西開始,這中間是一個(gè)眼睛,“目”字,把手搭在眼睛上面,孫悟空經(jīng)常有這個(gè)動(dòng)作,就是“看”(look)。
然后是會(huì)意,比如“省”,就是細(xì)看,明察秋毫,畫一個(gè)很小的葉子在眼睛上面,指示說你看葉子里面的東西,表示你要細(xì)看。
然后開始表達(dá)抽象的概念,屬性attribute、時(shí)空怎么表達(dá),就是我們甲骨文里面,表示出發(fā)、終止,表示人的關(guān)系,人的腦袋狀態(tài),甚至表現(xiàn)倫理道德。就這樣,一直推演開。
所以,搞視覺認(rèn)知的,要理解物體功能就要追溯到石器時(shí)代去,搞語言的要追溯到語言起源。
下圖是另一個(gè)例子:日、月、山、水、木;鳥、雞、魚、象、羊。下面彩色的圖是我們實(shí)驗(yàn)室現(xiàn)在用計(jì)算機(jī)視覺技術(shù)從圖像中得到的一些物體的表達(dá)圖模型,其實(shí)就重新發(fā)明一些更具像的甲骨文。這項(xiàng)技術(shù)是由YiHong,司長(zhǎng)長(zhǎng)等博士做的無監(jiān)督學(xué)習(xí)。他們的算法發(fā)現(xiàn)了代表鳥的有頭、身子和腳、水波和水草等“類甲骨文”名詞符號(hào)。這種視覺的表達(dá)模型是可解釋explainable、直觀的。
所以,從生成式模型的角度來看,語言就是視覺,視覺就是語言。
再來看看動(dòng)詞。考考你們,這是啥意思?第一個(gè)字,兩只手,一根繩子,在拖地上一個(gè)東西,拿根繩子拽。第二個(gè)很簡(jiǎn)單,洗手。第三是關(guān)門。第四是援助的援字,一只手把另外一個(gè)人的手往上拉。第五也是兩個(gè)手,一個(gè)手朝下一個(gè)手朝上,啥意思?我給你東西,你接受。第六是爭(zhēng)奪的爭(zhēng),兩個(gè)手往相反的方向搶。第七兩個(gè)人在聊天。基本上,字已經(jīng)表示了人和人之間的動(dòng)作細(xì)節(jié)。
現(xiàn)在我的實(shí)驗(yàn)室里,計(jì)算機(jī)也能自動(dòng)學(xué)出“類甲骨文”的動(dòng)詞的表達(dá),見下圖。我們學(xué)出來的這些兩個(gè)人交互的動(dòng)作包括:坐、玩手機(jī)、握手、人拉人等等。我們把這些動(dòng)作模型分別叫做4DHOI(4DHuman-ObjectInteraction)、4Dhoi(4Dhand-objectinteraction)、4DHHI(4DHuman-HumanInteraction)。
我剛才說了名詞和動(dòng)詞,還有很多其他的東西,我建議你們?nèi)パ芯恳幌?,要建模型的話我們古代的甲骨文其?shí)就是一個(gè)模型,他能夠把我們世界上所有需要表達(dá)的東西都給你表達(dá)了,是一個(gè)完備了的語言模型。
我再舉個(gè)復(fù)雜和抽象的例子,咱們古代人怎么定義倫理道德,非常的漂亮!
引言中談到,大家擔(dān)心機(jī)器人進(jìn)入社會(huì)以后,是不是會(huì)危害人類生存,所以引發(fā)了很多討論。有一次我參加一個(gè)DARPA內(nèi)部會(huì)議,會(huì)議邀請(qǐng)了各界教授們討論這個(gè)問題,他們來自社會(huì)倫理學(xué)、認(rèn)知科學(xué)、人工智能等學(xué)科。大家莫衷一是。輪到我做報(bào)告,我就說,其實(shí)這個(gè)問題,中國(guó)古代人的智慧就已經(jīng)想清楚了。
倫理道德的“德”字怎么定義的?什么叫道德?
道德規(guī)范是什么,它是個(gè)相對(duì)的定義,隨著時(shí)間和人群而變化。我剛來美國(guó)的時(shí)候,美國(guó)社會(huì)不許墮胎、不許同性戀,現(xiàn)在都可以了。中國(guó)以前婦女都不許改嫁。甚至到幾十年前,我在家鄉(xiāng)都聽說這樣的規(guī)矩:如果一個(gè)婦女在路上,她的影子投到一個(gè)長(zhǎng)老身上,那是大不敬,所以走路必須繞開,這就是一種社會(huì)規(guī)范。
中文這個(gè)“德”字你看左邊是雙人旁,雙人旁其實(shí)不是兩個(gè)人,雙人旁在甲骨文畫的是十字路口(見最右邊那個(gè)圖),十字路口就是說你是要做個(gè)選擇,是個(gè)決策。你怎么選擇?比如說一個(gè)老人倒在地上,你是扶他還是不扶他?這就是一個(gè)選擇。貪不貪污、受不受賄這都是內(nèi)心的一個(gè)選擇。這個(gè)選擇是你心里面做出的,所以下面有個(gè)心字。
那怎么判斷你內(nèi)心的選擇符不符合道德呢?社會(huì)不可能把大量規(guī)則逐條列出來,一個(gè)漢字也沒法表達(dá)那么多的內(nèi)容吧。“德”字上面是一個(gè)十字,十字下面一個(gè)四,其實(shí)不是四,而是眼睛,十個(gè)眼睛看著你。就是由群眾來評(píng)判的。這就相當(dāng)于西方的陪審團(tuán),陪審團(tuán)都是普通民眾中挑選出來的(那是更進(jìn)一層的法律規(guī)范了)。他們?nèi)绻X得你做的事情能夠接受就是道德,如果不接受那就是不道德。所以,你在做選擇的時(shí)候,必須考慮周圍人的看法,人家腦袋里會(huì)怎么想,才決定這個(gè)東西做不做。
所以,如果沒有上一節(jié)講的認(rèn)知基礎(chǔ),也就是你如果不能推斷別人的思想,那就無法知道道德倫理。研究機(jī)器人的一個(gè)很重要的一個(gè)問題是:機(jī)器要去做的事情它不知道該不該做。那么它首先想一下(就相當(dāng)于棋盤推演simulation):我如何做這個(gè)事情,人會(huì)有什么反應(yīng),如果反應(yīng)好就做,如果反應(yīng)不好就不做,就這么一個(gè)規(guī)則。以不變應(yīng)萬變。
那它怎么知道你怎么想的呢?它必須先了解你,你喜歡什么、厭惡什么。每個(gè)人都不一樣,你在不同的群體里面,哪些話該說,哪些話不該說,大家心里都知道,這才是交互,你沒有這方面知識(shí)你怎么交互呢?
所以我還是覺得我們古代的人很有智慧,比我們現(xiàn)在的人想的深刻的多,一個(gè)字就把一個(gè)問題說得很精辟。咱們現(xiàn)在大部分人不想問題,因?yàn)槟悴恍枰雴栴}了,大量媒體、廣告到處都是,時(shí)時(shí)刻刻吸引你的眼球,你光看都看不過來,還想個(gè)什么呢!只要娛樂就好了。
現(xiàn)在,我們回到語言通訊、人與機(jī)器人對(duì)話的問題。下圖就是我提出的一個(gè)認(rèn)知模型。
兩個(gè)人之間至少要表達(dá)五個(gè)腦袋minds:我知道的東西、你知道的東西、我知道你知道的東西、你知道我知道的東西、我們共同知道的東西。還有,對(duì)話的時(shí)候你的意圖是什么等等諸多問題。具體我不講那么多了。
最后,我想談一點(diǎn),語言與視覺更深層的聯(lián)系、與數(shù)學(xué)中代數(shù)拓?fù)涞穆?lián)系。拓?fù)鋵W(xué)是什么意思?就是說圖象空間,語言空間,就是一個(gè)大集合,全集。我們的每個(gè)概念往往是它的一個(gè)子集,比如說,所有的圖象是一個(gè)集合,一百萬個(gè)象素就是一百萬維空間,每張圖像就是這百萬維空間的一個(gè)點(diǎn)。人臉是個(gè)概念,所有的人臉就是在這一百萬維空間的一個(gè)子集,但是這個(gè)子集和其它個(gè)子集要發(fā)生關(guān)系,這個(gè)關(guān)系叫拓?fù)潢P(guān)系。計(jì)算機(jī)的人把它叫做語法,對(duì)應(yīng)于代數(shù)拓?fù)?。比如,頭和脖子在肩膀上是合規(guī)的,概率很高。這個(gè)圖像空間的結(jié)構(gòu)其實(shí)就是語法,這個(gè)語法就是STC-AOG,時(shí)空因果的與或圖。語法可導(dǎo)出“語言”,語言就是一個(gè)符合語法的句子的總的集合。STC-AOG就是知識(shí)的總體表達(dá),而我們看到的眼前每一個(gè)例子是由STC-AOG導(dǎo)出來的時(shí)空因果解譯圖STC-PG。計(jì)算機(jī)視覺用它,語言肯定用它,認(rèn)知是它,機(jī)器人任務(wù)規(guī)劃也是它。這就是一個(gè)統(tǒng)一的表達(dá)。
第八節(jié)博弈倫理:獲取、共享人類的價(jià)值觀
機(jī)器人要與人交流,它必須懂得人類價(jià)值觀。哲學(xué)和經(jīng)濟(jì)學(xué)里面有一個(gè)基本假設(shè),認(rèn)為一個(gè)理性的人(rationalagent),他的行為和決策都由利益和價(jià)值驅(qū)動(dòng),總在追求自己的利益最大化。與此對(duì)應(yīng)的是非理性的人。對(duì)于理性的人,你通過觀察他的行為和選擇,就可以反向推理、學(xué)習(xí)、估算他的價(jià)值觀。我們暫時(shí)排除他有可能故意假裝、迷惑我們的情況。
這個(gè)價(jià)值觀我們把它表達(dá)為一個(gè)利益函數(shù)Utilityfunction,用一個(gè)符號(hào)U表示。它通常包含兩部分:(1)Loss損失函數(shù),或者Reward獎(jiǎng)勵(lì)函數(shù);(2)Cost消費(fèi)函數(shù)。就是說,你做一件事得到多少利益,花費(fèi)多少成本。我們可以把這個(gè)利益函數(shù)定義在流態(tài)的(fluents)空間里面。我們每次行動(dòng),改變某些流態(tài),從而在U定義的空間中向上走,也就是“升值”。由函數(shù)U對(duì)流態(tài)向量F求微分的話,就得到一個(gè)“場(chǎng)”。
復(fù)習(xí)一下高等數(shù)學(xué),我們假設(shè)一個(gè)人在某個(gè)時(shí)期,他的價(jià)值取向不是矛盾的。比如,如果他認(rèn)為A比B好,B比C好,然后C比A好,那就循環(huán)了,價(jià)值觀就不自恰。這在場(chǎng)論中就是一個(gè)“漩渦”。一個(gè)處處“無旋”的場(chǎng),就叫做一個(gè)保守場(chǎng)。其對(duì)于的價(jià)值觀U就是一個(gè)勢(shì)能函數(shù)。
所謂“人往高處走、水往低處流”說的是社會(huì)和物理的兩個(gè)不同現(xiàn)象,本質(zhì)完全一致。就是人和水都在按照各自的勢(shì)能函數(shù)在運(yùn)動(dòng)!那么驅(qū)動(dòng)人的勢(shì)能函數(shù)是什么呢?
人與人的價(jià)值不同,就算同一個(gè)人,價(jià)值觀也在改變。本文不討論這些社會(huì)層面的價(jià)值觀,我們指的是一些最基本的、常識(shí)性的、人類共同的價(jià)值觀。比如說把房間收拾干凈了,這是我們的共識(shí)。
上圖是我做的一個(gè)簡(jiǎn)單的實(shí)驗(yàn)。我把幾種不同的椅子、凳子放在我辦公室(左圖)和實(shí)驗(yàn)室(右圖)。然后,我統(tǒng)計(jì)一下學(xué)生進(jìn)來以后,他喜歡坐哪個(gè)椅子,實(shí)在不行可以坐地上。這樣我就可以得到這些椅子的排序。A、B、C、D、E、F、G排個(gè)序,見上面的統(tǒng)計(jì)圖。我觀察了這些人的選擇,就問:為什么這個(gè)椅子比那個(gè)椅子好?是什么好?這其實(shí)就反映了人的腦袋里面一個(gè)基本的價(jià)值函數(shù)。又說一遍:很普通的日常現(xiàn)象,蘊(yùn)含深刻的道路。蘋果落地不是這樣嗎?大家司空見慣了,就不去問這個(gè)問題了。
為了解答問題,我的兩個(gè)博士生朱毅鑫和搞物理和圖形學(xué)的蔣凡夫(他剛剛?cè)penn賓州大學(xué)當(dāng)助理教授),用圖形學(xué)的物理人體模型模擬人的各種的姿勢(shì),然后計(jì)算出這些坐姿在這些椅子上的時(shí)候,身體幾大部件的受力分布圖。見下圖,比如背部、臀部、頭部受多少力。
下圖中藍(lán)色的直方圖顯示了六個(gè)身體部位的受力分別圖。由此我們就可以推算出每個(gè)維度的價(jià)值函數(shù)。下面圖中六條紅色的曲線是負(fù)的價(jià)值函數(shù),當(dāng)人的坐姿使得各部位受力處于紅線較低的值,就有較高的“價(jià)值”,也就是坐得“舒服”。當(dāng)然每個(gè)人可能不一樣,有的人腰疼必須坐硬板凳子有的人喜歡坐軟沙發(fā)。這也是為什么,如果你觀察到有些異樣,可以推導(dǎo)這個(gè)人某地方可能受傷了。
讀到這里,你不禁要問:這不是與物理的勢(shì)能函數(shù),如重力場(chǎng),一樣嗎?對(duì),就是一個(gè)道理。這也是在最后一節(jié)我將要說的:達(dá)爾文與牛頓的理論體系要統(tǒng)一。
這對(duì)我們是常識(shí),但是機(jī)器人必須計(jì)算出很多這樣的常識(shí),TA需要設(shè)身處地為人著想,這個(gè)就不容易了。
疊衣服也是我們做的另外一個(gè)例子。如果我們把這個(gè)保守的勢(shì)能函數(shù)可視化為一個(gè)地形圖,那么你疊一個(gè)衣服的過程,就像走一條登山的路徑。這個(gè)衣服我們?cè)瓉砀銇y了,它對(duì)應(yīng)的狀態(tài)在谷底,最后疊好了就等于上到山頂了。每一步動(dòng)作就有一個(gè)獎(jiǎng)勵(lì)reward。我根據(jù)你疊衣服的過程,把這山形狀基本畫出來,機(jī)器就知道疊衣服這個(gè)任務(wù)的本質(zhì)是什么。你給它新的衣服,它也會(huì)疊了。機(jī)器人可以判斷你的價(jià)值觀。
最近大家談?wù)撦^多的是機(jī)器人下棋,特別是下圍棋,的確刺激了國(guó)人的神經(jīng)。下棋程序里面一個(gè)關(guān)鍵就是學(xué)習(xí)價(jià)值函數(shù),就是每一個(gè)可能的棋局,它要有一個(gè)正確的價(jià)值判斷。最近,各種游戲、和增強(qiáng)學(xué)習(xí)也比較火熱。但這些研究都是在簡(jiǎn)單的符號(hào)空間里面玩。我實(shí)驗(yàn)室做的這兩個(gè)例子是在真實(shí)世界,學(xué)習(xí)人的價(jià)值函數(shù)。
有了價(jià)值函數(shù),在一個(gè)多人環(huán)境中,就有了競(jìng)爭(zhēng)與合作,形成我們上一節(jié)談到的社會(huì)規(guī)范、倫理道德。這些倫理、社會(huì)規(guī)范就是人群在競(jìng)爭(zhēng)合作之中,受到外部物理環(huán)境與因果限制下,達(dá)成的暫時(shí)的準(zhǔn)平衡態(tài)。每種平衡態(tài)不見得是一個(gè)固定的規(guī)則,要求大家做同樣的規(guī)定動(dòng)作,而是一種概率的“行為的語法”。規(guī)則其實(shí)就是語法。說到底,這還是一種概率的時(shí)空因果與或圖STC-AOG的表達(dá)。
在社會(huì)進(jìn)化過程中,由于某些邊界條件的改變(如新的技術(shù)發(fā)明,像互聯(lián)網(wǎng)、人工智能)或者是政策改變(如改革開放),打破了舊的平衡,社會(huì)急劇變化;然后,達(dá)成新的準(zhǔn)平衡態(tài)。那么社會(huì)規(guī)范對(duì)應(yīng)的是另一個(gè)時(shí)空因果與或圖STC-AOG。你拿著一個(gè)準(zhǔn)平衡態(tài)的STC-AOG模型去到另一個(gè)準(zhǔn)平衡態(tài)生活,就出現(xiàn)所謂的“水土不服”現(xiàn)象。
談到這里,我想順便對(duì)比兩大類學(xué)習(xí)方法。
一、歸納學(xué)習(xí)Inductivelearning。我們通過觀察大量數(shù)據(jù)樣本,這些樣本就是對(duì)某個(gè)時(shí)期、某個(gè)地域、某個(gè)人群達(dá)成的準(zhǔn)平衡態(tài)的觀察。也是我前面談過的千年文化的形成與傳承。歸納學(xué)習(xí)的結(jié)果就是一個(gè)時(shí)空因果的概率模型,我把它表達(dá)為STC-AOG。每個(gè)時(shí)空的動(dòng)作是一個(gè)STC-PG,解譯圖。
二、演繹學(xué)習(xí)Deductivelearning。這個(gè)東西文獻(xiàn)中很少,也就是從價(jià)值函數(shù)(還有物理因果)出發(fā),直接推導(dǎo)出這些準(zhǔn)平衡態(tài),在我看來,這也是一個(gè)STC-AOG。這就要求對(duì)研究的對(duì)象有深刻的、生成式的模型和理解。比如,諸葛亮到了祁山,先查看地形,知道自己的隊(duì)伍、糧草情況,摸清楚對(duì)手司馬懿的情況(包括性格)。然后,他腦袋里面推演,就知道怎么布局了。
人的學(xué)習(xí)往往是兩者的結(jié)合。年輕的時(shí)候,歸納學(xué)習(xí)用得多一些,演繹學(xué)習(xí)往往是一種不成熟沖動(dòng),交點(diǎn)學(xué)費(fèi),但也可能發(fā)現(xiàn)了新天地。到了“五十而不惑”的時(shí)候,價(jià)值觀成型了,價(jià)值觀覆蓋的空間也基本齊全了,那么基本上就用演繹學(xué)習(xí)。
AlphaGo先是通過歸納學(xué)習(xí),學(xué)習(xí)人類大量棋局;然后,最近它就完全是演繹學(xué)習(xí)了。AlphaGo的棋局空間與人類生存的空間復(fù)雜度還是沒法比的。而且,它不用考慮因果關(guān)系,一步棋下下去,那是確定的。人的每個(gè)動(dòng)作的結(jié)果都有很多不確定因素,所以要困難得多。
第九節(jié)機(jī)器人學(xué):構(gòu)建大任務(wù)平臺(tái)
我在第四節(jié)談到人工智能研究的認(rèn)知構(gòu)架,應(yīng)該是小數(shù)據(jù)、大任務(wù)范式。機(jī)器人就是這么一個(gè)大任務(wù)的科研平臺(tái)。它不僅要調(diào)度視覺識(shí)別、語言交流、認(rèn)知推理等任務(wù),還要執(zhí)行大量的行動(dòng)去改變環(huán)境。我就不介紹機(jī)械控制這些問題了,就用市面上提供的通用機(jī)器人平臺(tái)。
前面介紹過,人和機(jī)器人要執(zhí)行任務(wù),把任務(wù)分解成一連串的動(dòng)作,而每個(gè)動(dòng)作都是要改變環(huán)境中的流態(tài)。
我把流態(tài)分作兩大類:
(1)物理流態(tài)(PhysicalFluents):如下圖左邊,刷漆、燒開水、拖地板、切菜。
(2)社會(huì)流態(tài)(SocialFluents):如下圖右邊,吃、喝、追逐、攙扶,是改變自己內(nèi)部生物狀態(tài)、或者是與別人的關(guān)系。
當(dāng)機(jī)器人重建了三維場(chǎng)景后(在談視覺的時(shí)候提到了,這其實(shí)是一個(gè)與任務(wù)、功能推理的迭代生成的過程),它就帶著功利和任務(wù)的眼光來看這個(gè)場(chǎng)景。如下圖所示,哪個(gè)地方可以站,哪個(gè)地方可以坐,哪個(gè)地方可以倒水等等。下面圖中亮的地方表示可以執(zhí)行某個(gè)動(dòng)作。這些圖在機(jī)器人規(guī)劃中又叫做AffordanceMap。意思是:這個(gè)場(chǎng)景可以給你提供什么?
有了這些單個(gè)基本任務(wù)的地圖,機(jī)器人就可以做任務(wù)的規(guī)劃。這個(gè)規(guī)劃本身就是一個(gè)層次化的表達(dá)。文獻(xiàn)中有多種方法,我還是把它統(tǒng)一稱作一種STC-PG。這個(gè)過程,其實(shí)相當(dāng)復(fù)雜,因?yàn)樗贿呑觯贿呥€要不斷看和更新場(chǎng)景的模型。因?yàn)槲仪懊娼榻B過,對(duì)環(huán)境三維形狀的計(jì)算精度是根據(jù)任務(wù)需要來決定的,也就是Task-Centered視覺表達(dá)。
這個(gè)動(dòng)作計(jì)劃的過程還要考慮因果、考慮到場(chǎng)景中別人的反應(yīng)??紤]的東西越多,它就越成熟,做事就得體、不莽莽撞撞。
我一開始講到的那個(gè)機(jī)器人競(jìng)賽,這些感知和規(guī)劃的任務(wù)其實(shí)都交給了一群在后臺(tái)遙控的人。
下面,我就簡(jiǎn)單介紹幾個(gè)我實(shí)驗(yàn)室得到的初步演示結(jié)果,后臺(tái)沒有遙控的人。我實(shí)驗(yàn)室用的是一個(gè)通用的Baxter機(jī)器人,配上一個(gè)萬向移動(dòng)的底座和兩個(gè)抓手(grippers),還有一些傳感器、攝像頭等。兩個(gè)抓手是不同的,左手力道大,右手靈活。很有意思的是,如果你觀察過龍蝦等動(dòng)物,它的兩個(gè)鉗子也是不同的,一個(gè)用來夾碎、一個(gè)是鋸齒狀的。
下圖是一個(gè)博士生舒天民教會(huì)了機(jī)器人幾種社交動(dòng)作,比如握手。握手看似平常,其實(shí)非常微妙。但你走過去跟一個(gè)人握手的過程中,你其實(shí)需要多次判斷對(duì)方的意圖;否則,會(huì)出現(xiàn)尷尬局面。舒的論文在美國(guó)這邊媒體都報(bào)道過。
下面這個(gè)組圖是機(jī)器人完成一個(gè)綜合的任務(wù)。首先它聽到有人去敲門,推斷有人要進(jìn)來,它就去開門。其次,它看到這個(gè)人手上拿個(gè)蛋糕盒子,雙手被占了,所以需要幫助。通過對(duì)話,它知道對(duì)方要把蛋糕放到冰箱里面,所以它就去幫人開冰箱的門(上右圖)。這個(gè)人坐下來后,他有一個(gè)動(dòng)作是抓可樂罐,搖了搖,放下來。它必須推斷這個(gè)人要喝水,而可樂罐是空的(不可見的流態(tài))。假設(shè)它知道有可樂在冰箱,它后面就開冰箱門拿可樂,然后遞給人。
當(dāng)然,這個(gè)是受限環(huán)境,要能夠把樣的功能做成任意一個(gè)場(chǎng)景的話,那就基本能接近我們前面提到的可敬的烏鴉了。我們還在努力中!
第十節(jié)機(jī)器學(xué)習(xí):學(xué)習(xí)的極限和“停機(jī)問題”
前面談的五個(gè)領(lǐng)域,屬于各個(gè)層面上的“問題領(lǐng)域”,叫Domains。我們努力把這些問題放在一個(gè)框架中來思考,尋求一個(gè)統(tǒng)一的表達(dá)與算法。而最后要介紹的機(jī)器學(xué)習(xí),是研究解決“方法領(lǐng)域”(Methods),研究如何去擬合、獲取上面的那些知識(shí)。打個(gè)比方,那五個(gè)領(lǐng)域就像是五種釘子,機(jī)器學(xué)習(xí)是研究錘子,希望去把那些釘子錘進(jìn)去。深度學(xué)習(xí)就像一把比較好用的錘子。當(dāng)然,五大領(lǐng)域里面的人也發(fā)明了很多錘子。只不過最近這幾年深度學(xué)習(xí)這把錘子比較流行。
網(wǎng)上關(guān)于機(jī)器學(xué)習(xí)的討論很多,我這里就提出一個(gè)基本問題,與大家探討:學(xué)習(xí)的極限與“停機(jī)問題”。
大家都知道,計(jì)算機(jī)科學(xué)里面有一個(gè)著名的圖靈停機(jī)Halting問題,就是判斷圖靈機(jī)在計(jì)算過程中是否會(huì)停下了。我提出一個(gè)學(xué)習(xí)的停機(jī)問題:學(xué)習(xí)應(yīng)該是一個(gè)連續(xù)交流與通訊的過程,這個(gè)交流過程是基于我們的認(rèn)知構(gòu)架的。那么,在什么條件下,學(xué)習(xí)過程會(huì)終止呢?當(dāng)學(xué)習(xí)過程終止了,系統(tǒng)也就達(dá)到了極限。比如,有的人早早就決定不學(xué)習(xí)了。
首先,到底什么是學(xué)習(xí)?
當(dāng)前大家做的機(jī)器學(xué)習(xí),其實(shí)是一個(gè)很狹義的定義,不代表整個(gè)的學(xué)習(xí)過程。見下圖。它就包含三步:
(1)你定義一個(gè)損失函數(shù)lossfunction記作u,代表一個(gè)小任務(wù),比如人臉識(shí)別,對(duì)了就獎(jiǎng)勵(lì)1,錯(cuò)了就是-1。
(2)你選擇一個(gè)模型,比如一個(gè)10-層的神經(jīng)網(wǎng)絡(luò),它帶有幾億個(gè)參數(shù)theta,需要通過數(shù)據(jù)來擬合。
(3)你拿到大量數(shù)據(jù),這里假設(shè)有人給你準(zhǔn)備了標(biāo)注的數(shù)據(jù),然后就開始擬合參數(shù)了。
這個(gè)過程沒有因果,沒有機(jī)器人行動(dòng),是純粹的、被動(dòng)的統(tǒng)計(jì)學(xué)習(xí)。目前那些做視覺識(shí)別和語音識(shí)別都是這一類。
其實(shí)真正的學(xué)習(xí)是一個(gè)交互的過程。就像孔子與學(xué)生的對(duì)話,我們教學(xué)生也是這樣一個(gè)過程。學(xué)生可以問老師,老師問學(xué)生,共同思考,是一種平等交流,而不是通過大量題海、填鴨式的訓(xùn)練。坦白說,我雖然是教授,現(xiàn)在就常常從我的博士生那里學(xué)到新知識(shí)。
這個(gè)學(xué)習(xí)過程是建立在認(rèn)知構(gòu)架之上的(第六節(jié)講過的構(gòu)架)。我把這種廣義的學(xué)習(xí)稱作通訊學(xué)習(xí)CommunicativeLearning,見下圖。
這個(gè)圖里面是兩個(gè)人A與B的交流,一個(gè)是老師,一個(gè)是學(xué)生,完全是對(duì)等的結(jié)構(gòu),體現(xiàn)了教與學(xué)是一個(gè)平等的互動(dòng)過程。每個(gè)橢圓代表一個(gè)腦袋mind,它包含了三大塊:知識(shí)theta、決策函數(shù)pi、價(jià)值函數(shù)mu。最底下的那個(gè)橢圓代表物理世界,也就是“上帝”腦袋里面知道的東西。上面中間的那個(gè)橢圓代表雙方達(dá)成的共識(shí)。
這個(gè)通訊學(xué)習(xí)的構(gòu)架里面,就包含了大量的學(xué)習(xí)模式,包括以下七種學(xué)習(xí)模式(每種學(xué)習(xí)模式其實(shí)對(duì)應(yīng)與圖中的某個(gè)或者幾個(gè)箭頭),這里面還有很多模式可以開發(fā)出來。
(1)被動(dòng)統(tǒng)計(jì)學(xué)習(xí)passivestatisticallearning:上面剛剛談到的、當(dāng)前最流行的學(xué)習(xí)模式,用大數(shù)據(jù)擬合模型。
(2)主動(dòng)學(xué)習(xí)activelearning:學(xué)生可以問老師主動(dòng)要數(shù)據(jù),這個(gè)在機(jī)器學(xué)習(xí)里面也流行過。
(3)算法教學(xué)algorithmicteaching:老師主動(dòng)跟蹤學(xué)生的進(jìn)展和能力,然后,設(shè)計(jì)例子來幫你學(xué)。這是成本比較高的、理想的優(yōu)秀教師的教學(xué)方式。
(4)演示學(xué)習(xí)learningfromdemonstration:這是機(jī)器人學(xué)科里面常用的,就是手把手叫機(jī)器人做動(dòng)作。一個(gè)變種是模仿學(xué)習(xí)immitationlearning。
(5)感知因果學(xué)習(xí)perceptualcausality:這是我發(fā)明的一種,就是通過觀察別人行為的因果,而不需要去做實(shí)驗(yàn)驗(yàn)證,學(xué)習(xí)出來的因果模型,這在人類認(rèn)知中十分普遍。
(6)因果學(xué)習(xí)causallearning:通過動(dòng)手實(shí)驗(yàn),控制其它變量,而得到更可靠的因果模型,科學(xué)實(shí)驗(yàn)往往屬于這一類。
(7)增強(qiáng)學(xué)習(xí)reinforcementlearning:就是去學(xué)習(xí)決策函數(shù)與價(jià)值函數(shù)的一種方法。
我在第一節(jié)談到過,深度學(xué)習(xí)只是這個(gè)廣義學(xué)習(xí)構(gòu)架里面很小的一部分,而學(xué)習(xí)又是人工智能里面一個(gè)領(lǐng)域。所以,把深度學(xué)習(xí)等同于人工智能,真的是坐井觀天、以管窺豹。
其次,學(xué)習(xí)的極限是什么?停機(jī)條件是什么?
對(duì)于被動(dòng)的統(tǒng)計(jì)學(xué)習(xí),文獻(xiàn)中有很多關(guān)于樣本數(shù)量或者錯(cuò)誤率的上限。這里我所說的學(xué)習(xí)的極限就遠(yuǎn)遠(yuǎn)超越了那些定義。我是指這個(gè)廣義的學(xué)習(xí)過程能否收斂?收斂到哪?學(xué)習(xí)的停機(jī)問題,就是這個(gè)學(xué)習(xí)過程怎么終止的問題。就這些問題,我和吳英年正在寫一個(gè)綜述文章。
我們學(xué)習(xí)、談話的過程,其實(shí)就是某種信息在這些橢圓之間流動(dòng)的過程。那么影響這個(gè)流動(dòng)的因素就很多,我列舉幾條如下。
(1)教與學(xué)的動(dòng)機(jī):老師要去交學(xué)生一個(gè)知識(shí)、決策、價(jià)值,首先他必須確認(rèn)自己知道、而學(xué)生不知道這個(gè)事。同理,學(xué)生去問老師,他也必須意識(shí)到自己不知道,而這個(gè)老師知道。那么,一個(gè)關(guān)鍵是,雙方對(duì)自己和對(duì)方有一個(gè)準(zhǔn)確的估計(jì)。
(2)教與學(xué)的方法:如果老師準(zhǔn)確知道學(xué)生的進(jìn)度,就可以準(zhǔn)確地提供新知識(shí),而非重復(fù)。這在algorithmiclearning和perceptualcausality里面很明顯。
(3)智商問題:如何去測(cè)量一個(gè)機(jī)器的智商?很多動(dòng)物,有些概念你怎么教都教不會(huì)。
(4)價(jià)值函數(shù):如果你對(duì)某些知識(shí)不感興趣,那肯定不想學(xué)。價(jià)值觀相左的人,那根本都無法交流,更別談相互傾聽、學(xué)習(xí)了。比如微信群里面有的人就待不了,退群了,因?yàn)樗悴灰粯?,收斂不到一起去,最后同一個(gè)群的人收斂到一起去了,互相增強(qiáng)。這在某種程度上造成了社會(huì)的分裂。
這個(gè)學(xué)習(xí)條件的設(shè)定條件不同,人們學(xué)習(xí)肯定不會(huì)收斂到同一個(gè)地方。中國(guó)14億人,有14億個(gè)不同的腦模型,這14億人中間,局部又有一些共識(shí),也就是共享的模型。
我說的停機(jī)問題,就是這個(gè)動(dòng)態(tài)過程中所達(dá)成的各種平衡態(tài)。
第十一節(jié)總結(jié):智能科學(xué)---牛頓與達(dá)爾文理論體系的統(tǒng)一
到此,我摘要介紹了人工智能這六大領(lǐng)域的一些前沿問題,希望幫助大家看到一個(gè)大致的輪廓與脈絡(luò),在我眼中,它們?cè)谝粋€(gè)共同的認(rèn)知構(gòu)架下正在走向統(tǒng)一。其中有很多激動(dòng)人心的前沿課題,等待年輕人去探索。
那么人工智能這六大領(lǐng)域、或者叫“戰(zhàn)國(guó)六雄”,如何從當(dāng)前鬧哄哄的工程實(shí)踐,成為一門成熟的科學(xué)體系呢?從人工智能ArtificialIntelligence變成智能科學(xué)ScienceofIntelligence,或者叫IntelligenceScience,這個(gè)統(tǒng)一的科學(xué)體系應(yīng)該是什么?
什么叫科學(xué)?物理學(xué)是迄今為止發(fā)展最為完善的一門科學(xué),我們可以借鑒物理學(xué)發(fā)展的歷史。我自己特別喜歡物理學(xué),1986年報(bào)考中科大的時(shí)候,我填寫的志愿就是近代物理(4系)。填完志愿以后,我就回鄉(xiāng)下去了。我哥哥當(dāng)時(shí)是市里的干部,他去高中查看我的志愿,一看報(bào)的是物理,只怕將來不好找工作,他就給我改報(bào)計(jì)算機(jī)。當(dāng)時(shí)我們都沒見過計(jì)算機(jī),他也沒跟我商量,所以我是誤打誤撞進(jìn)了這個(gè)新興的專業(yè),但心里總是念念不忘物理學(xué)之美。
等到開學(xué),上《力學(xué)概論》的課,教材是當(dāng)時(shí)常務(wù)副校長(zhǎng)夫婦寫的,我這里就不提名字了,大家都知道,這是科大那一代人心中永恒的記憶。翻開書的第一頁(yè),我就被緒論的文字震撼了。下面是一個(gè)截圖,劃了重點(diǎn)兩句話,討論如下。
(1)物理學(xué)的發(fā)展就是一部追求物理世界的統(tǒng)一的歷史。第一次大的統(tǒng)一就是牛頓的經(jīng)典力學(xué),通過萬有引力把天界星體運(yùn)動(dòng)與世俗的看似復(fù)雜的物體運(yùn)動(dòng)做了一個(gè)統(tǒng)一的解釋。形成一個(gè)科學(xué)的體系,從此也堅(jiān)定了大家的信念:
“物理世界存在著完整的因果鏈條”。
物理學(xué)的責(zé)任就是尋找支配自然各種現(xiàn)象的統(tǒng)一的力。
這完全是一個(gè)信念,你相信了,就為此努力!自牛頓以來,300多年了,物理學(xué)家還在奮斗,逐步發(fā)現(xiàn)了一個(gè)美妙的宇宙模型。
相比于物理學(xué),可嘆的是,人工智能的研究,到目前為止,極少關(guān)注這個(gè)科學(xué)的問題。頂級(jí)的工程學(xué)院也不教這個(gè)事情,大家忙著教一些技能。解決一些小問題,日子就能過得紅紅火火。80年代有些知名教授公開講智能現(xiàn)象那么復(fù)雜,根本不可能有統(tǒng)一的解釋,更可能是“abagoftricks”一麻袋的詭計(jì)。有一些“兵來將擋、水來土掩”的工程法則就行了。這當(dāng)然是膚淺和短視的。
我的博士導(dǎo)師Mumford1980年代從純數(shù)學(xué)轉(zhuǎn)來學(xué)習(xí)、研究人工智能,他的理想是為智能構(gòu)建一個(gè)數(shù)學(xué)體系(mathematicsofintelligence)。以他的身份做這種轉(zhuǎn)變是極其不容易的(他有很多嚇人的頭銜,包括菲爾茲獎(jiǎng)、麥克阿瑟天才獎(jiǎng)、國(guó)際數(shù)學(xué)家協(xié)會(huì)主席、美國(guó)國(guó)家科學(xué)勛章),而我到目前還沒有見過第二個(gè)這么轉(zhuǎn)型的大家。1991年我讀完大學(xué),申請(qǐng)研究生院的個(gè)人陳述(StatementofPurpose)中就懵懵懂懂地提出要探索這樣一種統(tǒng)一框架。當(dāng)時(shí)也沒有互聯(lián)網(wǎng),我也沒有聽說過Mumford。記得當(dāng)時(shí)科大計(jì)算機(jī)系剛剛有了第一臺(tái)激光打印機(jī),替代針式打印。我買了兩包“佛子嶺”香煙給管機(jī)房的師兄,讓他一定要幫我把這三頁(yè)紙的個(gè)人陳述好好排版、打印出來!結(jié)果,大部分學(xué)校都拒絕了我的申請(qǐng),而我導(dǎo)師把我錄取到哈佛讀博士。同一年,科大計(jì)算機(jī)系一個(gè)師弟吳英年被錄取到哈佛統(tǒng)計(jì)學(xué)讀博,我們就成了室友。他對(duì)物理和統(tǒng)計(jì)的理解十分深刻,過去25年我們一直在一起合作?,F(xiàn)在回頭看,人生何其幸哉!
(2)物理學(xué)把生物的意志排除在研究之外,而這正好是智能科學(xué)要研究的對(duì)象。智能科學(xué)要研究的是一個(gè)物理與生物混合的復(fù)雜系統(tǒng)。智能作為一種現(xiàn)象,就表現(xiàn)在個(gè)體與自然、社會(huì)群體的相互作用和行為過程中。我個(gè)人相信這些行為和現(xiàn)象必然有統(tǒng)一的力、相互作用、基本元素來描述。其實(shí)這些概念對(duì)我們搞計(jì)算機(jī)視覺的人來說一點(diǎn)也不陌生。我們的模型與物理模型是完全相通的,當(dāng)你有一個(gè)概率分布,你就有了“勢(shì)能函數(shù)”,就有了各種“相互作用”,然后就有了各種“場(chǎng)”與“力”。
這些問題放在以前是沒有數(shù)據(jù)來做研究的,就像愛因斯坦講的“…不過是一個(gè)大膽的奢望,一個(gè)哲學(xué)學(xué)派成問題的理想而已”。而現(xiàn)在可以了,我前面已經(jīng)給出了一些例子:砸核桃、坐椅子、疊衣服。我們可以從數(shù)據(jù)中推算各種相互作用的力,用于解釋人的各種行為。最近,我有兩個(gè)學(xué)生謝丹和舒天民就用“社會(huì)的力和場(chǎng)”來解釋人的相互作用,舒還拿了2017年國(guó)際認(rèn)知學(xué)會(huì)的一個(gè)“計(jì)算建模獎(jiǎng)”。我們以后會(huì)寫文章介紹這方面的工作。
智能科學(xué)的復(fù)雜之處在于:
(1)物理學(xué)面對(duì)的是一個(gè)客觀的世界,當(dāng)這個(gè)客觀世界映射到每個(gè)人腦中,形成一個(gè)主觀與客觀融合的世界,也就是每個(gè)人腦中的模型(這是統(tǒng)計(jì)中貝葉斯學(xué)派觀點(diǎn))。這個(gè)模型又被映射到別人腦袋之中。每個(gè)腦Mind里面包含了上百個(gè)他人的模型的估計(jì)。由這些模型來驅(qū)動(dòng)人的運(yùn)動(dòng)、行為。
(2)物理學(xué)可以把各種現(xiàn)象隔離出來研究,而我們一張圖像就包含大量的模式,人的一個(gè)簡(jiǎn)單動(dòng)作后面包含了很復(fù)雜的心理活動(dòng),很難隔離開。況且,當(dāng)前以大數(shù)據(jù)集為依據(jù)的“深度學(xué)習(xí)”學(xué)派、“刷榜派”非常流行,你要把一個(gè)小問題單獨(dú)拿出來研究,那在他們復(fù)雜數(shù)據(jù)集里面是討不到什么便宜的。文章送到他們手上,他們就“強(qiáng)烈拒絕”,要求你到他們數(shù)據(jù)集上跑結(jié)果。這批人缺乏科學(xué)的思維和素養(yǎng)。嗚呼哀哉!
回到前面烏鴉的例子,我在第四節(jié)討論到,我們研究的物理與生物系統(tǒng)有兩個(gè)基本前提:
一、智能物種與生俱來的任務(wù)與價(jià)值鏈條。這是生物進(jìn)化的“剛需”,動(dòng)物的行為都是被各種任務(wù)驅(qū)動(dòng)的,任務(wù)由價(jià)值函數(shù)決定,而后者是進(jìn)化論中的phenotypelandscape,通俗地說就是進(jìn)化的適者生存。達(dá)爾文進(jìn)化論中提出來進(jìn)化這個(gè)概念,但沒有給出數(shù)學(xué)描述。后來大家發(fā)現(xiàn),基因突變其實(shí)就是物種在這個(gè)進(jìn)化的、大時(shí)間尺度上的價(jià)值函數(shù)中的行動(dòng)action。我前面那個(gè)疊衣服的價(jià)值函數(shù)地形圖,就是從生物學(xué)借來的。
二、物理環(huán)境客觀的現(xiàn)實(shí)與因果鏈條。這就是自然尺度下的物理世界與因果鏈條,也就是牛頓力學(xué)的東西。
說到底,人工智能要變成智能科學(xué),它本質(zhì)上必將是達(dá)爾文與牛頓這兩個(gè)理論體系的統(tǒng)一。
2016年我到牛津大學(xué)開項(xiàng)目合作會(huì),順便參觀了倫敦的WestminsterAbbey大教堂。讓我驚訝的是:牛頓(1642-1727)與達(dá)爾文(1809-1882)兩人的墓穴相距也就2-3米遠(yuǎn)。站在那個(gè)地點(diǎn),我當(dāng)時(shí)十分感慨。這兩個(gè)人可以說是徹底改變?nèi)祟愂澜缬^的、最偉大的科學(xué)巨人,但是他們偉大的理論體系和思想的統(tǒng)一,還要等多久呢?
這篇長(zhǎng)文的成稿正好是深秋,讓我想起唐代詩(shī)人劉禹錫的《秋詞》,很能說明科研的一種境界,與大家共賞:
“自古逢秋悲寂寥,我言秋日勝春朝。
晴空一鶴排云上,便引詩(shī)情到碧霄。”(來源:視覺求索 文/朱松純 編選:網(wǎng)經(jīng)社)