今天微信朋友群里被阿爾法元刷屏了,實(shí)在是一個令人震驚的消息。這兩年谷歌就沒消停過,2016年整出個阿爾法狗1.0版4比1擊敗李世石九段,讓棋界為之震驚;2016年底和2017年初,又整出個Maste,對人類高手60連勝,后來得知這是阿爾法狗2.0版;2017年5月第二次“人機(jī)大戰(zhàn)”,阿爾法狗2.0版3比0完勝柯潔九段。至此,“人機(jī)大戰(zhàn)”已經(jīng)沒有任何意義,人類高手在阿爾法狗面前難求一勝。
但始料未及的是,谷歌又推出阿爾法元,而且,與阿爾法狗1.0版和2.0版不同的是,阿爾法元完全不靠人類棋手的棋譜學(xué)棋、成長,只需懂得圍棋規(guī)則后即在短短時間里成長為超級高手,與Maste對戰(zhàn)擁有壓倒性的勝率,簡言之,阿爾法元已經(jīng)接近“圍棋之神”了。
這只能說明:人工智能已經(jīng)發(fā)展到了我們難以想象的地步,霍金擔(dān)心的人工智能有一天會摧毀人類并非危言聳聽,它已經(jīng)可以不借助人類積累數(shù)千年的棋譜在短時間里成為第一高手。一如劉小光九段所言:人類思考千年不如它短短的一瞬。而且,它還是單機(jī)版,方便隨身攜帶,人類如果利用它,那人類高手們根本沒有爭勝的必要。
其次,圍棋的深度和難度通過阿爾法狗、阿爾法元證明,我們?nèi)祟悢?shù)千年掌握的不過是滄海一粟,應(yīng)驗(yàn)了日本名譽(yù)棋圣藤澤秀行所說的:棋道一百,我只知七。如果阿爾法元能讓阿爾法狗1.0版三個子的話,人類認(rèn)識圍棋連百分之七都不到。就像柯潔九段說的那樣:自從有了阿爾法狗后,沒有什么棋不能下。問題是,知道什么棋都可以下僅僅是第一步,距離“圍棋之神”還遠(yuǎn)著呢,但阿爾法元卻接近“圍棋之神”了。
非常令人震驚的進(jìn)展!2016年3月4:1戰(zhàn)勝李世石之后,Deepmind就放出風(fēng)聲,要讓AlphaGo從零知識開始學(xué)習(xí)下圍棋,當(dāng)時讓人很有興趣。這種完全靠自學(xué)習(xí),不學(xué)習(xí)人類棋譜的AI,在學(xué)成以后會如何下圍棋?會不會從天元開始下?能達(dá)到什么樣的實(shí)力?肯定非常有趣。
所謂零知識自學(xué)習(xí),就是一開始就隨機(jī)扔子,就如上圖這樣黑白等于是瞎下。從這種隨機(jī)策略開始,慢慢改進(jìn),而不是學(xué)習(xí)人類的棋譜先來個策略網(wǎng)絡(luò)一開始就下得象模象樣。
但是后來這個零知識自學(xué)習(xí)的事一直沒下文。到2017年5月烏鎮(zhèn)3:0戰(zhàn)勝柯潔時,中間有研討會,David Silver出來講了不少,也完全沒有提這個。我還寫文章,說零知識自學(xué)習(xí)可能失敗了,陷入局部陷阱棋力并不太高。特別是2017年8月AlphaGo打星際的論文出來,從0知識開始學(xué)習(xí),但是能力非常差,連暴雪最弱的AI都打不過,也不會造兵,更是讓人覺得零知識自學(xué)習(xí)可能不行,人類的先驗(yàn)知識應(yīng)該還是挺重要的。
但是2017年10月18日Deepmind第二篇AlphaGo論文《Mastering the Game of Go without Human Knowledge》出來了!論文給出了出乎我的預(yù)料的結(jié)果:
1. 從0知識開始學(xué)習(xí),是可以訓(xùn)練成功的!這個成功的程度是”目前所有Alphago版本中最厲害“。100:0戰(zhàn)勝AlphaGo-Lee版本,90%勝率勝M(fèi)aster版本(也就是戰(zhàn)勝柯潔的那個)。但是還沒有”天下無敵“,還是有一定概率輸給Master,等級分領(lǐng)先幅度還不算大。下圖右是等級分?jǐn)?shù)值。
2. 從0知識開始,訓(xùn)練速度非??欤?天就能戰(zhàn)勝AlphaGo-Lee,21天能戰(zhàn)勝M(fèi)aster。下圖左是AlphaGo-Zero等級分隨時間提升的曲線。訓(xùn)練沒有在早期陷入局部陷阱。
3. 讓人類還算欣慰的是,雖然AlphaGo Zero不需要人類棋譜,但是訓(xùn)練出來下得還是象人的。論文給出AlphaGo Zero的83局棋譜,沒訓(xùn)練一會就下得有模有樣了。也不是從中腹天元開始下,而是象人類一樣先占邊角。這說明人類的這些行棋方向還不算離譜。實(shí)際這也早有征兆,幾個圍棋AI都這樣,如果一開始不下角部,下在中腹或者邊上,給出的勝率就會下降。
4. 雖然Alphago Zero下得象人,但是很多招為什么這么下,連高手都應(yīng)該是看不懂了。它到了什么境界,人類還需要領(lǐng)會。
從哲學(xué)意義上來說,這說明圍棋這種人類看上去很復(fù)雜的游戲,在AI看來卻是簡單的。因?yàn)閲宓囊?guī)則與目標(biāo)是明確的,甚至是最簡單的,圍棋幾乎是規(guī)則最簡單的游戲,只需要兩個行棋規(guī)則:氣盡提子,禁止全同。勝負(fù)規(guī)則,也是行棋規(guī)則自然出來的,終局?jǐn)?shù)子。
圍棋的規(guī)則,讓AI可以不需要人類,就判定棋局的結(jié)果,這樣就完全不需要人類干預(yù)進(jìn)行自學(xué)習(xí)了。學(xué)名叫“無監(jiān)督”。也就是說圍棋是個完全客觀的游戲。而人類在這種客觀游戲中,確實(shí)在幾百上千年中加入了不少主觀的東西,各種“定式”、“趣向”、“價值判斷”,這都是非自然的,肯定有不少錯誤。人類的經(jīng)驗(yàn),對AI的自學(xué)習(xí)來說,到很高的水平上,應(yīng)該反而是障礙了。
AlphaGo Zero說明,對于完全客觀的東西,人類的主觀經(jīng)驗(yàn)很可能是有錯的,要勇敢地懷疑與挑戰(zhàn)。當(dāng)然也有不少問題,是依賴人的主觀判斷的,那對AI又是不同的,需要“監(jiān)督”,如識別文字 。
關(guān)于這個問題,每日經(jīng)濟(jì)新聞記者涂勁軍認(rèn)為:
AlphaGo Zero完勝曾經(jīng)戰(zhàn)勝人類的AlphaGo,這是一個里程碑的事件,對于Ai技術(shù)來說,是上到一個新臺階,足以在現(xiàn)實(shí)中證明,不依賴于人類的既有經(jīng)驗(yàn),讓機(jī)器自主學(xué)習(xí)掌握了人類上千年的圍棋技能。
這種新程序代表著人類在建造真正智能化機(jī)器方面向前邁進(jìn)了一步,因?yàn)榧词乖跊]有大量訓(xùn)練數(shù)據(jù)的情況下,機(jī)器也需要找出解決困難問題的方法。 DeepMind聯(lián)合創(chuàng)始人兼首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)說:“最引人注目的一點(diǎn)是,我們不再需要任何人工數(shù)據(jù),”。他認(rèn)為,建造Alphago Zero的技術(shù)已經(jīng)足夠強(qiáng)大,可以應(yīng)用在現(xiàn)實(shí)世界,例如藥物發(fā)現(xiàn)與材料科學(xué)等一些有必要繼續(xù)探索各種可能性的行業(yè)。Alphago Zero的相關(guān)研究成果發(fā)表在今天的《自然》雜志上。
人類一直以來有一個擔(dān)心,就是人工智能能夠自我進(jìn)化,從而超越人類,甚至對人類帶來威脅。如果過去認(rèn)為這種擔(dān)心是多余的,那么現(xiàn)在完全有理由相信人工智能的強(qiáng)大足以超過人類。 當(dāng)然擔(dān)心之外,我們還是應(yīng)該慶賀一下,如果能夠很好地管控好人工智能,人類完全還是可以把無比強(qiáng)大的人工智能當(dāng)作工具,為人類服務(wù)。
從市場空間來說,高強(qiáng)度的人工智能,可以幫助人類解決很多前所未有的問題,正如哈薩比斯說的,在醫(yī)藥、新材料領(lǐng)域,完全不用借助過去的人類經(jīng)驗(yàn)來推進(jìn),人工智能的研發(fā),應(yīng)該比人類研發(fā)速度更加快捷,從而在急用的這些領(lǐng)域上取得重大成就。
不管怎么樣,人工智能依托人類知識的學(xué)習(xí)已經(jīng)是完全可以實(shí)現(xiàn)的。當(dāng)然他們必須還有一個過度階段,因?yàn)楝F(xiàn)階段的人工智能的創(chuàng)造與進(jìn)步依然需要人類知識來推進(jìn),當(dāng)不可否認(rèn)的是,終究有一天,人工智能不再有人工二字,純粹的程序智能,能夠自我進(jìn)化與完善,甚至于人腦融合。