谷歌:讓計算機實現(xiàn)自我編程,自主機器時代不再遙遠
新智元導讀:許多人對AI的想象都停留在應用層,而忽視了技術層AI也將產(chǎn)生顛覆——讓機器自己編程。谷歌大腦、DeepMind、Facebook甚至Viv 都在這一方向上努力,發(fā)表了一系列研究論文。Venture Beat 作者 Lucas Carlson認為,機器自我編程其實離我們并不遙遠,將很快實現(xiàn)。一旦機器做到這一步,在軟件發(fā)揮重大作用的所有領域,將會經(jīng)歷一場顛覆性的變革。
原創(chuàng)
2016-11-29 16:34:51
來源:新浪科技??

  歡迎關注“創(chuàng)事記”的微信訂閱號:sinachuangshiji

  編譯/新智元

  新智元導讀:許多人對AI的想象都停留在應用層,而忽視了技術層AI也將產(chǎn)生顛覆——讓機器自己編程。谷歌大腦、DeepMind、Facebook甚至Viv 都在這一方向上努力,發(fā)表了一系列研究論文。Venture Beat 作者 Lucas Carlson認為,機器自我編程其實離我們并不遙遠,將很快實現(xiàn)。一旦機器做到這一步,在軟件發(fā)揮重大作用的所有領域,將會經(jīng)歷一場顛覆性的變革。

  想象AI 的未來是很有趣的:家庭服務機器人、亞馬遜的智能家庭中樞(Echo)等設備將走進每家每戶,還有無人機快遞和更加精準的醫(yī)學診斷。這些吸人眼球的消費應用充斥著公眾的想象,以至于大家都忽視了AI對另一個領域的顛覆——軟件本身的發(fā)展。

  想象一下,如果計算機自己能理解自己,它們可以做些什么?用不了多久,計算機就能做到這件事。并且,我不是在描述遙遠的未來,我說的是觸手可及的現(xiàn)在,使用時下現(xiàn)有的技術就能達到。

  迄今為止,機器學習的專家傾向于聚焦那些為特定任務開發(fā)的AI 應用,比如人臉識別、自動駕駛、語音識別甚至是搜索。但是,如果這些類似的算法能夠在不需要人為幫助、解釋或者干預的情況下,理解它們自身的代碼結(jié)構(gòu)呢?正如他們理解人類的語言和圖像一樣。

  如果代碼開始對自己進行分析、自我修正并提升,且速度比認為的更快,那么技術的突破可能會來得更快。由此帶來的可能性是無止境的:醫(yī)學的進步、更加自然的機器人、更智能的手機、更少bug的軟件,更少的銀行欺詐等等。

  人工智能具有解決軟件開發(fā)中的一個古老問題的潛力。代碼編寫或操縱其他代碼的能力的概念已經(jīng)存在了很長時間,一般稱為元編程(它實際上起源于20世紀50年代末的Lisp)。它解決的難題,目前都還在人們的想象之中。

  但是,現(xiàn)在人工智能讓改變發(fā)生了。

  使用人工智能,計算機能夠理解一個軟件開發(fā)項目從無到有的發(fā)展歷史過程中的所有代碼,并立即改進或者刪除單獨一行代碼中的bug,不管是用什么編程語言。即便是一個缺乏經(jīng)驗的或者中等水平的程序員都能講清楚讓計算機自我編程的原理。由此,一個癌癥項目的研究可能幾天或者幾個月就能完成,而不需要花費好幾年的時間,這將帶來顯著的進步。

  今天,這項最終將會帶來顛覆性改變的技術尚處在萌芽時期,但是,它已經(jīng)開始生長。比如,谷歌的TensorFlow機器學習軟件,讓每位程序員都能將神經(jīng)網(wǎng)絡直接融入到所開發(fā)的APP中,讓APP擁有識別圖片中的人和物體的能力。要把這些想法變成現(xiàn)實,你將不再需要一個博士學位。讓業(yè)余人士也可以修正程序,這可能會成為AI發(fā)展歷史上最大的突破。

  谷歌的目標:大部分代碼都不需要人為編寫

  國外著名科技記者 Steven Levy 今年 6 月在他刊于 BackChannel 的文章《谷歌如何將自己重塑為一家“AI 為先”的公司》(How Google Is Remaking Itself As A “Machine Learning First” Company)中提到,谷歌大腦負責人 Jeff Dean 表示,隨著他和團隊對機器學習了解得更多,他們利用機器學習的方法也更加大膽。“以前,我們可能在系統(tǒng)的幾個子組件中使用機器學習,”Jeff Dean 說:“現(xiàn)在我們實際上使用機器學習來替換整套系統(tǒng),而不是試圖為每個部分制作一個更好的機器學習模型?!盠evy 在文中寫道,如果現(xiàn)在讓 Jeff Dean 改寫谷歌的基礎設施,大部分代碼都不會由人編碼,而將由機器學習自動生成。

  谷歌的代碼bug預測系統(tǒng),使用一個得分算法,隨著commits變得越來越舊,它們的價值越來越小。

  認為計算機自我編程離我們還很遠?如果我告訴你,一些大公司,比如谷歌,已經(jīng)開始在內(nèi)部的項目管理系統(tǒng)中嘗試使用這一概念,你可能會覺得震驚。但是,谷歌確實已經(jīng)開發(fā)了一個 bug 預測程序,使用機器學習和統(tǒng)計分析,來判斷某一行代碼是否存在瑕疵。谷歌工程師、W3C的聯(lián)合主席 Ilya Grigorik 也開發(fā)了一個開源版本的 bug 預測工具,目前已被下載 2萬次。

  開源地址:https://github.com/igrigorik/bugspots

  Ilya Grigorik ,圖片來自twitter

  另一個例子來自Siri 的繼承者——Viv。Wired 最近的一篇報道中寫道,Viv 不僅使用一系列的自然語言處理來實現(xiàn)語言識別, 還基于英語詞匯建立了復雜的自適應性計算機程序。代碼自己寫代碼(Code writing code)。由于被寫入的代碼是經(jīng)過Viv的開發(fā)人員自己訓練和專門化的,所以這里的“寫代碼”并不是我們通常所說的寫代碼的能力,但這確實是一個大的進步。

  在這個方向上,另一個大的進步來自非專業(yè)領域。Emil Schutte 曾有過一句非常具有挑釁性的言論:厭倦了寫代碼?我也是!讓Stack Overflow來做這件事吧。他分享了一個例子來證明這一概念,從Stack Overflow 的大型編程數(shù)據(jù)庫中提取完整的工作代碼,來提供完整的功能代碼塊,但是,這樣得到的模塊還是基于已經(jīng)寫好的代碼。

  DeepMind 的嘗試

  實際上更早之前,DeepMind 團隊開發(fā)了一個“神經(jīng)編程解釋器”(NPI),能自己學習并且編輯簡單的程序,排序的泛化能力也比序列到序列的 LSTM 更高。描述這項研究的論文《神經(jīng)程序解釋器》(Neural Programmer-Interpreters),被評選為 ICLR16 最佳論文。

  NPI 是一種遞歸性的合成神經(jīng)網(wǎng)絡,能學習對程序進行表征和執(zhí)行。NPI 的核心模塊是一個基于 LSTM 的序列模型,這個模型的輸入包括一個可學習的程序嵌入、由調(diào)用程序傳遞的程序參數(shù)和對環(huán)境的特征表征。這個核心模塊的輸出包括,一個能指示接下來將調(diào)用哪個程序的鍵、一個經(jīng)典算法程序的參數(shù),以及一個能指示該程序是否該停止的標記。除了遞歸性內(nèi)核外,NPI 構(gòu)架還包括一個內(nèi)嵌的可學習程序的鍵值內(nèi)存。這種程序-內(nèi)存的結(jié)構(gòu)對于程序的持續(xù)學習和重用是極其重要的。

  圖 6:NPI 與 序列到序列 LSTM 對不同長度的序列進行排序的準確率對比,最長序列含有20個數(shù)組。

  NPI 有三個擁有學習能力的部件:一是任務未知的遞歸內(nèi)核,二是持續(xù)鍵值程序內(nèi)存,三是基于特定領域的編碼器,這個編碼器能在多個感知上有差異的環(huán)境中讓單一的 NPI 提供截然不同的功能。通過合成低層程序表達高層程序,NPI 減少了樣本復雜性,同時比序列到序列的 LSTM 更容易泛化。通過在既有程序的基礎上進行建構(gòu),程序內(nèi)存能高效學習額外的任務。NPI 也可以利用環(huán)境緩存計算的中間結(jié)果,從而減輕遞歸隱藏單元的長期存儲負擔。

  不過,當時 DeepMind 團隊并未使用無監(jiān)督學習的方法的訓練 NPI,其模型也只能學習合成若干種簡單的程序,包括加法、排序和對 3D 模型進行正則化轉(zhuǎn)換。不過,單一 NPI 能學會執(zhí)行這些程序以及所有 21 個關聯(lián)子程序。

  田淵棟對計算機自我編程的研究綜述

  Facebook 人工智能實驗室研究員田淵棟在他提交 ICLR17 的文章中,就有一篇研究了這方面的問題。

  論文摘要:構(gòu)建能夠通過自動推斷(infer),將一組輸入映射到輸出的計算機程序仍是一個開放且極具挑戰(zhàn)性的問題。由于在可能的程序上存儲著巨大的搜索空間,并且需要處理高階邏輯(如 for循環(huán)或遞歸),所以程序進行歸納(induction)任務是很困難的。在本文中,我們使用 Hierarchical Generative Convolutional Neural Networks(HGCNN),自動根據(jù)輸入/輸出對生成程序。HGCNN 以層次式預測候選代碼串,由此可以使用標準的搜索技術來構(gòu)造程序。應當注意,該模型僅使用隨機生成的程序進行訓練,因此可被視為一種無監(jiān)督學習的方法。我們證明,文中所提出的方法可以生成程序,從簡單的 Swap 到更復雜的循環(huán)和分支(比如找到一串數(shù)組中的最大值)。我們還展示了使用該方法,在實現(xiàn)諸如 Bubble Sort 等嵌套循環(huán)程序時取得的不錯結(jié)果。將 LSTM 等作為比較的基礎,新方法的預測精度有了顯著的提高。

  田淵棟在《深度學習沒有解決的理論問題》里表示,這篇論文將算法的輸入輸出的結(jié)果抽取特征后,送入卷積神經(jīng)網(wǎng)絡文獻中,再層次式地生成圖像的經(jīng)典框架,生成一張二維圖,每一行就是一行代碼,或者更確切地說,是代碼的概率分布。有了好的分布,就可以幫助啟發(fā)式搜索找到正確的程序。而神經(jīng)網(wǎng)絡的訓練數(shù)據(jù),則由大量的隨機代碼、隨機輸入及隨機代碼執(zhí)行后得到的輸出來提供——基本不需要人工干預,算是一種非監(jiān)督的辦法。

  同時,田淵棟還在后面補充:“等到今年的 ICLR 的文章一公布,隨便翻一翻就找到了七篇計算機自動生成(或者自動優(yōu)化)代碼的文章。打開一看,引論里全在描述同樣的動機?!?/p>

  那這個動機就是什么?

  “讓計算機自己寫代碼”。

  一旦機器可以理解自己,一場顛覆性變革將會發(fā)生

  隨著越來越多的這類技術變得成熟,機器將會在各種各樣的任務上超越人類。那么,機器為什么不能理解自己呢?我想這只是時間的問題。并且,一旦機器做到這一步,你會發(fā)現(xiàn),在軟件發(fā)揮重大作用的所有領域,將會經(jīng)歷一場顛覆性的變革。

  人工智能的核心挑戰(zhàn)之一便是教會機器學習新的程序、從既有程序中快速地編寫新程序,并自動在一定條件下執(zhí)行這些程序以解決廣泛種類的任務。在各種人工智能問題中,程序以不同的面貌出現(xiàn),包括運動行為、圖像轉(zhuǎn)換、強化學習策略、經(jīng)典算法和符號關系等等。

  現(xiàn)在,機器已經(jīng)能夠自動執(zhí)行越來越多的程序,而且現(xiàn)在開源代碼這么多,如果把歷史上的代碼都學習一下,很多編程場景應該是可以自動化的,至少可以大大減少人工。人類程序員尤其是初級程序員的工作被取代的可能性,也越來越大。

來源:github,venturebeat 等編輯: 胡祥杰 王楠

最新文章
1
我國擬2035年完成下一代北斗系統(tǒng)建設
2
比家電以舊換新補貼額度更高,這項政策你了解嗎?
3
一加13更新:支持與iOS一碰互傳
4
出貨大漲38.9%!京東方液晶電視面板全球稱霸:日韓系繼續(xù)下跌
5
消費電子品牌做高端怎么不被討厭?小米可能有答案
6
美學旗艦 漂亮登場! vivo S20系列正式發(fā)布
7
SUSE推出一站式可觀測性平臺SUSE Cloud Observability,助力Rancher社區(qū)用戶告別多工具監(jiān)控
8
史上最薄iPhone 17 Air 背后秘密?
9
華為Mate 70 Pro推出鴻蒙NEXT先鋒版,出廠即享純血鴻蒙
10
一加 Ace 5系列首次同時登場,“驍龍雙旗艦”下月見!
11
信通院:10月國內(nèi)手機市場出貨量2967.4萬部,5G手機占比90.1%
12
算法至上時代,該如何掙破“信息繭房”?
13
全球半導體市場高速反彈?新紫光陳杰的話“真相”了
14
三季度電視出貨量同比下降6.6%,75英寸及以上同比提升5.9%
15
中興通訊、華大北斗戰(zhàn)略合作:汽車用上5G+北斗導航
16
華為Mate 70系列采用側(cè)面指紋識別,友商旗艦會不會跟?
17
撕掉“傳統(tǒng)”標簽,家電企業(yè)都講了哪些新“故事”?
18
Forter發(fā)布針對跨境電商的消費者身份安全技術革新
19
iPhone 17系列迎來“重大設計變更”,同時采用鋁和玻璃兩種材料
20
華為只打高端局,和蘋果、奔馳硬碰硬
關于我們

微信掃一掃,加關注

商務合作
  • QQ:61149512