<b id="z9zf9"></b>

    <output id="z9zf9"></output>

    <menuitem id="z9zf9"><video id="z9zf9"><meter id="z9zf9"></meter></video></menuitem>

        <del id="z9zf9"><span id="z9zf9"><ins id="z9zf9"></ins></span></del>
        <ins id="z9zf9"></ins>

        呂陳君:“狗”為什么能弈勝人?

        ——關于人工智能的數學基礎的思考
        選擇字號:   本文共閱讀 678 次 更新時間:2019-07-28 10:25:44

        進入專題: 人工智能   超窮序數  

        呂陳君  

          

           摘  要:本文利用超窮序數的方法,建立起了一個相當簡潔的分層神經網絡的數學模型,解釋了機器深度學習的工作機制。在此基礎上,說明了“狗”(AlphaGo)下圍棋為什么要比人類棋手聰明得多,并剖析了電腦和人腦在結構上的重要區別。

          

           關鍵詞:超窮序數,分層神經網絡,反向傳播,寬度,深度,復雜度

          

           AlphaGo是AI史上一個里程碑事件,其“圍棋上帝”般的棋力令人震驚,它甚至獨立發現了人類2000年圍棋史上從未發現過的博弈策略和游戲規則,這一事件毫無異議地說明:至少在下圍棋這個智力游戲上,機器的學習能力遠遠超過了人類,它比人類棋手更“聰明”。但遺憾的是,其設計者Demis Hassabis博士說過,他并不知道AlphaGo是如何下一步棋的。“深度學習教父”G. Hinton教授也表示過,沒有人知道神經網絡究竟是如何工作的。我們認為,這可能需要回到計算機和人工智能的數學基礎上,才能真正理解機器是如何思考和學習的。

          

        1 從圖靈博士論文談起

          

           計算機和人工智能的發明都源于Hilbert綱領的研究,在1900年國際數學家大會上,Hilbert提出了著名的23個問題,其中第一、第二和第十問題都是關于數學基礎的。Turing為解決第十問題(丟番圖方程的可解性),定義了一種能執行機械計算程序的機器,即圖靈機,它是通用計算機的數學模型。Gödel在解決第二問題(公理系統的相容性)時,出人意料地證明了兩個不完備性定理,在證明中,他首次使用了“程序內存”的思想,它相當于說:假設有一臺機器能證明所有的數學公式,其計算程序也可以表示為一個數學公式,但這個程序公式卻是不可計算的。所以,Gödel不完備性定理充分表明:任何計算機都存在著極限,通用計算機無法實現自我編程。

           如果機器只能按照設計好的固定程序執行任務,它的每一步都是確定的,輸出的結果也是確定的,這樣它當然就談不上具有“智能”,特別是,它不能自己修改程序,因此也就無法具備學習能力。所以,要想使機器具有“智能”,它就必須突破不完備性定理的限制,具備自動修改程序的能力,這樣它才能通過不斷學習來改進自己的計算方法,解決原來不可計算的問題。所以,計算機和學習機是兩個概念,計算機不能自我編程,而學習機可以自我編程。

           1936年,Turing寫出其經典論文《論可計算數及其在可判定性問題上的應用》[1]后,就開始思考計算機如何突破不完備性定理的問題。其思考的結果,就是他1936-1938年在普林斯頓完成的博士論文《以序數為基礎的邏輯系統》。[2]他的想法很簡單:任何一個數學公式A都對應著一個序數a(即表示為一串數字長度),它可以用邏輯L_a來判定;利用Cantor的超窮序數,可以形成不斷遞增的序數序列w ,2w ,等等,相應的,就有不斷遞增的邏輯系統L_w,L_2w,等等,后一個系統都比前一個系統更完備,即可判定的數學公式更多。所以,如果一個公式A在L_w中不可判定,那么我們可以通過重復序數遞增的過程,構造一個更完備的邏輯系統L_2w來判定它。顯然,Turing序數邏輯的想法,跟后來Gödel “可構成集”[3]的概念是一脈相承的。

           但Turing也意識到了,這種不斷遞增的序數邏輯系統,最終也逃脫不了Gödel不完備性定理的限制,它就相當于是把許多臺圖靈機 T1, T2, …,Ti疊加起來,后一臺給前一臺修改程序,但最后一臺圖靈機 還是存在不可計算的程序公式,不能自我修改程序,所以,整個系統完全等價于一臺較大的圖靈機,其程序仍是事先被設計好、固定死的。這就等于又退回到原點了。在博士論文中,圖靈多少有些無奈地提出一種“神諭機”(oracle-machines)的概念,他設想存在一種“超計算”的機器,可瞬間對一個不可計算的數學問題做出判定。當然,這完全沒有任何實際的意義。

           后來Turing認識到了計算機和學習機之間存在重大差別。1948年他寫了一篇《智能機器》的文章,提出了一種“B型非結構化機器”的神經網絡,具有自動學習能力,但此文在他生前并未發表。在1950年發表的經典論文《計算機器與智能》[4]中,Turing專門談到了學習機問題,他認為學習機是一類可以自己修改程序的統計機器,它具有不確定性,這跟圖靈機是不一樣的。就像Hinton談到的:“Turing認為人類大腦是一個沒有什么明確結構、連接權重也都是隨機值的設備,然后只需要用強化學習的方式改變這些權重,它就可以學到任何東西,他覺得‘智慧’的最好模式就是這樣的。”[5]

           Turing的看法其實已經很接近現在流行的深度學習了。在他的序數邏輯方法的啟發下,我們可以用超窮數來構造一個神經網絡的數學模型,并對機器的思維過程做出一種純邏輯的解釋。


        2 分層神經網絡的超窮數模型

          

           要理解神經網絡的工作機制,我們還是得回到數學基礎研究上,也就是Hilbert第一問題,它需要判定這樣一個問題:實數集的數目2^w究竟等于哪一個超窮基數w_i?Cantor猜測等于2^w=w_1 ,這就是著名的連續統假設CH。

           我們給出了一種構造超窮基數的新方法,[6]不同的w_i正好就構成了分層神經網絡K。一臺通用圖靈機就是一條有w個格子的無窮長帶, w表示全體自然數的數目,我們這樣來理解:這w個格子就構成了K的第一層神經網絡,具有 w個儲存狀態,它是K的“基礎處理器”,即不管K具有多少層神經網絡,這一層總是負責輸入和輸出的信號處理。

           然后,我們可以定義一個 w上的遞歸函數f,f是可以重復疊加計算的,也就是說,它可以形成f(w)、f(f(w))、f(f(f(w)))、……等等,重復疊加計算i次,就得到一個遞歸函數集 f^i(w),它就是K的第i+1層神經網絡。如果我們把f(w)定義為“w的全體有窮儲存狀態構成的集合”,那么就可以證明

        w_1= f(w)

           這樣就會依次形成f(w_1) 、f(w_2) 、…、f(w_i)等等,任一f(w_i)都表示“w_(i-1) 的全體有窮儲存狀態構成的集合”,并且都有

        w_(i+1)= f(w_i)

           這就意味著:K的每一層神經網絡,其單個儲存狀態都是有窮狀態集合,但是其儲存狀態的數目是不斷遞增的,它就可以用來證明任何以自然數表示的算術定理。

           現在我們來討論分層神經網絡,譬如,一個雙層的神經網絡K2 ,當輸入某個信號或公式P(n)在 w層無法判定時,通過正向傳播f(n)就把它輸入到 w_1層,因為 w_1層的儲存狀態數目比 w層要大,所以,這個信號P(n)有可能在w_1層獲得判定,再通過反向傳播 f^(-1)(n)把它輸回 w層,重新進行計算,并最終輸出結果S(n)。所以,只要形成分層神經網絡,系統就會自動修改通用圖靈機(基礎處理器)的程序,它就轉變成了一臺學習機。我們把這樣一臺能自動修改程序的機器稱作“哥德爾機”。 [7]

           容易理解,正向傳播f是一個遞歸函數,而其反向傳播 就是深度學習中的BP算法,它是一個概率分布函數。為什么反向傳播會導致概率呢?我們可以用最簡單的方法來解釋。反向傳播的直觀含義就是:把 w_1個球裝進w 個袋子中,由于w_1 > w,那么每個袋子分配球的權重均為 w⁄w_1。這是一種理想的線性分配模型。但實際上,反向傳播是w_1 維狀態空間到 w維狀態空間上的連續映射,它是高度非線性的。[8]即,每個袋子分配球的權重是不一致的。

           我們證明了:所有的w_i 都小于 2^w。這就意味著:可以形成無窮層次的神經網絡,任一 w_i層和 w_(i+1)層之間均可形成正向傳播 f^i和反向傳播 f^(-i)。這就是深度學習的超窮數模型。

           最近,2001年沃爾夫數學獎得主、集合論專家S.Shelah證明了一個有趣的定理:實數的基數2^w ,要么比所有超窮基數 w_i都大,要么就不超過 w_4。[9]這似乎就意味著:神經網絡最多可能搭建到第4層為止。但這跟代數中五次代數方程無通解,是否存在著某種更深刻的內在聯系,引起了人們極大的興趣。需要說明的是:本文討論的神經網絡的層次,跟工程上搭建的層次是不同的概念,我們講的是一種純粹的數學概念。


        3 “狗”的棋力為什么遠超人類

          

           實際上,無論電腦還是人腦,其內部儲存狀態數目都不可能是無限多的,也就是說,其分層神經網絡的基礎處理器只能是有窮長帶,其分層也只能是有限層數,所以,神經網絡K就是一個四元組:

           n表示其基礎處理器的格子數,稱為K的“寬度”; imax表示其最大的分層數,稱為K的“深度”;f是定義在 n上的計算規則;N是K執行一項任務的復雜度,

          

           且n遠小于 N。通過重復疊加計算,K最多可以形成 imax個層次f(n)、f((n))、…、 f^(imax)(n),令ni = f^i(n),則有

        ni > n_(i-1)

           如果存在一個i,使得

        f^i(n)≥ N

           我們就稱“復雜度N被分解”,那么機器就可以通過反向傳播來執行任務了。但如果 f^(imax)(n) < N,此項任務就無法執行。也就是說,正向傳播是遞歸計算,反向傳播是概率演算,只要達到f^(imax)(n) ≥ N,這兩種過程就構成一種必然發生的互逆性或互補性的自組織系統。

           “狗”(AlphaGo)是一個二進位制多維Boolean函數空間,其遞歸計算函數f定義為:

        f^i(n)=2^(n_(i-1)) (點擊此處閱讀下一頁)

            進入專題: 人工智能   超窮序數  

        本文責編:limei
        發信站:愛思想(http://www.gz775.com),欄目:天益筆會 > 科學精神 > 科學評論
        本文鏈接:http://www.gz775.com/data/117444.html
        文章來源:作者授權愛思想發布,轉載請注明出處(http://www.gz775.com)。

        1 推薦

        在方框中輸入電子郵件地址,多個郵件之間用半角逗號(,)分隔。

        愛思想(aisixiang.com)網站為公益純學術網站,旨在推動學術繁榮、塑造社會精神。
        凡本網首發及經作者授權但非首發的所有作品,版權歸作者本人所有。網絡轉載請注明作者、出處并保持完整,紙媒轉載請經本網或作者本人書面授權。
        凡本網注明“來源:XXX(非愛思想網)”的作品,均轉載自其它媒體,轉載目的在于分享信息、助推思想傳播,并不代表本網贊同其觀點和對其真實性負責。若作者或版權人不愿被使用,請來函指出,本網即予改正。
        Powered by aisixiang.com Copyright © 2019 by aisixiang.com All Rights Reserved 愛思想 京ICP備12007865號 京公網安備11010602120014號.
        易康網
        国产自拍