av老司机免费在线,深爱激情久久,波多野结衣精品,亚洲激情自拍偷拍

當前位置:首頁 > BIM工程師 > 正文

bim工程師找什么工作bim工程師能應聘什么職位

  本文轉自中國計算機學會,作者:張志華,來源:《中國計算機學會通訊》2016年第11期

  近年來,人工智能的強勢崛起,特別是剛剛過去的AlphaGo和韓國九段棋手李世石的人機大戰,讓我們領略到了人工智能技術的巨大潛力。數據是載體,智能是目標,而機器學習是從數據通往智能的技術途徑。因此,機器學習是數據科學的核心,是現代人工智能的本質。

  通俗地說,機器學習就是從數據中挖掘出有價值的信息。數據本身是無意識的,它不能自動呈現出有用的信息。怎樣才能找出有價值的東西呢?第一步要給數據一個抽象的表示;接著基于表示進行建模;然后估計模型的參數,也就是計算;為了應對大規模的數據所帶來的問題,我們還需要設計一些高效的實現手段,包括硬件層面和算法層面。統計是建模的主要工具和途徑,而模型求解大多被定義為一個優化問題,特別是,頻率派方法其實就是一個優化問題。而貝葉斯模型的計算則往往牽涉蒙特卡洛(Monte Carlo)隨機抽樣方法。因此,機器學習是計算機科學和統計學的交叉學科。

  借鑒計算機視覺理論創始人馬爾(Marr)的關于計算機視覺的三級論定義,我把機器學習也分為三個層次:初級、中級和高級。初級階段是數據獲取以及特征的提取。中級階段是數據處理與分析,它又包含三個方面:首先是應用問題導向,簡單地說,它主要應用已有的模型和方法解決一些實際問題,我們可以理解為數據挖掘;其次,根據應用問題的需要,提出和發展模型、方法和算法以及研究支撐它們的數學原理或理論基礎等,這是機器學習學科的核心內容;第三,通過推理達到某種智能。高級階段是智能與認知,即實現智能的目標。數據挖掘和機器學習本質上是一樣的,其區別是數據挖掘更接近于數據端,而機器學習則更接近于智能端。

統計與計算

  今年剛被選為美國科學院院士的卡內基梅隆大學統計系教授沃塞曼(Larry Wasserman)寫了一本名字非常霸道的書:《統計學完全教程》(All of Statistics)。這本書的引言部分有一個關于統計學與機器學習非常有趣的描述。沃塞曼認為,原來統計是在統計系,計算機是在計算機系,這兩者是不相來往的,而且互相都不認同對方的價值。計算機學家認為那些統計理論沒有用,不解決問題,而統計學家則認為計算機學家只是在“重新發明輪子”,沒有新意。然而,他認為現在情況改變了,統計學家認識到計算機學家正在做出的貢獻,而計算機學家也認識到統計的理論和方法論的普遍性意義。所以,沃塞曼寫了這本書,可以說這是一本為統計學者寫的計算機領域的書,為計算機學者寫的統計領域的書。

  現在大家達成了一個共識:如果你在用一個機器學習方法,而不懂其基礎原理,這是一件非常可怕的事情。正是由于這個原因,目前學術界對深度學習還是心存疑慮的。盡管深度學習已經在實際應用中展示出其強大的能力,但其中的原理目前大家還不是太清楚。

  計算機學家通常具有強大的計算能力和解決問題的直覺,而統計學家擅長于理論分析和問題建模,因此,兩者具有很好的互補性。Boosting、支持向量機(SVM)、集成學習和稀疏學習是機器學習界也是統計界在近十年或者是近二十年來最為活躍的方向,這些成果是統計界和計算機科學界共同努力成就的。例如,數學家瓦普尼克(Vapnik) 等人早在20世紀60年代就提出了支持向量機的理論,但直到計算機界于90年代末發明了非常有效的求解算法,并隨著后續大量優秀實現代碼的開源,支持向量機現在成為了分類算法的一個基準模型。再比如,核主成分分析(Kernel Principal Component Analysis, KPCA)是由計算機學家提出的一個非線性降維方法,其實它等價于經典多維尺度分析(Multi-Dimensional Scaling, MDS)。而后者在統計界是很早就存在的,但如果沒有計算機界重新發現,有些好的東西可能就被埋沒了。

  世界上公認最好的兩個統計系來自加州大學伯克利分校和斯坦福大學。加州大學伯克利分校是美國統計學的發源地之一,可以說是當今統計學和機器學習的中心,其機器學習領域的教授通常同時在計算機系和統計系都有正式職位。已故的布萊曼(Leo Breiman)教授是統計機器學習的主要奠基人,他是眾多統計學習方法的主要貢獻者,比如Bagging、分類回歸樹(CART)、隨機森林以及非負garrote稀疏模型等。布萊曼是喬丹(Michael Jordan)教授的伯樂,當初是他力主把喬丹從麻省理工學院引進到伯克利分校的。可以說,伯克利分校的統計系成就了喬丹,反過來他也為伯克利分校的統計學發展創造了新的活力,為機器學習領域培養了一大批優秀的學者,建立了無可代替的功勛。

  斯坦福大學統計系的一個主要方向就是統計學習,比如《統計學習基礎》(Elements of statistical learning)一書就是統計系幾位著名教授撰寫的。斯坦福大學計算機科學系的人工智能方向一直在世界占主導地位,特別是在不確定推理、概率圖模型、概率機器人等領域成就斐然。他們的網絡公開課“機器學習”、“概率圖模型”以及“人工智能”等讓全世界學者受益。有意思的是,斯坦福大學和伯克利分校具有令人羨慕的合作競爭關系。一年一度的聯合統計學日是兩校統計系的交流平臺。伯克利分校教授布萊曼和斯坦福大學教授弗萊德曼(Jerome Friedman)合作建立了許多重要統計學習模型。此外,兩校教授羅素(Stuart Russell)和諾維格(Peter Norvig)合作的《人工智能:一種現代的方法》(Artificial Intelligence: A Modern Approach)一書是人工智能的集大成。

  卡內基梅隆大學是一個非常獨特的學校,它并不是美國傳統的常春藤大學。可以說,它是以計算機科學為立校之本,是世界第一個建立機器學習系的學校。米歇爾(Tom Mitchell)教授是機器學習的早期建立者之一和守護者,他一直為該校本科生講授“機器學習”課程。這個學校的統計學同樣也是一流,是貝葉斯統計學的世界研究中心。

  在機器學習領域,多倫多大學有著舉足輕重的地位,它的機器學習研究組云集了一批世界級的學者,在《科學》(Science)和《自然》(Nature)發表多篇開創性的論文,實屬罕見。辛頓(Geoffrey Hinton)教授是偉大的思想家,更是實踐者。他是神經網絡的建立者之一,是誤差反向傳播(BP)算法和深度學習的主要貢獻者。正是由于他的不懈努力,神經網絡迎來了大爆發。尼爾(Radford Neal)教授是辛頓的學生,他在貝葉斯統計領域,特別是在蒙特卡洛馬爾科夫鏈模擬方法(MCMC)方面做出了一系列的重要工作,還開源了許多貝葉斯統計方法程序包,并一直致力于優化R語言。

機器學習的發展歷程

  對于20世紀90年代以前的發展歷程,我認識不夠,了解不深,覺得當時機器學習處于發展的相對平淡期。而20世紀90年代中期到21世紀00年代中期是機器學習發展的黃金時期,主要標志是學術界涌現出一批重要成果,比如,基于統計學習理論的支持向量機、隨機森林和Boosting等集成分類方法,概率圖模型,基于再生核理論的非線性數據分析與處理方法,非參數貝葉斯方法,基于正則化理論的稀疏學習模型及應用等等。這些成果奠定了統計學習的理論基礎和框架。

  然而,機器學習在21世紀00年代末也經歷了一個短暫的徘徊期。那時我在加州大學伯克利分校的博士后工作結束,正面臨找工作,導師喬丹教授和我進行了多次交流,他一方面認為機器學習正處于困難期,工作職位已趨于飽滿,另一方面他向我一再強調,把統計學引入到機器學習的思路是對的,因為以統計學為基礎的機器學習作為一個學科其地位已經被奠定。主要問題是機器學習是一門應用學科,它需要在工業界發揮作用,能為他們解決實際問題。幸運的是,這個時期很快就過去了。

  現在我們可以理直氣壯地說機器學習已經成為計算機科學和人工智能的主流學科。這主要體現在下面三個標志性的事件。

  第一,2010年2月,加州大學伯克利分校教授喬丹和卡內基梅隆大學教授米歇爾同時當選美國工程院院士,同年5月份,喬丹教授又當選為美國科學院院士。隨后幾年,概率圖模型專家科勒(Daphne Koller)當選為美國工程院院士,理論計算機學家和機器學習專家、Boosting的主要建立者之一夏皮爾(Robert Schapire)當選為美國工程院院士和科學院院士。期間,斯坦福大學的統計學家弗萊德曼和提布施瓦尼(Robert Tibshirani)、伯克利分校的華裔統計學家郁彬,以及卡內基梅隆大學統計學家沃塞曼也先后被選為美國科學院院士。這是一個非常有趣的現象,因為這些學者都在機器學習領域做出了非常重要的貢獻,比如弗萊德曼的工作包括分類回歸樹、多元自適應回歸(Multivariate Adaptive Regression Splines, MARS)和梯度推進機(Gradient Boosting Machines, GBM)等經典機器學習算法,而提布施瓦尼是最小絕對收縮和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO)的提出者。此外,優化算法專家鮑德(Stephen Boyd)當選美國工程院院士,他和范登貝格(Lieven Vandenberghe)的合著《凸優化》(Convex Optimization)可以說風靡機器學習界。今年,機器學習專家、深度學習的領袖、多倫多大學教授辛頓以及該校統計學習專家瑞德(Nancy Reid)分別被選為美國工程院和科學院的外籍院士。

  喬丹教授在當時我祝賀他當選為院士時的回信中說,如果以他當選院士這種方式來看待機器學習獲得學術界的認同會更有意義。因此,我理解在美國一個學科能否被接納為主流學科的一個重要標志是,其代表科學家能否被選為院士。我們知道米歇爾是機器學習早期建立者之一,而喬丹是統計機器學習的主要奠基者之一。

  第二,2011年的圖靈獎授予了加州大學洛杉磯分校教授珀爾(Judea Pearl),他主要的研究領域是概率圖模型和因果推理,這是機器學習的基礎問題。圖靈獎通常頒給純理論計算機學者,或者早期建立計算機架構或框架的學者。而把圖靈獎授予珀爾教授具有方向標的意義。此外,去年《科學》和《自然》雜志連續發表了4篇關于機器學習的綜述論文。而且,近幾年在這兩個雜志上發表的計算機學科論文幾乎都來自機器學習領域。

  第三,機器學習切實能被用來幫助工業界解決問題。特別是當下的熱點,比如說深度學習、AlphaGo、無人駕駛汽車、人工智能助理等對工業界的巨大影響。當今IT的發展已從傳統的微軟模式轉變到谷歌模式。傳統的微軟模式可以理解為制造業,而谷歌模式則是服務業。谷歌搜索完全是免費的,服務社會,他們的搜索做得越來越極致,同時創造的財富也越來越豐厚。

  財富蘊藏在數據中,而挖掘財富的核心技術則是機器學習,因此谷歌認為自己是一家機器學習公司。深度學習作為當今最有活力的機器學習方向,在計算機視覺、自然語言理解、語音識別、智力游戲等領域的顛覆性成就,造就了一批新興的創業公司。工業界對機器學習領域的人才有大量的需求。不僅僅需要代碼能力強的工程師,也需要有數學建模和解決問題的科學家。

  最近有一本尚未出版的書《數據科學基礎》(Foundation of Data Science),作者之一霍普克洛夫特(John Hopcroft)是圖靈獎得主。在這本書前沿部分,提到了計算機科學的發展可以分為三個階段:早期、中期和當今。早期就是讓計算機可以運行起來,其重點在于開發程序語言、編譯技術、操作系統,以及研究支撐它們的數學理論。中期是讓計算機變得有用,變得高效,重點在于研究算法和數據結構。第三個階段是讓計算機具有更廣泛的應用,發展重點從離散類數學轉到概率和統計。我曾經和霍普克洛夫特交談過幾次,他認為計算機科學發展到今天,機器學習是核心。他正在讀機器學習和深度學習方面的書,并計劃為本科生講授機器學習課程。

  現在計算機界戲稱機器學習為“全能學科”,它無所不在。除了有其自身的學科體系外,機器學習還有兩個重要的輻射功能。一是為應用學科提供解決問題的方法與途徑。對于一個應用學科來說,機器學習的目的就是把一些難懂的數學翻譯成讓工程師能夠寫出程序的偽代碼。二是為一些傳統學科,比如統計、理論計算機科學、運籌優化等找到新的研究問題。因此,大多數世界著名大學的計算機學科把機器學習或人工智能列為核心方向,擴大機器學習領域的教師規模,而且至少要保持兩三個機器學習研究方向具有一流競爭力。有些計算機專業有1/3甚至1/2的研究生選修機器學習或人工智能。

  機器學習現在已成為統計學的一個主流方向,許多著名大學的統計系紛紛從機器學習領域招聘教授,比如斯坦福大學統計系新進的兩位助理教授來自機器學習專業。計算在統計領域已經變得越來越重要,傳統多元統計分析是以矩陣分解為計算工具,現代高維統計則是以優化為計算工具。

機器學習發展的啟示

  機器學習的發展歷程告訴我們:發展一個學科需要一個務實的態度。時髦的概念和名字無疑對學科的普及有一定的推動作用,但學科的根本還是所研究的問題、方法、技術和支撐的基礎等,以及為社會產生的價值。

  “機器學習”是個很酷的名字,簡單地按照字面理解,它的目的是讓機器能像人一樣具有學習能力。但在其十年的黃金發展期,機器學習界并沒有過多地炒作“智能”或者“認知”,而是關注于引入統計學等來建立學科的理論基礎,面向數據分析與處理,以無監督學習和有監督學習為兩大主要的研究問題,提出和開發了一系列模型、方法和計算算法等,切實地解決了工業界所面臨的一些實際問題。近幾年,因為大數據的驅動和計算能力的極大提升,一批面向機器學習的底層架構先后被開發出來。神經網絡其實在20世紀80年代末或90年代初就被廣泛研究,但后來沉寂了。近幾年,基于深度學習的神經網絡強勢崛起,給工業界帶來了深刻的變革和機遇。深度學習的成功不是源自腦科學或認知科學的進展,而是因為大數據的驅動和計算能力的極大提升。

  機器學習的發展詮釋了多學科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的,是需要真正的融會貫通。統計學家弗萊德曼早期從事物理學研究,他是優化算法大師,而且他的編程能力同樣令人贊嘆。喬丹教授既是一流的計算機學家,又是一流的統計學家,而他的博士專業為心理學,他能夠承擔起建立統計機器學習的重任。辛頓教授是世界最著名的認知心理學家和計算機科學家。雖然他很早就成就斐然,在學術界聲名鵲起,但他依然始終活躍在一線,自己寫代碼。他提出的許多想法簡單、可行又非常有效,被稱為偉大的思想家。正是由于他的睿智和身體力行,深度學習技術迎來了革命性的突破。這些學者非常務實,從不提那些空洞無物的概念和框架。他們遵循自下而上的方式,從具體問題、模型、方法、算法等著手,一步一步實現系統化。

  可以說機器學習是由學術界、工業界、創業界(或競賽界)等合力造就的。學術界是引擎,工業界是驅動,創業界是活力和未來。學術界和工業界應該有各自的職責和分工。學術界的職責在于建立和發展機器學習學科,培養機器學習領域的專門人才;而大項目、大工程更應該由市場來驅動,由工業界來實施和完成。

我國機器學習發展現狀和出路

  機器學習在我國得到了廣泛的關注,也取得了一定的成績,但我覺得大多數研究集中在數據挖掘層面,我國從事純粹機器學習研究的學者屈指可數。在計算機學術界,理論、方法等基礎性的研究沒有得到足夠重視,一些理論背景深厚的領域甚至被邊緣化。而一些“過剩學科”、“夕陽學科”則聚集了大量的人力、財力,這使得我國在國際主流計算機領域中缺乏競爭力和影響力。

  統計學在我國還是一個弱勢學科,最近才被國家定為一級學科。我國統計學處于兩個極端,一是它被當作數學的一個分支,主要研究概率論、隨機過程以及數理統計理論等。二是它被劃為經濟學的分支,主要研究經濟分析中的應用。而機器學習在統計學界還沒有被深度地關注。統計學和計算機科學仍處于沃塞曼所說的“各自為戰”階段。

  我國計算機學科的培養體系還基本停留在早期發展階段,如今的學生從小就與計算機接觸,他們的編程能力和國外學生相比沒有任何劣勢。但由于理論知識一直沒有被充分重視,而且統計學的重要性沒有被充分認識到,這些造成了學生的數學能力和國外著名高校相比差距很大。我國大多數大學計算機專業的本科生都開設了人工智能課程,研究生則開設了機器學習課程,但無論是深度、寬度還是知識結構都落后于學科的發展,不能適應時代的需要。因此,人才的培養無論是質量還是數量都無法滿足工業界的迫切需求。

  目前數據科學專業在我國得到了極大的關注,北京大學、復旦大學和中國人民大學等依托雄厚的統計學實力紛紛建立了數據科學專業或大數據研究院,并已經開始招收本科生和研究生。但是目前還沒有一所大學開設機器學習專業。機器學習對其他應用或理論學科有輻射作用,也是連接兩者的紐帶。一方面它可以為理論端儲備人才,另一方面可以結合不同領域問題,比如醫療數據、金融數據、圖像視頻數據等,為應用端輸送人才。因此,我認為在計算機科學本科專業中,增加機器學習的訓練是必要的。

  機器學習集技術、科學與藝術于一體,它有別于傳統人工智能,是現代人工智能的核心。它牽涉到統計、優化、矩陣分析、理論計算機、編程、分布式計算等。因此,建議在已有的計算機專業本科生課程的基礎上,適當加強概率、統計和矩陣分析等課程,下面是具體課程設置和相關教材的建議:

  1.加強概率與統計的基礎課程,建議采用莫里斯·德格魯特(Morris H. DeGroot)和馬克·舍維什(Mark J. Schervish)合著的第四版《概率論與數理統計》(Probability and Statistics)為教材。

  2.在線性代數課程里,加強矩陣分析的內容。教材建議使用吉爾伯特·斯特朗(Gilbert Strang)的《線性代數導論》(Introduction to Linear Algebra)。吉爾伯特·斯特朗在麻省理工學院一直講述線性代數,他的網上視頻課程堪稱經典。后續建議開設矩陣計算,采用特雷費森·勞埃德(Trefethen N. Lloyd)和戴維·鮑(David Bau lll)著作的《數值線性代數》(Numerical Linear Algebra)為教科書。

  3.開設機器學習課程。機器學習有許多經典的書籍,但大多不太適宜做本科生的教材。最近,麻省理工學院出版的約翰·凱萊赫(John D. Kelleher)和布瑞恩·麥克·納米(Brian Mac Namee)等人著作的《機器學習基礎之預測數據分析》(Fundamentals of Machine Learning for Predictive Data Analytics),或者安得烈·韋伯(Andrew R. Webb)和基思·科普塞(Keith D. Copsey)合著的第三版《統計模式識別》(Statistical Pattern Recognition)比較適合作為本科生的教科書。同時建議課程設置實踐環節,讓學生嘗試將機器學習方法應用到某些特定問題中。

  此外,我建議設立以下課程作為本科計算機專業的提高課程或者榮譽課程。特別是,國內有些大學計算機專業設立了拔尖人才項目,我認為以下課程可以考慮列入該項目的培養計劃中。事實上,上海交通大學ACM班就開設了隨機算法和統計機器學習等課程。

  1.開設數值優化課程,建議參考教材喬治·諾塞達爾(Jorge Nocedal)和史蒂芬·賴特(Stephen J. Wright)的第二版《數值優化》(Numerical Optimization) ,或者開設數值分析,建議采用蒂莫西·索爾的《數值分析》(Numerical Analysis)為教材。

  2.加強算法課程,增加高級算法,比如隨機算法,參考教材是邁克爾·米曾馬克(Michael Mitzenmacher)和伊萊·阿普法(Eli Upfal)的《概率與計算:隨機算法與概率分析》(Probability and Computing: Randomized Algorithms and Probabilistic Analysis)。

  3.在程序設計方面,增加或加強并行計算的內容。特別是在深度學習技術的執行中,通常需要GPU加速,可以使用戴維·柯克 (David B. Kirk) 和胡文美(Wen-mei W. Hwu)的教材 《大規模并行處理器編程實戰》(第二版)(Programming Massively Parallel Processors: A Hands-on Approach, Second Edition);另外,還可以參考優達學城(Udacity)上英偉達(Nvidia)講解CUDA計算的公開課。

  總之,我認為以計算機科學為主導,聯合統計和應用數學專業,開設機器學習研究生專業是值得考慮的。研究生專業應該圍繞理論機器學習、概率與隨機圖模型、貝葉斯方法、大規模優化算法、深度學習等基礎機器學習領域。建議開設理論機器學習、概率圖模型、統計推斷與貝葉斯分析、凸分析與優化、強化學習、信息論等課程[1~8]。

  我國人工智能發展的根本出路在于教育。只有培養出一批批數理基礎深厚、動手執行力極強,有真正融合交叉能力和國際視野的人才,我們才會有大作為。

  致謝:

  本文是根據在統計之都微博發布《機器學習:統計與計算之戀》一文的刪節和修改而整理出來的。具體,刪除原文中第二部分內容,增加了一節“我國機器學習發展現狀和出路”。原文在統計之都發布后收到不少反饋意見。常象宇博士,以及我的學生陳迪、陳子豪、黎彧君、羅珞、葉海山、趙申劍等對修改稿提出了建設性的意見。在此一并感謝。

  張志華。北京大學概率統計系教授。曾在浙江大學和上海交通大學計算機系任教。主要從事機器學習與應用統計等領域的教學與科研工作。zhzzhang@gmail.com

  機器學習——統計與計算之戀

北京大學 張志華

來源:統計之都(ID:CapStat)

  編輯部按:本文是從張志華老師在第九屆中國R語言會議和上海交通大學的兩次講座中整理出來的。張志華老師是上海交通大學計算機科學與工程系教授,上海交通大學數據科學研究中心兼職教授,計算機科學與技術和統計學雙學科的博士生指導導師。在加入上海交通大學之前,是浙江大學計算機學院教授和浙江大學統計科學中心兼職教授。張老師主要從事人工智能、機器學習與應用統計學領域的教學與研究,迄今在國際重要學術期刊和重要的計算機學科會議上發表70余篇論文,是美國“數學評論”的特邀評論員,國際機器學習旗艦刊物Journal of Machine Learning Research 的執行編委。其公開課《機器學習導論》和《統計機器學習》受到廣泛關注。

  

張志華老師和他的學生們

  大家好,今天我演講的主題是 “機器學習:統計與計算之戀”。我用了一個很浪漫的名字,但是我的心情是誠惶誠恐的。一則我擔心自己沒有能力駕馭這么大的主題,二則我其實是一個不解風情之人,我的觀點有些可能不符合國內學術界的主流聲音。

  最近人工智能或者機器學習的強勢崛起,特別是剛剛過去的AlphaGo和韓國棋手李世石九段的人機大戰,再次讓我們領略到了人工智能或機器學習技術的巨大潛力,同時也深深地觸動了我。面對這一前所未有的技術大變革,作為10多年以來一直從事統計機器學習一線教學與研究的學者,希望借此機會和大家分享我個人的一些思考和反思。

  

  在這場人工智能發展的盛事里,我突然發現,對我們中國的學者來說,好像是一群看熱鬧的旁觀者。不管你承認還是不承認,事實就是和我一代的或者更早的學者也只能作為旁觀者了。我們能做的事情是幫助你們---中國年輕的一代,讓你們在人工智能發展的大潮中有競爭力,做出標桿性的成就,創造人類文明價值,也讓我有個加油歡呼的主隊。

  我的演講主要包含兩部分,在第一部分,首先對機器學習發展做一個簡要的回顧,由此探討機器學習現象所蘊含的內在本質,特別是討論它和統計學、計算機科學、運籌優化等學科的聯系,以及它和工業界、創業界相輔相成的關系。在第二部分,試圖用“多級”、“自適應”以及 “平均”等概念來簡約紛繁多彩的機器學習模型和計算方法背后的一些研究思路或思想。

  第一部分:回顧和反思

  1、 什么是機器學習

  毋庸置疑,大數據和人工智能是當今是最為時髦的名詞,它們將為我們未來生活帶來深刻的變革。數據是燃料,智能是目標,而機器學習是火箭,即通往智能的技術途徑。機器學習大師Mike Jordan和Tom Mitchell 認為機器學習是計算機科學和統計學的交叉,同時是人工智能和數據科學的核心。

  “It is one of today’s rapidly growing technical fields, lying at the intersection of computer science and statistics, and at the core of artificial intelligence and data science”

---M. I. Jordan

  通俗地說,機器學習就是從數據里面挖掘出有用的價值。數據本身是死的,它不能自動呈現出有用的信息。怎么樣才能找出有價值的東西呢?第一步要給數據一個抽象的表示,接著基于表示進行建模,然后估計模型的參數,也就是計算,為了應對大規模的數據所帶來的問題,我們還需要設計一些高效的實現手段。

  我把這個過程解釋為機器學習等于矩陣+統計+優化+算法。首先,當數據被定義為一個抽象的表示時,往往形成一個矩陣或者一個圖,而圖其實也是可以理解為矩陣。統計是建模的主要工具和途徑,而模型求解大多被定義為一個優化問題,特別是,頻率統計方法其實就是一個優化問題。當然,貝葉斯模型的計算牽涉隨機抽樣方法。而之前說到面對大數據問題的具體實現時,需要一些高效的方法,計算機科學中的算法和數據結構里有不少好的技巧可以幫助我們解決這個問題。

  借鑒Marr的關于計算機視覺的三級論定義,我把機器學習也分為三個層次:初級、中級和高級。初級階段是數據獲取以及特征的提取。中級階段是數據處理與分析,它又包含三個方面,首先是應用問題導向,簡單地說,它主要應用已有的模型和方法解決一些實際問題,我們可以理解為數據挖掘;第二,根據應用問題的需要,提出和發展模型、方法和算法以及研究支撐它們的數學原理或理論基礎等,我理解這是機器學習學科的核心內容。第三,通過推理達到某種智能。最后,高級階段是智能與認知,即實現智能的目標。從這里,我們看到,數據挖掘和機器學習本質上是一樣的,其區別是數據挖掘更接地于數據庫端,而機器學習則更接近于智能端。

  2、 機器學習的發展歷程

  我們來梳理一下機器學習的發展歷程。上個世紀90年代以前,我對此認識不夠,了解不深,但我覺得當時機器學習處于發展的平淡期。而1996-2006年是其黃金時期,主要標志是學術界涌現出一批重要成果,比如,基于統計學習理論的SVM和boosting等分類方法,基于再生核理論的非線性數據分析與處理方法,以lasso為代表的稀疏學習模型及應用等等。這些成果應該是統計界和計算機科學界共同努力成就的。

  然而,機器學習也經歷了一個短暫的徘徊期。這個我感同身受,因為那時我在伯克利的博士后工作結束,正面臨找工作,因此當時我導師Mike Jordan教授和我進行了多次交流,他一方面認為機器學習正處于困難期,工作職位已趨于飽滿,另一方面他向我一再強調,把統計學引入到機器學習的思路是對的,因為以統計學為基礎的機器學習作為一個學科其地位已經被奠定。主要問題是機器學習是一門應用學科,它需要在工業界發揮出作用,能為他們解決實際問題。幸運的是,這個時期很快就過去了。可能在座大多數人對這個時期沒有印象,因為中國學術發展往往要慢半拍。

  現在我們可以理直氣壯地說機器學習已經成為計算機科學和人工智能的主流學科。主要體現在下面三個標志性的事件。

  首先,2010年2月,伯克利的Mike Jordan教授和CMU的Tom Mitchell教授同時被選為美國工程院院士,同年5月份,Mike Jordan和斯坦福的統計學家Jerome Friedman又被選為美國科學院院士。我們知道許多著名機器學習算法比如CART、MARS 和GBM等是 Friedman教授等提出。

  

  隨后幾年一批在機器學習做出重要貢獻的學者先后被選為美國科學院或工程院院士。比如,人工智能專家的Daphne Koller, Boosting的主要建立者Robert Schapire, Lasso的提出者Robert Tibshirani, 華裔著名統計學習專家郁彬老師,統計機器機器學習專家的Larry Wasserman, 著名的優化算法專家 Stephen Boyd等。同時,機器學習專家、深度學習的領袖Toronto大學Geoffrey Hinton 以及該校統計學習專家Nancy Reid 今年分別被選為美國工程院和科學院的外籍院士。

  

  這是當時Mike給我祝賀他當選為院士時的回信:

  Thanks for your congratulations on my election to the National Academy. It's nice to have machine learning recognized in this way.

  因此,我理解在美國一個學科能否被接納為主流學科的一個重要標志是其代表科學家能否被選為院士。我們知道Tom Mitchell 是機器學習早期建立者和守護者,而Mike Jordan是統計機器學習的奠基者和推動者。

  這個遴選機制無疑是先進的,它可以促使學科良性發展,適應社會動態發展和需求。相反,如果某某通過某種方式被評選為本國院士,然后他們就掌握了該國學術話語權和資源分配權。這種機制可能會造成一些問題,比如一些過剩學科或者夕陽學科會得到過多的發展資源,而主流學科則被邊緣化。

  其次,2011年的圖靈獎授予了UCLA的Judea Pearl教授,他主要的研究領域是概率圖模型和因果推理,這是機器學習的基礎問題。我們知道,圖靈獎通常頒給做純理論計算機科學的學者,或者早期建立計算機架構的學者,而把圖靈獎授予Judea Pearl教授具有方向標的意義。

  第三,是當下的熱點,比如說深度學習、AlphaGo、無人駕駛汽車、人工智能助理等等對工業界的巨大影響。機器學習切實能被用來幫助工業界解決問題。工業界對機器學習領域的才人有大量的需求,不僅僅需要代碼能力強的工程師,也需要有數學建模和解決問題的科學家。

  讓我們具體地看看工業界和機器學習之間的關系。我之前在谷歌研究院做過一年的訪問科學家,我有不少同事和以前學生在IT界工作,平時實驗室也經常接待一些公司的來訪和交流,因此了解一些IT界情況。

  我理解當今IT的發展已從傳統的微軟模式轉變到谷歌模式。傳統的微軟模式可以理解為制造業,而谷歌模式則是服務業。谷歌搜索完全是免費的,服務社會,他們的搜索做得越來越極致,同時創造的財富也越來越豐厚。

  財富蘊藏在數據中,而挖掘財富的核心技術則是機器學習。深度學習作為當今最有活力一個機器學習方向,在計算機視覺、自然語言理解、語音識別、智力游戲等領域的顛覆性成就。它造就了一批新興的創業公司。

  3、 統計與計算

  我的重點還是要回到學術界。我們來重點討論統計學和計算機科學的關系。CMU 統計系教授Larry Wasserman最近剛被選為美國科學院院士。他寫了一本名字非常霸道的書,《All of Statistics》。在這本書引言部分關于統計學與機器學習有個非常有趣的描述。他認為原來統計是在統計系,計算機是在計算機系,這兩個是不相來往的,而且互相都不認同對方的價值。計算機學家認為那些統計理論沒有用,不解決問題,而統計學家則認為計算機學家只是在重新建造輪子,沒有新意。然而,他認為這個情況現在改變了,統計學家認識到計算機學家正在做出的貢獻,而計算機學家也認識到統計的理論和方法論的普遍性意義。所以,Larry寫了這本書,可以說這是一本為統計學者寫的計算機領域的書,為計算機學者寫的統計領域的書。

  現在大家達成了一個共識: 如果你在用一個機器學習方法,而不懂其基礎原理,這是一件非常可怕的事情。也是由于這個原因,目前學術界對深度學習還是心存疑慮的。深度學習已經展示其強大的實際應用的效果,但其中的原理目前大家還不是太清楚。

  讓我們進一步地來分析統計與計算機的關系。計算機學家通常具有強的計算能力和解決問題的直覺,而統計學家長于理論分析,具有強的建模能力,因此,兩者有很好的互補性。

  Boosting, SVM 和稀疏學習是機器學習界也是統計界,在近十年或者是近二十年來,最活躍的方向,現在很難說誰比誰在其中做的貢獻更大。比如,SVM的理論其實很早被Vapnik等提出來了,但計算機界發明了一個有效的求解算法,而且后來又有非常好的實現代碼被陸續開源給大家使用,于是SVM就變成分類算法的一個基準模型。再比如,KPCA是由計算機學家提出的一個非線性降維方法,其實它等價于經典MDS。而后者在統計界是很早就存在的,但如果沒有計算機界從新發現,有些好的東西可能就被埋沒了。

  機器學習現在已成為統計學的一個主流方向,許多著名統計系紛紛招聘機器學習領域的博士為教員。計算在統計已經變得越來越重要,傳統多元統計分析是以矩陣為計算工具,現代高維統計則是以優化為計算工具。另一方面,計算機學科開設高級統計學課程,比如統計學中的核心課程“經驗過程”。

  我們來看機器學習在計算機科學占什么樣的地位。最近有一本還沒有出版的書 “Foundation of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan,”作者之一John Hopcroft是圖靈獎得主。在這本書前沿部分,提到了計算機科學的發展可以分為三個階段:早期、中期和當今。早期就是讓計算機可以運行起來,其重點在于開發程序語言、編譯原理、操作系統,以及研究支撐它們的數學理論。中期是讓計算機變得有用,變得高效。重點在于研究算法和數據結構。第三個階段是讓計算機具有更廣泛的應用,發展重點從離散類數學轉到概率和統計。那我們看到,第三階段實際上就是機器學習所關心的。

  現在計算機界戲稱機器學習“全能學科”,它無所不在。一方面,機器學習有其自身的學科體系;另一方面它還有兩個重要的輻射功能。一是為應用學科提供解決問題的方法與途徑。說的通俗一點,對于一個應用學科來說,機器學習的目的就是把一些難懂的數學翻譯成讓工程師能夠寫出程序的偽代碼。二是為一些傳統學科,比如統計、理論計算機科學、運籌優化等找到新的研究問題。

  4、 機器學習發展的啟示

  機器學習的發展歷程告訴我們:發展一個學科需要一個務實的態度。時髦的概念和名字無疑對學科的普及有一定的推動作用,但學科的根本還是所研究的問題、方法、技術和支撐的基礎等,以及為社會產生的價值。

  機器學習是個很酷的名字,簡單地按照字面理解,它的目的是讓機器能像人一樣具有學習能力。但在前面我們所看到的,在其10年的黃金發展期,機器學習界并沒有過多地炒作“智能”,而是更多地關注于引入統計學等來建立學科的理論基礎,面向數據分析與處理,以無監督學習和有監督學習為兩大主要的研究問題,提出和開發了一系列模型、方法和計算算法等,切實地解決工業界所面臨的一些實際問題。近幾年,因應大數據的驅動和計算能力的極大提升,一批面向機器學習的底層架構又先后被開發出來,深度神經網絡的強勢崛起給工業界帶來了深刻的變革和機遇。

  機器學習的發展同樣詮釋了多學科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的,是需要真正的融化貫通。Mike Jordan教授既是一流的計算機學家,又是一流的統計學家,所以他能夠承擔起建立統計機器學習的重任。而且他非常務實,從不提那些空洞無物的概念和框架。他遵循自下而上的方式,即先從具體問題、模型、方法、算法等著手,然后一步一步系統化。Geoffrey Hinton教授是世界最著名的認知心理學家和計算機科學學家。雖然他很早就成就斐然,在學術界名聲卓越,但他一直活躍在一線,自己寫代碼。他提出的許多想法簡單、可行又非常有效,因此被稱為偉大的思想家。正是由于他的睿智和力行,深度學習技術迎來了革命性的突破。

  機器學習這個學科同時是兼容并收。我們可以說機器學習是由學術界、工業界、創業界(或競賽界)等合力而造就的。學術界是引擎,工業界是驅動,創業界是活力和未來。學術界和工業界應該有各自的職責和分工。學術界職責在于建立和發展機器學習學科,培養機器學習領域的專門人才;而大項目、大工程更應該由市場來驅動,由工業界來實施和完成。

  5、國內外發展現狀

  我們來看看機器學習在國際的發展現狀。我主要看幾所著名大學的情況。在伯克利,一個值得深思的舉措是機器學習的教授同時在計算機系和統計學都有正式職位,而且據我所知,他們不是兼職,在兩個系都有教授課程和研究的任務的。伯克利是美國統計學的發源地,可以說是當今統計學的圣地,然而她兼容并蓄、不固步自封。Mike Jordan教授是統計機器學習的主要建立者和推動者,他為機器學習領域培養了一大批優秀的學生。統計系的主任現在是Mike,然而他早年的教育并沒有統計或數學背景。可以說,Berkeley的統計系成就了Mike,反過來他也為Berkeley的統計學發展創造了新的活力,建立了無可代替的功勛。

  斯坦福和伯克利的統計是公認世界最好的兩個。我們看到,斯坦福統計系的主流方向就是統計學習,比如我們熟知的《Elements of statistical learning》一書就是統計系幾位著名教授撰寫的。Stanford計算機科學的人工智能方向一直在世界占主導地位,特別在不確定推理、概率圖模型、概率機器人等領域成就斐然,他們的網絡公開課 《機器學習》、《概率圖模型》以及《人工智能》等讓世界受益。

  

  CMU是一個非常獨特的學校,她并不是美國傳統的常春藤大學。可以說,它是以計算機科學為立校之本,它是世界第一個建立機器學習系的學校。Tom Mitchell 教授是機器學習的早期建立者之一和守護者,他一直為該校本科生教《機器學習》課程。然而,這個學校統計學同樣強,尤其,她是貝葉斯統計學的世界研究中心。

  在機器學習領域,多倫多大學有著舉足輕重的地位,她們機器學習研究組云集了一批世界級的學者,在“Science” 和“Nature”發表多篇論文,實屬罕見。Geoffrey Hinton 教授是偉大的思想家,但更是踐行者。他是神經網絡的建立者之一,是BP算法和深度學習的主要貢獻者。正是由于他的不懈努力,神經網絡迎來了大爆發。Radford Neal 教授是Hinton學生,他在貝葉斯統計領域,特別是關于MCMC做出了一系列的重要工作。

  國際發展現狀

  

  那么我們來看看國內的現狀。總的來說,統計和計算機科學這兩個學科處于Larry所說的初期各自為戰的階段。面向大數據的統計學與計算機科學的交叉研究是機遇也是挑戰。

  我之前在浙江大學曾經參與其統計交叉學科中心的組建,由此對統計界有所了解。統計學在中國應該還是一個弱勢學科,最近才被國家定為一級學科。我國統計學處于兩個極端,一是它被當作數學的一個分支,主要研究概率論、隨機過程以及數理統計理論等。二是它被劃為經濟學的分支,主要研究經濟分析中的應用。而機器學習在統計學界還沒有被深度地關注。因此,面向于數據處理、分析的IT和統計學的深度融合有巨大的潛力。

  雖然,我并沒有跟國內機器學習或者人工智能學術界有深入的接觸,但我在國內計算機系工作近8年時間,一直在一線從事機器學習相關的教學與研究,應該對機器學習的現狀有一定的發言權。機器學習的確在中國得到了廣泛的關注,也取得了一定的成績,但我覺得高品質的研究成果稀缺。熱衷于對機器學習的高級階段進行一些概念炒作,它們通常沒有多大的可執行性;偏愛大項目、大集成,這些本更應該由工業界來實施;而理論、方法等基礎性的研究不被重視,認為理論沒有用處的觀點還大有市場。

  計算機學科的培養體系還基本停留在它的早期發展階段。大多數學校都開設了人工智能與機器學習的課程,但無論是深度還是前沿性都落后于學科的發展,不能適應時代的需要。人才的培養無論質量和數量都無法滿足工業界的需求。這也是國內IT公司與國際同類公司技術上有較大差距的關鍵原因。

  第二部分:幾個簡單的研究思路

  在這部分,我的關注則回到機器學習的研究本身上來。機器學習內容博大精深,而且新方法、新技術正源源不斷地被提出、被發現。這里,我試圖用“多級”、“自適應”以及 “平均”等概念來簡約紛繁多彩的機器學習模型和計算方法背后的一些研究思路和思想。希望這些對大家理解機器學習已有的一些模型、方法以及未來的研究有所啟發。

  1. 多級 (Hierarchical)

  首先,讓我們來關注“多級”這個技術思想。我們具體看三個例子。

bim工程師找什么工作bim工程師能應聘什么職位  第1張

  第一個例子是隱含數據模型,它就是一種多級模型。作為概率圖模型的一種延伸,隱含數據模型是一類重要的多元數據分析方法。隱含變量有三個重要的性質。第一,可以用比較弱的條件獨立相關性代替較強的邊界獨立相關性。著名的de Finetti 表示定理支持這點。這個定理說,一組可以交換的隨機變量當且僅當在某個參數給定條件下,它們可以表示成一組條件隨機變量的混合體。這給出了一組可以交換的隨機變量的一個多級表示。即先從某個分布抽一個參數,然后基于這個參數,獨立地從某個分布抽出這組隨機變量。第二,可以通過引入隱含變量的技術來方便計算,比如期望最大算法以及更廣義的數據擴充技術就是基于這一思想。具體地,一些復雜分布,比如t-distribution, Laplace distribution 則可以通過表示成高斯尺度混合體來進行簡化計算。第三,隱含變量本身可能具有某種有可解釋的物理意思,這剛好符合應用的場景。比如,在隱含狄利克雷分配(LDA)模型,其中隱含變量具有某種主題的意思。

  第一個例子是隱含數據模型,它就是一種多級模型。作為概率圖模型的一種延伸,隱含數據模型是一類重要的多元數據分析方法。隱含變量有三個重要的性質。第一,可以用比較弱的條件獨立相關性代替較強的邊界獨立相關性。著名的de Finetti 表示定理支持這點。這個定理說,一組可以交換的隨機變量當且僅當在某個參數給定條件下,它們可以表示成一組條件隨機變量的混合體。這給出了一組可以交換的隨機變量的一個多級表示。即先從某個分布抽一個參數,然后基于這個參數,獨立地從某個分布抽出這組隨機變量。第二,可以通過引入隱含變量的技術來方便計算,比如期望最大算法以及更廣義的數據擴充技術就是基于這一思想。具體地,一些復雜分布,比如t-distribution, Laplace distribution 則可以通過表示成高斯尺度混合體來進行簡化計算。第三,隱含變量本身可能具有某種有可解釋的物理意思,這剛好符合應用的場景。比如,在隱含狄利克雷分配(LDA)模型,其中隱含變量具有某種主題的意思。

  

Laten Dirichlet Allocation

  第二個例子,我們來看多級貝葉斯模型。在進行MCMC抽樣后驗估計時,最上層的超參數總是需要先人為給定的,自然地,MCMC算法收斂性能是依賴這些給定的超參數的,如果我們對這些參數的選取沒有好的經驗,那么一個可能做法我們再加一層,層數越多對超參數選取的依賴性會減弱。

  

Hierarchical Bayesian Model

  第三例子,深度學習蘊含的也是多級的思想。如果把所有的節點全部的放平,然后全連接,就是一個全連接圖。而CNN深度網絡則可以看成對全連接圖的一個結構正則化。正則化理論是統計學習的一個非常核心的思想。CNN和RNN是兩大深度神經網絡模型,分別主要用于圖像處理和自然語言處理中。研究表明多級結構具有更強的學習能力。

  

Deep Learning

  2. 自適應 (Adaptive)

  我們來看自適應這個技術思路,我們通過幾個例子來看這個思路的作用。

  第一個例子是自適應重要采樣技術。重要采樣方法通常可以提高均勻采樣的性能,而自適應則進一步改善重要采樣的性能。

  第二個例子,自適應列選擇問題。給定一個矩陣A,我們希望從中選取部分列構成一個矩陣C,然后用CC^+A去近似原矩陣A,而且希望近似誤差盡可能小。這是一個NP難問題。在實際上,可以通過一個自適應的方式,先采出非常小一部分C_1,由此構造一個殘差,通過這個定義一個概率,然后用概率再去采一部分C_2, 把C_1 和 C_2 合在一起組成C。

  第三個例子,是自適應隨機迭代算法。考慮一個帶正則化的經驗風險最小問題,當訓練數據非常多時,批處理的計算方式非常耗時,所以通常采用一個隨機方式。存在的隨機梯度或者隨機對偶梯度算法可以得到參數的一個無偏估計。而通過引入自適應的技術,可以減少估計的方差。

  第四個例子,是Boosting分類方法。它自適應調整每個樣本的權重,具體地,提高分錯樣本的權重,而降低分對樣本的權重。

  3. 平均 (Averaging)

  其實,boosting 蘊含著平均思想,即我最后要談的技術思路。簡單地說,boosting是把一組弱分類器集成在一起,形成一個強的分類器。第一好處是可以降低擬合的風險。第二,可以降低陷入局部的風險。第三,可以擴展假設空間。Bagging同樣是經典的集成學習算法,它把訓練數據分成幾組,然后分別在小數據集上訓練模型,通過這些模型來組合強分類器。另外這是一個兩層的集成學習方式。

  

  經典的Anderson 加速技術則是通過平均的思想來達到加速收斂過程。具體地,它是一個疊加的過程,這個疊加的過程通過求解一個殘差最小得到一個加權組合。這個技術的好處,是沒有增加太多的計算,往往還可以使數值迭代變得較為穩定。

bim工程師找什么工作bim工程師能應聘什么職位  第2張

  另外一個使用平均的例子是分布式計算中。很多情況下分布式計算不是同步的,是異步的,如果異步的時候怎么辦?最簡單的是各自獨立做,到某個時候把所有結果平均,分發給各個worker, 然后又各自獨立運行,如此下去。這就好像一個熱啟動的過程。

  正如我們已經看到,這些思想通常是組合在一起使用的,比如boosting模型。我們多級、自適應和平均的思想很直接,但的確也很有用。

  在AlphaGo和李世石九段對弈中,一個值得關注的細節是,代表Alpha Go方懸掛的是英國國旗。我們知道AlphaGo是由deep mind團隊研發的,deep mind是一家英國公司,但后來被google公司收購了。科學成果是世界人民共同擁有和分享的財富,但科學家則是有其國家情懷和歸屬感。

  位低不敢忘春秋大義,我認為我國人工智能發展的根本出路在于教育。先哲說:“磨刀不誤砍柴工”。只有培養出一批又一批的數理基礎深厚、計算機動手執行力極強,有真正融合交叉能力和國際視野的人才時,我們才會有大作為。

  致謝

  上述內容是根據我最近在第九屆中國R語言會議(https://china-r.org/bj2016/)和上海交通大學的兩次講座而整理出來的,特別是R會主辦方統計之都的同學們幫我做了該次演講的記錄。感謝統計之都的太云、凌秉和象宇的邀請,他們和統計之都的伙伴們正在做一件意義影響深遠的學術公益,你們的情懷和奉獻給了我信心來公開宣講自己多年來的真實認識和思考。感謝我的學生們幫助我準備這個講演報告,從主題的選定,內容的選取,材料的收集以及幻燈片的制作他們都給了我極大的支持,更重要的是,他們讓我在機器學習領域的求索一直不孤獨。謝謝大家!

  統計之都:專業、人本、正直的中國統計學門戶網站。

  

  “遠望智庫”聚焦前沿科技領域,著眼科技未來發展,圍繞軍民融合、科技創新、管理創新、科技安全、知識產權等主題,開展情報挖掘、發展戰略研究、規劃論證、評估評價、項目篩選,以及成果轉化等工作,為管理決策、產業規劃、企業發展、機構投資提供情報、咨詢、培訓等服務,為推動國家創新驅動發展和軍民融合深度發展提供智力支撐。

發表評論

主站蜘蛛池模板: 伽师县| 镇坪县| 枣阳市| 东安县| 满洲里市| 丹棱县| 昌黎县| 乌拉特前旗| 邛崃市| 浦城县| 霍邱县| 连云港市| 安阳市| 襄樊市| 高平市| 镇江市| 苍梧县| 鹤岗市| 子长县| 西藏| 玛曲县| 偃师市| 上蔡县| 南漳县| 高安市| 延吉市| 周口市| 探索| 克拉玛依市| 台东县| 武功县| 昌图县| 周至县| 昌江| 南川市| 曲水县| 灵武市| 芒康县| 左贡县| 孝昌县| 山西省|