close

2017年台灣人工智慧年會於11/9,10兩天在中研院舉辦,

是由中研院資訊所和台灣資料科學學會共同主辦。

這場年會總共多達2200多人參加,

包括眾多業界和學界人士,

我認識的朋友當中包括在交大數學建模所碩士班的同學Summit和啟豪都有參加,

兩年前5月初被制服地圖站長一起找去家齊女中外拍時認識的攝影師史旺基也有參加哩!

DSC_8974.JPG

IMG_8985.JPG

年會開幕先是科技部政務次長蘇芳慶致詞,

接下來才進入主題演講。

 

第一場主題演講是由Google Taiwan的董事總經理簡立峰主講的 "Taiwan's Opportunities in the AI-First World" ,

他說到自從AlphaGo的新聞引發了全世界人工智慧科技發展的潮流,

最近科技部也宣布將要投資160億在AI產業上。

他還提到現在AI大多都是做大量圖像資料的應用,

目前主要應用在機器翻譯(Machine Translation)、語音辨識(Speech Recognition)和影像辨識(Image Recognition)上。

其中自駕車的電腦視覺(Computer Vision on Self-Driving Cars)是近2~3年來在AI科技最具代表性的應用,

然而我們Lab就是在做這方面,

面對的競爭和挑戰應該也會是最激烈的,

真覺得承受的壓力好大啊!QQ

簡經理說台灣在AI產業最大的問題是在開發平台(Open Source)的建立和利用是相對較弱的,

無論是學界和業界都必須善用github這類的開發平台資源。

 

他還提到2007年手機世代來臨,

iPhoneAndroidFacebookYouTube等,app開發起步。

網路時代主要公司幾乎都在2007年出來,

而台灣也是Google Play全世界前5大市場(排名第4)。

數位平台的出現讓全世界人們的食衣住行育樂都也數位化,

包括Amazon、Netflix、Apple iTunes、Pixar、LinkedIn、Airbnb、Uber...等公司成立與崛起。

然而全世界400多萬個app

每天都被使用的只有8個。

網路世代在app相對封閉,

用一個app就被封閉在他的世界裡。

新的app儘管有很多marketing也不一定能增加user

現在app開發只要user不夠多就是會被淘汰掉。

 

網路世代的來臨,

也讓全世界的科技產業幾乎被網路業者主導,

現在15Internet Companies包括美國11家和中國4家,

畢竟現在用遠端的商業服務(Digital Service Economy) 產生的新經濟模式,

講求的是使用者多和大量資料,

美國和中國這兩個大國人口數龐大當然使用者就超多,

原本也是科技強國的幾個小國像是日本、南韓、英國、法國、德國等就相對較吃虧了。

 

簡經理提到現在全世界AI的發展主要趨勢有以下這幾點

  1. 手機更聰明,AI -> 成為新的supercomputer
  2. 硬體加速AI
  3. 家庭人工智慧(AI at Home) (2017年賣出2400萬台Smart Speakers,是兵家必爭的戰場!)
  4. 車輛人工智慧(AI on Car)
  5. 無人機(Drone)
  6. 機器人(Robotics)

他提到台灣在AI發展方面硬體有優勢,

但是AI應用要把握。

台灣常常在科技發展上缺乏應用的習慣和經驗,

導致時常沒趕上現在的趨勢。

他認為台灣發展AI應該要往應用面去走

用硬體去跨領域,

把軟體人才放進放進醫療科技、工廠、...等各個領域中,

達到異業整合(包括智慧醫療、智慧照護、智慧製造、智慧汽車),

以及產業世代整合(包括新舊產業整合、實體與數位產業整合、傳統產業網路化、數位化)。

 

在享用完茶點後,

早上11點各講座接著展開,

每個時段都有5場講座分別在人社館3間會議室以及學術活動中心2間會議室,

我先留在國際會議廳中聽接下來了兩場講座。

 

首先是Google研究科學家紀懷新主講的 "Optimizing for User Experience with Data Science and Machine Learning" ,

紀懷新在Google領導一個著眼於推薦系統、機器學習與社會互動的研究團隊,

在 YouTube、Google Play Store和Google+等社群平台的推薦功能做了大幅的性能提升。

他認為AI結合機器學習要能達到增進使用者經驗是很重要的事。

他們團隊總是在探討要如何衡量、創造一個metrics,

再Optimize用戶的體驗,

做了optimization後是否達到impact,

達到想要的效果讓用戶受益。

他分享了4個故事,

  1. 多語言社群互動(Interlingual Social Interaction)

要利用社群媒體(Social media)來減少隔閡(isolation),

並透過Graph Mining來測量社群網路連接的分布(Distribution of social network connection (Followers))。

現在有很多paper在做社群網路的measurement。

他希望在G+能做到Connecting People Across the World,

但是面臨的挑戰就是如何跨越語言隔閡,

所以在Google翻譯的技術增進也相當重要,

更大的挑戰則是機器對語言的定義問題,

包括多語言組合,

以及同一單字或詞彙在不同國家有布一樣的意義。

後來G+ Translate20138月啟用,造成很大的影響。

  1. 循序推薦(Sequential Recommendation)

ContextMachine Learning做,

並且使用Sequential RNN來做推薦系統(recommendation system)。

畢竟語言是以時間序列的方式產生的,

然而時間是因果關係的重要因子(Time is an important factor in causality)。

他們團隊創造了 Novalty: Time-based sequential RNN,

將在明年2WSEM發表paper。

  1. Focused Learning

舉例來說包括電影推薦系統對於不同世代的效度差異很大,

因此在系統的深度學習的三步驟中訓練(Training)、測試(Testing)和驗證(Validation),

將驗證分開來做。

  1. Deep Retrieval

要了解並衡量你要對哪個東西做最佳化,

畢竟最佳化在真實世界裡是很複雜的。

 

接下來是同樣在Google的工程師邱中鎮,

他是擔任Google Brain的軟體工程師。

演講的主題是 " Recent Advances of Deep Learning in Google "

他首先談起影像分類(Image Classification)技術上的突破,

從Yann LeCun提出的最初始的CNN(卷積神經網路)模型,

到2012年的AlexNet、2014年的VGG,

到了2015年Google Research提出了Inception Network,

網路的卷積層大幅增加讓結構更複雜也大幅提升了運算性能。

然而對於類神經網路系統,

大家覺得本質跟過去一樣,

只是變深變厚變複雜,

但就是應用性提升了才吸引很多目光。

他提到Google運算資源很多,

大家有陣子很愛訓練超深的網路,

但實際上卻獲得相反結果。

後來發現處理layer-to-layerinputoutput以及調整結構(architecture)是件重要的事情。

如果能嘗試設計一個學習網路讓機器去學習如何設計一個網路(Design a learning network to learn the design of a network),

達到Learning-to learning的效果,

機器設計出來的network其實在特定domain中隨著時間可以比人類有更強的效能,

又運用更少的運算資源。

做法是處理Sequential Data,

利用RNN(Recurrent Neural Network)和Sequence-to-sequence model,

attentionidea加進去。

這樣只需要100多行的程式碼,

比起原先的phrase-based mechanism(10萬多行程式碼)簡單很多,

並且大幅降低RNN的工作量。

 

Transformer model: Autoregressive pure attention model

 

GoogleDeep Learning的技術用在健康照護(Health Care)上面 (增進Google產品研發)

包括應用在視網膜症狀辨別、癌症辨別、等

設計預測模型(prediction model)讓醫生方便判斷是否要回診,

有什麼task、處方(prescription)等都能給一些reminder。

 

他提到Google在AI的重要應用之一是機器人,

機器人的學習方式包括藉由觀察人類的示範從中學習(Learning from demonstration),

還有透過模擬去學習(Learning from simulation),

在雲端(Cloud)上做大量運算,

並設計獎勵方式讓機器人遵照原先的示範(Design rewards for robots to follow original demonstration)。

但是訓練機器人要避免Reality gap

否則機器人會鑽漏洞。

在自駕車(Self-Driving Cars)的應用是抓取動態資訊,

visionroboticsidea結合作監督是學習(supervised learning)

Google也將AI應用在藝術方面軟體的開發,

包括音樂產生(Music generation)以及畫圖(Sketch RNN)。

 

中午我就跟啟豪領了便當在找座位一起吃飯,

啟豪現在所在的科技公司都在做AI,

我們碩士已經畢業5年了,

總算在參加這場重大的年會中再次相見真是難得啊!

 

我們還在4樓的各公司攤位看一看,

包括趨勢科技、聯發科和鴻海,

還有玉山銀行、國泰人壽、KKBOX等。

IMG_8981-2.jpg

 

下午1點半第二場主題演講展開,

由HTC Research & Healthcare(健康醫療事業部)的總裁張智威主講 "Representation Learning on Big and Small Data" ,

主要提到HTC於去年成立的健康醫療事業部,

提供精準醫療的產品和服務,

像是Tricorder以深度學習及轉換學習(Transfer Learning),

創造出微型醫藥級自我診斷工具。

他們開發了一個深度學習和AI的公開資源平台Deep Q醫學百科,

讓一般民眾能快速掌握疾病的定義、症狀、病因、診斷及治療和藥物參考等內容。

醫生也能將其用於醫療應用和症狀檢查上。

此外HTC健康醫療事業部也跟多家醫院進行產學合作,

他們利用VR(虛擬實境)、AR(擴增實境)結合AI的技術開發了很多智慧醫療產品。

尤其UCLA醫學中心在腦神經研究、症狀檢測和手術方面受惠良多,

可以發現HTC在智慧醫療上的貢獻還蠻大的。

張總經理還提出了Proactive的概念,

希望藉由AI雲端服務,

持續監測生理狀況,

以降低成本且提供較為有效的個人化醫療。

 

在主題演講完後就遇到另一位碩士時的同學Summit,

上一次遇到他是3年前跟他在公館吃飯的時候了,

當時他中研院的研替快做完了,

後來他自行創業都一直在忙於新創公司的事情,

這一兩年來我常上台北但是一直都沒時間見面,

這次總算在人工智慧年會中再次相見。

Summit對於Deep Learning和AI方面做了蠻多的,

他還在Taiwan R User Group中擔任共同創辦人,

這個群組也辦過多次讀書會和分享會哩!

 

接下來我繼續聽清大電機孫民教授主講的 "Training a Deep Agent to See and Interact",

首先簡介了Deep Agent的概念,

主要構成是用數學的model和一個DNN系統,

要訓練這樣的agent看到東西後就做出因應互動,

透過語言和動作來互動。

最近很紅的AlphaGO就是一個例子,

看到棋譜時做出因應下一步棋子放在哪裡。

他還提到IMAGENET是一個很實用的影像資料庫,

對於agent的訓練相當適宜。

 

語言反應是常見的訓練agent的方式,

原理是用CNN編碼(encode)看到的東西,

再用RNN產生描述文字。

先前史丹佛大學就有做一個訓練機器根據影片內容產生標題的實驗。

(詳細可看 "Video Title Generation, Zhen et al. EECV 2016 Stanford" )

另外清大也有在做 "Show, Adapt and Tell" 的技術。

針對鳥類、花卉做出辨識、描述和評論。

Allen Institute for Artificial Intelligence有舉辦THOR Challenge,

就是機器視覺理解(Visual Understanding Across Modalities)相關的比賽。

 

接著我到第一會議室聽盾心科技(Umbo Computer Vision)的首席科學家吳亭範主講的 " 從雛形到千台連網相機的挑戰 "

盾心科技是2014年新成立的新創科技公司,

應用在安控領域的人工智慧影像辨識軟體,

並能讓監視器自己判斷危安事件。

其基於電腦視覺與機器學習技術所開發出來的人工智慧影像辨識軟體,

不僅可以偵測出異常,

還可以發揮自我學習與分析能力,

在短時間內藉由監控畫面展開學習,

並辨識影像中的物件與事件,

像是侵入、群眾聚集、火災、搶劫等特殊危安事件。

一旦發生意外或災害,

即可透過系統即時通報負責單位,

降低釀成意外或悲劇的機率,

且進一步爭取更多救援時間。

在他們開發軟體時面臨最大的挑戰包括系統擴充能力 (Scalability) 與演算法通用性 (Generalizability) 的考驗,

以及平時表現好的模型在資料不足的地方嚴重失常,

包括在夜晚情境、下雨情境、濃霧情境等等。

後來這些問題都可以使用既有的電腦視覺和機器學習演算法來解決。

聽到他們在做語意分割(semantic segmentation)和物件偵測(object detection)的東西也感到興趣,

並且他們也有在使用Bayesian SegNet呢!

 

在下午茶休息時間過後我回到主會議廳,

要聽的講座是台大資工系主任莊永裕教授主講的  "Deep Learning for Computational Photography"

將Deep Learning應用在計算攝影學(Computational Photography)上,

身為有在玩攝影的對這主題當然很感興趣啦!

3D Computer Graphics -> Computer Vision

他說攝影很講求真實,

深度學習應用在影像處理方面,

界會直接用,

但是科學家要求真。

然而深度學習現今缺乏理論貢獻,

無法解釋為什麼可以有這麼好的表現。

傳統攝影裡的人工後製:曝光不同產生不同對比度。

數位相機:化學感光變成數位感光。

感測器的限制導致不完整不完美的場景取樣,

若加上計算得到的結果則非純物理光學結果,

投入多少計算達到多少目標。

他說攝影常見的缺陷主要包括攝影者的缺陷、相機本身的缺陷和場景的缺陷。

攝影者的缺陷主要有對焦沒對好、選用不對的參數、手震等,

若透過計算可以處理缺陷,

將影像品質修好或接近真實。

場景不完美:霧霾、畫面有雜物,

現在的技術可以達到Dehazing處理、移除物件、Re-composition等。

相機不完美則包括Sensor array受到雜訊(noise)干擾,

可以用數位演算法去除雜訊。

至於相機本身還有解析度(Resolution)限制、Dynamic Range (色階的問題)、Color (RGB channel的問題)等,

這些則是各大廠牌的相機都會在這些方面有其優點及其缺點,

然而這些相機的背後設計也是根據人類視覺,

以線性影像推導彩色影像。

Deep Learning在計算攝影學的應用是要讓相片變得更好,

目前的技術包括Demosaicking可以用來填補空白。

(ARI是傳統的Demosaicking最好的演算法)

至於整個Pattern要設計得最好則是要憑經驗,

包括Color Mask要怎麼設計,

取樣某種顏色做加權平均 (filter, convolution)等。

在影像的資料庫方面他認為PASCAL VOC 2007的物件分類會有一些限制,

而且色彩比較不鮮艷,

機器會把compresseddatebase也學起來。

而Flickr500的影像資料庫無論是畫質、色彩和解析度都比較好。

DMCNN-DR可降低force color的產生

Bayer Pattern:讓深度學習網路辨別pattern

其他還有Color Remapping、Contrast Enhancement。

莊教授說可以訓練機器從攝影師修圖的結果來學習(Learning from photographers),

畢竟利用人工雕飾來得到比現有的照片更接近人對你期待的結果。

另外他還提出了未來在計算攝影學也可以使用非監督式學習(Unsupervised),

讓機器能由一張不好的照片想辦法去接近好的照片,

這時候如何設計GeneratorDiscriminator就很重要。

這場講座可以發現AI和Deep Learning對攝影學方面的應用也是非常棒的議題,

聽完蠻有感覺的呢!

 

最後一場講座我則是到學術活動中心大禮堂聽NVIDIA的劉冠良主講的 "Defect Inspection with Deep Learning" ,

劉冠良是成大的校友,

畢業於資管所博士班,

他先前在8/11那天NVIDIA在成大辦的研討會中有回成大演講,

當時我就有去聽。

他這次主講的內容是Deep Learning演算法應用在生產線上產品瑕疵檢測方面,

其中將包含利用 CNN 以 object detection 的方式對目標物做檢測,

以及 FCN 以 pixel in, pixel out 的方式 segment 瑕疵範圍,

或透過 autoencoder 了解待測物結構後將瑕疵當作 anomaly 檢測出來。

 

晚上6點半是交流餐會,

是餐廳外包來的自助餐哩!

餐點都蠻不錯的甚至還有爐烤火腿哩!wwww

我跟Summit和他在台大數學系的兩位同學一起吃晚餐和互相交流,

我也跟他們分享我們Lab在Deep Learning應用方面的研究,

以及我從暑假以來自學Machine Learning和Deep Learning的心路歷程和經驗。

Summit說其實很多人都是最近才開始接觸Deep Learning的,

他很鼓勵我多學理論、多寫code、多跑data、多接觸一些不同的應用。

我們在那吃到快8點才各自回去。

IMG_8986.JPG

 

 

arrow
arrow

    JeremyCKT 發表在 痞客邦 留言(0) 人氣()