好,我們現在知道了機器學習的流程跟它的這個 關鍵要素之後,我想跟大家介紹一下機器學習在哪些領域
可能會有所應用,當然實際上機器學習在各種不同領域的應用是包山包海,我不可能所有- 都跟大家
講,但是呢我想講一些有趣的,來激發說大家學習這門課的 這個興趣,那所以我就挑了一些。
我首先挑的四個,是這個所謂的民生四大需求:食、 衣、 住、 行
好,這不是我說的,是這個孫逸仙在他的這個《民生主義》裡面說的食、 衣、 住、 行
好,所以我們來看看機器學習怎麼樣改變我們這個吃東西的 方式。
好,這是一個蠻新的論文,這個論文裡面呢這群研究者做的事情
是他們讓機器去從哪裡學呢?從Twitter,從Twitter這個microblog的
資料去做學習,學習什麼呢?好,你在這個Twitter上你可以抒發你的心情,你可以- 寫說,我
今天去了這個哪一家餐廳,哪一家餐廳的這個東西很好吃,去了哪一家餐廳結果回來
以後拉肚子,感冒生病了,不高興,等等等等。
所以你會有很多的這些資料,這些資料 綜合起來,經過機器,也許是語義的分析,也許是位置的分析等等,判斷之後
最後得到的技能是什麼?機器學到的技能是它能夠
告訴我們說,你去這家餐廳吃,到底有多容易 食物中毒。
比如說這一家餐廳的衛生狀況怎麼樣,到底乾不乾淨,到底容不容易食物中毒
所以這是個很有趣的研究,我們今天這個,以前我們可能要知道一家餐廳好不好,我可能
聽朋友說,我可能是這個要自己去體驗一下才知道,或者是網路上查一些這個評價等等
現在呢,機器自動從大量的資料裡面就告訴我們一件 還蠻關鍵的事情,這個餐廳到底乾淨還是不乾淨,衛生狀況什麼樣子
好,那穿衣服呢,機器怎麼樣影響到我們穿衣服呢?好,這是這個
Abu Mostafa教授,這是加州理工學院的教授,他寫了一篇文章,它裡面提到說有一家
這個時尚,線上的時尚公司請他去當顧問 當顧問裡面做什麼呢?當顧問裡面說他們想要設計一個系統
這個系統能夠推薦他們的顧客說,要怎麼樣搭配衣服才好看 好,這不是一件很容易的事情,因為這個Abu
Mostafa 教授他也是我以前的指導老師,跟我一樣,我們是做這個機器學習的
說實在話,我們對時尚的知識其實非常的有限 但是我們知道怎麼樣妥善地使用機器學習的工具,所以
Abu Mostafa教授呢就推薦了這個他們使用一些機器學習的工具 從哪裡去分析呢?去分析說他們的一些相關
的衣服的銷售數字,還有顧客的調查,他們到底 喜歡怎麼樣穿搭衣服。
從這些分析以後,機器學到什麼技能,機器
可以開始推薦我們說,要怎麼樣搭配衣服才會符合顧客的喜好 才會好看等等的。
所以這是機器學到的技能,那這個 這個系統已經有媲美這個人類的這個
時尚專家的能力了。
好 住,機器學習怎麼樣影響我們在這個住上面呢?
好,這是一個2012年的論文,這個論文裡面說到這樣,就是說 我們平常像,可能如果這邊有這個念土木的朋友的話
那蓋房子,大家知道說要蓋房子,我們現在說要這個節能減碳,節能減碳那我們可能要
想辦法預測說,我們蓋好了這個房子以後,到底這個房子的能源消耗
怎麼樣,例如說是不是要常常開冷氣,還是常常開暖氣,然後有多麼耗能等等。
好,這是這個節能減碳的第一步 但這不是一個很容易的工作,在房子這個蓋出來之前啊,從設計上就要知道
說這個房子到底有多耗能不太容易,以前只能憑建築師的經驗說
例如說如果今天這個有夕曬的話,那這個下午可能比較耗能 等等的。
他們就做了一件事情,他們說,我們以前蓋了那麼多房子 蓋了這些房子蓋起來之後,我們就知道這些房子的這個建築形態是怎麼樣
一些特征是怎麼樣,然後它到底有多耗能等等 我們把這些資料餵給機器以後,從機器學習,機器就可以學到什麼
技能呢?它可以告訴我們,在蓋房子之前就告訴我們說,我預測
這一個房子如果你蓋好以後的耗能狀況怎麼樣,然後所以建築師就可以根據
這個來決定說,我是不是要修改我的設計等等等等,讓它符合一些這個能源 的這個規範。
好,行,行有什麼呢?大家可能耳熟能詳的最近,這
幾年間呢有很多的公司跟單位都在發展無人駕駛的自動車的科技。
好,例如說Google 就在發展這個自動車的科技,那自動車的科技裡面很重要一個東西是什麼?
是能夠自動地辨識交通號志,你的車子 這個無人駕駛自動車在這邊開的時候,你會希望它看得懂這些號志
小心行人,或者要減速,或者是看到紅燈要停,最簡單的 好,所以呢,在這個去年的時候,就有一群人他們就辦了一個
比賽,這個比賽就是希望用機器學習的方法 來提升號志辨識的準確率。
那所以他們餵給機器的資料是什麼?是 一些已經照相照下來的這個交通號志,它們可能有不同的大小,有不同的意思等等的
那希望機器從這些資料裡面去學到說,到底它真正上路的時候看到
不同的交通號志,不同的大小,不同的狀況的時候,它能不能正確地去辨識這些 交通號志。
所以食、 衣、 住、 行,孫逸仙說的這個民生四大需求
機器學習通通已經開始影響我們了 好,除了這個四大需求以外,實際上還有很多
很多很多很多啦,那我這邊因為時間的關係,實際上我沒有辦法跟大家一一地列舉 但是呢,我再跟大家舉兩個,因為這兩個剛好是我自己
親身經歷,所以有比較多的這個材料可以跟大家講的。
這兩個是什麼呢? 育、 樂。
OK,食、 衣、 住、 行、 育、 樂,這是現在的民生六大需求,後面育、
樂兩個是這個蔣介石加上去的 好,育,教育,機器學習怎麼樣影響這個我們在教育上面的
這個想法,那故事是這樣的,現在線上呢有一些 這個系統,這個系統可以讓學生上去上面答題目
答題目以後,例如說好,今天是一個數學的線上教學系統,去上面答題目。
從答題目的過程,可能這個系統就 慢慢地了解學生會了什麼,不會什麼,它可能就會
給學生多做做他不是很熟練的題目,那如果他已經會的 可能就少做一點,或者如果太難的可能要晚一點再 給學生做。
所以有這樣的線上數學的這個教學系統
在這個系統裡面很重要的當然就是,如果我給學生一個他沒有見過的題目的話,他到底 會還是不會答對。
那如果這個非常非常簡單,學生一定會答對,我們可能不要給他做,如果
非常非常難,學生一定不會答對,我們可能從系統教育設計的觀點來說,我們也不想讓給學生做
問題是我們能不能從學生答題的歷史記錄,還有一些有關這個題目的這個資料裡面
自動地去判斷,學生到底現在的這個程度怎麼樣,答下一個題目會不會答對
好,所以有一個可能的方式是這樣,我們先想象
如果是我們的話,我們怎麼,我們是一個這個人類的老師的話,我們怎麼想象這個問題
我們可能會想,我們出這個題目,題目有一個難度
然後呢學生腦袋里,依據他的理解程度,他可能有一個這個現在的這個等級
如果學生的等級比題目的這個難度來得高的話,那麼這一題
可能他就會答對,如果學生的等級比題目來得低的話,這一題他可能就不會答對
好,用這樣方式呢,我們可能可以去設計一個相對應的機器學習演算法,它做的事情是這樣
我們就喂給這個演算法這個差不多九百萬筆的資料,總共 來自三千個學生,九百萬筆的資料,他們的答題的歷程記錄等等
然後呢,這個機器就去判斷什麼呢?它去估計,到底在那個時間點
學生的程度怎麼樣,還有根據這個題目很多個學生答過,去估計這個學生的 這個題目的難度怎麼樣。
好,所以這個有一點像是我們在工程界的所謂的逆向 工程,我們現在有資料,然後我們現在回推回來說學生的程度怎麼樣
然後題目的難度怎麼樣,然後從這兩個機器就去判斷說,好所以我預測今天這個學生
程度很高,這個題目實在太簡單了,學生一定會答對,或者今天學生程度還不夠,然後但是這- 個題目很難,他一定 會答錯。
好,所以這是機器學習的一個方法,從我們對這個題目的判斷 去出發。
好,那我假設一個例子是怎麼樣呢? 稍微自吹自擂一下,這個是台灣大學的隊伍
在2010年,有一個叫KDDCup的比賽, KDDCup 的這個比賽,是全球最重要的機器學習與資料探勘的這個比賽
那這個比賽呢每年都吸引了上百個這個學界跟業界的隊伍參加,它有一個很大的資料,我們剛- 剛看到九百萬筆的資料
好,讓機器從這麼多的資料去學習,然後最後 看看機器的這個表現怎麼樣。
我們剛剛這個之前介紹機器學習的時候說 我們要增進某一個表現,好,所以它會有某一個表現的衡量,然後呢大家就來
比說你設計出來的機器學習的演算法是不是在那個表現的衡量上能夠有所增進
那在當年2010年,台大的隊伍呢,是拿下了這個全世界最重要的這個機器學習與資料勘- 探比賽的
冠軍,全球的冠軍,那這是一個非常不容易的成果,所以我們對這個 問題有還滿深入的了解,那當年我也是台大隊的一份子。
好,講完了育,好,最後一個我要跟大家分享則是樂。
機器學習怎麼影響我們在這個娛樂上面的這個 享受,好那我要講的例子叫做:Recommender
System,推薦 系統,推薦系統什麼呢,好例如說,現在有很多的服務,它們希望說,好例如說有很多的電影,
它希望說能夠推薦給,我們的這個,它的服務的使用者,
更好的電影,就是更符合使用者喜好的電影,每個使用者喜歡的電影不一樣,有人喜歡動作片,
有人喜歡愛情片,有人喜歡劇情片,有人喜歡這個演員,有人喜歡那個演員,所以每個人的喜- 好都不一樣。
然後那我們就想啦,我們這個系統有沒有辦法很聰明的推薦給使用者說,
這個電影是你會喜歡的,如果呢,我們能夠,我們的系統能夠做到這一件事情的話,那使用者- 可能就會喜歡我們的系統,
然後進一步的,這個系統可能可以賺得一些商業上的利益。
好,從那這個系統要怎麼開始設計呢,其中一個方式就是我們要
得到使用者喜歡哪些電影,使用者可能對他看過的一些電影做出評價,
說我看過這個電影,我喜歡,我看過這個電影,我不喜歡,我看過這個 電影我給它90分,我看過那個電影,這我不喜歡我給它20分,
好,從很多的使用者給很多個不同電影的評價裡面,我們想要判斷使用者
會不會給一個他還沒看過的電影很高的分數,如果會的話,那可能這是他喜歡的,我們要推- 薦給他。
如果不會的話,可能就是他不喜歡的,我不要推薦給他。
好那這個問題實際上還蠻重要,所以在
2006年的時候有一個叫Netflix的公司,那有些人可能有聽過,它是美國最大的
線上DVD的租借公司,就是它就是租電影的,所以它希望有一個電影的推薦系統,
它就把它們收集的一些資料這個拿出來,辦了一個比賽,那它們收集的資料裡面,大概有
一億筆左右的這個評分的資料,這一億筆的資料來自48萬個 使用者,那總共有大概1萬7千部左右電影,
它們定的比賽規則是這樣,它們現在有一個系統,如果 你設計出來的機器學習演算法的表現,能比它們現在
系統好10%,不是他們現在的系統,嚴格來說是他們當時的系統, 好10%的話,他就給100萬美金的獎金。
大家可以想到這一個非常大的數目,至少對於單一的隊伍來說,這是一個非常大的
數目,所以吸引了全世界上百上千個隊伍來參加這個比賽,
說實在話,回頭來看,這其實是蠻划算的一個公司,花了100萬美金,除了
廣告的效應之外吸引了全世界最優秀的機器學習的這個研究者 來幫他們這個找出更好的解決方式,更好的
機器學習方法,那在這個2011年的時候,Yahoo,大家知道這個
雅虎這個公司,在KDDCup就我們剛才提到世界最重要的機器學習與資料勘探
比賽裡面,他們也拿出了類似的資料,只是呢,他們不一樣的是
他們拿出來的不是這個電影推薦系統的資料,而是Yahoo有一個服務叫Yahoo Music
他們的音樂,那音樂裡面,他們收集到的這些資料, 這個資料量更大,這個資料量差不多有2億5千萬筆
然後總共來自1百萬個使用者,那裡面呢,這個 有評分的歌曲呢,大概有這個62萬筆左右。
所以大家看到資料量很大,然後這是一個這個很重要的問題, 所以機器如果能夠從這些資料裡面學到一些事情的話,等於它實際上是學到什麼,
學到我們的喜好,機器要怎麼學我們的喜好呢?
好,那我現在來告訴大家一個可能的機器學習的模型來解決這樣的問題,
那我們先回想一樣,我們怎麼樣決定,我們例如說我們禮拜天要去看電影啊,我們怎麼決定喜- 不喜歡一個電影,
我們可能會看這一部電影的特征是什麼,這一部電影的特征可能有說,它是動作片,或者它是- 愛情片,
或者是說它裡面有某個演員,例如說茱莉亞羅伯茲,或者它裡面有某個其他的演員,
這些特征組成一部電影,那我們的喜好呢?可以描述成另外
一串特征的數字,例如說如果我喜歡這個動作片的話,那麼我的特征數字 可能就在動作片這一欄的特征數字裡可能就高一點,
那如果說我不喜歡愛情片的話,我在愛情片這一欄的特征數字可能 就低一點,那或者我喜歡茱莉亞羅伯茲可能那一欄的特征數字就高一點,
所以如果我把我自己描述成一串特征數字, 好就像上面的這一串,我們用這個圈圈的大小來代表數字的大小,
像這個第二個這個藍色的圈圈,這個很大,這是個喜不喜歡動作片。
好,我喜歡動作片,這個圈圈可能就很大,然後呢,我們把電影描述成一串,也是一串
特征的數字,它到底帶有什麼特征,它如果有這個特征的話,圈圈就很大,沒有這個特征的話- ,圈圈就很小。
好所以我們想象說,我們給電影分數的過程,可能可以描述成,我們把
我們的這一串特征數字,跟電影的這串特征數字,做一個好例如說內積
好,相乘起來,相乘起來如果加起來分數非常高,那我們可能就會給非常高的分數, 如果相乘起來,這個加起來分數非常低的話,我們可能就會給非常低的分數,
好,所以這裡面潛藏的, 這個我們說這個公式
或者這個模式,是說從我們的這些特征,還有電影的這些特征, 我們可以得到,到底最後的評分這個rating
是什麼樣子,那但是我們現在機器手上有什麼,機器只有rating啊,沒有我們的這- 些特征,
所以機器就嘗試著去做什麼,我們請機器去從這些 rating裡面反推回來,說到底這個人的特征
是什麼,這一部電影的特征是什麼,然後有了這些之後,如果今天有一部他沒有看過的電影,- 我們就把
這個人的特征跟這一部電影的特征相乘起來,我們就得到到底這個人會給這個電影多少分,
好,這是一個很簡單的模型來描述說我們怎麼決定,我們要給電影幾分,然後那機器學習
是用這個方式,這個模型用這個方式出發,然後
機器就可能可以自動學到,到底我們有多喜歡一部電影, 為什麼要講這個,又要自吹自擂一下,
在2011年我們剛才說Yahoo辦了一個這個比賽,它拿了它們的歌曲的資料出來,
2011年台灣大學又參加了KDDCup這個全世界最重要的機器學習與資料探勘
比賽,然後又拿了第一名,嚴格來說那一年我們拿了兩個第一名, 那一年,有兩個這個小比賽,然後我們拿了兩個第一名,
實際上呢從2010年一路到,這個2013年,5年的時間,
台灣大學每年都在KDDCup這個最頂尖的比賽,拿下這個全球第一名
的成績,那這是一個非常非常不容易的成果,那我也很榮幸在這5年都是這個台灣大學隊伍的-
一份子, 好,所以呢講了這些呢,
再讓大家動動腦,說到底機器學習在哪一個領域用不到,好我在下面列了這個
三個領域,一個是財經,一個是醫藥,一個是法律,那第四個是沒有,這些領域通通都用得上
機器學習,好大家想一下以後我想大家
可能會得到正確的答案是4,也就是說所有的領域其實都用得到機器學習,
在這個財經裡面,我們已經看到說,我們可以從機器學習來預測股票的漲跌,
在醫藥領域裡面我們可以預測這個我們用機器學習 來分析這些藥,然後預測說這個藥的藥效怎麼樣。
在法律領域,你說法律也用得上機器學習嗎,可以,現在已經有一些成果是把法院
傳統法院裡面這些一堆的這個公文書,從這裡面來這個分析,然後自動的什麼
自動的這個給出摘要,因為法律的文書很長很長
很長,然後自動的用機器學習的方式來給出摘要,讓你比較容易的搜尋跟閱讀,
好,這些都是用得上機器學習的地方,那這個所以
歡迎大家來這個,跟我們一起學習機器學習這個到處都用得上的領域。