三大類機器學習:監督式、強化式、非監督式 (supervised learning)
https://ai4dt.wordpress.com/2018/05/25/%E4%B8%89%E5%A4%A7%E9%A1%9E%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%EF%BC%9A%E7%9B%A3%E7%9D%A3%E5%BC%8F%E3%80%81%E5%BC%B7%E5%8C%96%E5%BC%8F%E3%80%81%E9%9D%9E%E7%9B%A3%E7%9D%A3%E5%BC%8F/
三大類機器學習:監督式、強化式、非監督式
banner
三種機器學習類別
依訓練資料、產出判別的過程與結果不同,機器學習大致上可以分為三類:監督式學習 (Supervised Learning)、非監督式學習 (Unsupervised Learing) 與增強式學習 (Reinforcement Learning)。
監督式學習 – 一比一對照資訊
監督式學習 (Supervised learning) 是電腦從標籤化 (labeled) 的資訊中分析模式後做出預測的學習方式。標記過的資料就好比標準答案,電腦在學習的過程透過對比誤差,一邊修正去達到更精準的預測,這樣的方式讓監督式學習有準確率高的優點。
監督式學習方式需要倚靠大量的事前人工作業,將所有可能的特質標記起來,這過程相當繁複。當範圍擴大、資訊量增加,會更難去對資料標記出所有特徵,所以在面對未知領域時,幾乎是完全無法運作。
01 監督式
圖 01:監督式學習
強化式學習 – 在未知探索與遵從既有知識間取得平衡
強化式學習 (Reinforcement Learning) 的特徵是不需給機器任何的資料,讓機器直接從互動中去學習,這是最接近大自然與人類原本的學習方式。
機器透過環境的正向、負向回饋 (positive / negative reward),從中自我學習,並逐步形成對回饋 刺激 (stimulus) 的預期,做出越來越有效率達成目標的行動 (action),這個訓練過程的目標是獲取最大利益。
網路上有個 AI 學習玩 Google 恐龍遊戲的影片,影片揭露 AI 在玩遊戲的過程中學習到:遇到小仙人掌要小小地跳躍 (small jump),遇到高高的仙人掌,要大跳躍 (big jump),遇到小鳥飛過要蹲低 (duck),避免被小鳥撞到,遊戲就結束了。透過一次次的失敗,AI 計算出障礙物的高度、寬度、跟障礙物的距離等,逐步推進跨越種種障礙,不斷延長恐龍存活在遊戲中的時間。這就是強化式 學習的一種展現。
https://www.youtube.com/watch?v=sB_IGstiWlc
chrome
Google Chrome 恐龍跳躍遊戲
非監督式學習 – 機器自行摸索出資料規律
非監督式學習 (Unsupervised Learning) 的訓練資料不需要事先以人力處理標籤,機器面對資料時,做的處理是依照關聯性去歸類 (Co-occurance Grouping)、找出潛在規則與套路 (Association Rule Discovery)、形成集群 (Clustering),不對資訊有正確或不正確的判別。
03 非監督式
圖 03:非監督式學習
非監督式學習的特性讓它在資料探勘初期是好用的工具。對比監督式學習,非監督式學習可以大大減低繁瑣的人力工作,找出潛在的規則。但這樣的方式,也會造成較多功耗,甚至,也可能造成不具重要性的特徵(Feature) 被過度放大,導致結果偏誤、無意義的分群結果。
機器學習三兄弟:事前充分準備的認真者、勇於嘗試的開創者、隨心所欲的冒險者
以三兄弟一起從台北出發到高雄旅遊來舉例,這三種機器學習分別會有不同的處理方式:
監督式學習是做足事前功課的認真乖寶寶,沿路拿著地圖比照資訊,按照地圖的指示往高雄前進,沒有在地圖上出現的資訊,都不列入考慮、與地圖資訊不符合的資訊,也不列入參考。
強化式學習是勇於嘗試的開創者,一開始只有目標,要怎麼達到、哪一天到哪個地方,都依照沿路遇到的人事物來決定。即便犯錯、搭錯交通工具,下一次再修正回來即可,透過每一次成功 / 失敗 經驗的刺激去學習與調整,逐步趨進、達成目標。
非監督式學習是隨心所欲的冒險者,一開始要去哪裡都不知道、藉由歸類一路上被動得到的資訊,慢慢理出幾種可能的頭緒 ”要去高雄”、 “高雄在台灣的南部”、”需要透過交通工具到達目的地”…等等。
04
圖 04:機器學習三兄弟 – 以台北到高雄旅遊為例
要用機器學習來解決什麼問題,是所有的根本
機器學習的技術分枝很多,監督式、強化式、非監督式都只是大致的分類,到實際落地該採用哪一種演算法模型,需要依照需求目標、資料質量與運行現實考量而定,無有標準答案。
留言
張貼留言