AI Adversarial attack 是人為的惡意攻擊,讓系統誤認目標

 

Adversarial attack是一種在機器學習和AI中使用的技術,是人為的惡意攻擊,讓系統誤認目標,混淆視聽,或是將特定的A判別為B,目的都是要讓系統的判斷產生錯誤,尤其是神經網絡。 對抗性攻擊的目標是創建看似正常的輸入,但當模型處理時,會導致不正確或意外的結果,就像上面那個例子。


那如果是用神經網路(Nerual Network)來觀察呢?目前為止有很多network都能辨別圖片,舉個例子,我們使用基本的CNN(Convolutional Neural Network)來辨別圖片,假設這個CNN本身辨別圖片的能力就很好,基本上絕大部分的圖片都能正確辨別,因此照理來說它應該也能正確辨別出來兩張圖片都是「狗」。

然而,當你滿懷信心將圖片丟入network並等待結果時,最後結果告訴你:左邊是「狗」,而右邊是「郵輪」!

為什麼會是這個結果?大部分的人第一反應都是認為是network的辨別能力沒有訓練完整造成不準確的分類,而有少部分的人認為是圖片出問題。

那其實真正的原因就是圖片出了問題,可是明明用眼睛看兩張圖片都是一樣的,然而為什麼network還是不能正確辨別呢?其實這就是對抗性攻擊(Adversarial attack)的其中一個例子:它能在圖片加入人眼觀察不到的雜訊(perturbations),而這個雜訊卻又能讓network辨別錯誤,導致辨別出來的結果與正確答案不一樣。

https://medium.com/@Jimmy_9566/paper%E7%AD%86%E8%A8%981-adversarial-attack-17fdfd7d34fa

留言

這個網誌中的熱門文章

考績被打差了 輕率離職會更傷

Arrays - DS (Reverse array) [Easy]

WireMock