RAG & RLHF

 


https://www.solwen.ai/posts/what-is-rag


RLHF 中文全名為「從人類反饋中強化學習」,顧名思義,就是讓 AI 模型在人類的指導下學習。簡單來說,我們將人類的智慧與機器的高效學習能力相結合,從而讓模型變得更加強大。那麼,這個過程是如何運作的呢?


RLHF 就是一種類似的教學過程,但這次你是在教大型語言模型模型,而不是一個真正的人,而 RLHF 可以分為 Reinforcement Learning 和 Human Feedback 階段:

  1. 強化學習(Reinforcement Learning): 這是一種讓 AI 模型學習的方法。你可以想像機器(比如一個機器人或電腦程式)正在嘗試完成一個任務,比如下棋、駕駛車輛或進行對話。每當機器做出好的決策,它就得到一些積分(獎勵)。如果做了不好的決策,它可能得不到積分,或者失去一些積分。這個過程幫助機器學習怎樣更好地完成任務。
  2. 人類反饋(Human Feedback): 這裡的關鍵是有真實的人來幫助指導這個學習過程。人類會觀察機器的行為並給出反饋。比如,在對話視窗中,如果大型語言模型生成了一個回答,人類會評估這個回答是否恰當、是否有幫助,並根據這些評估給予好與不好的評價。
  3. 結合這兩者,你就得到了RLHF。機器不僅僅是根據固定的規則學習,它也通過人類的指導來理解更複雜、更細微的部分。這使得機器能夠在很多不同的任務上表現得更好,更貼近人類的期望和行為方式。

留言

這個網誌中的熱門文章

考績被打差了 輕率離職會更傷

Arrays - DS (Reverse array) [Easy]

WireMock