reinforcement learning
-
LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )AI/NLP 2024. 4. 22. 10:23
LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원칙에 맞추어 조정하는 과정 인간의 윤리적 기준, 사회적 가치, 그리고 개별 사용자의 특정 요구를 반영하도록 조정하는 것을 포함 이런 Alignment를 잘 수행하기 위해 인간의 행동을 더 잘 반영하는 Loss Function들이 제시되었는데 이를 Human-Aware Loss Function (HALOs)라고 한다 PPO, DPO, MTO 등이 여기에 해당한다 Reinforcement Learning with Human Feedback (RLHF) / Reinforcement learning from AI feedback (RLAIF) 3 Step으로 수행 Step 1..
-
Chapter 01) Reinforcement Learning OverviewAI/Reinforcement Learning 2023. 4. 11. 19:41
Chapter 01) Reinforcement Learning Overview InstructGPT에도 강화학습이 쓰였다니 ! 앞으로 더 발전할 분야인 듯 하다 예전에 강화학습 수업 들은 적 있었는데, 학점 망했던 기억이... ㅋㅋㅋ큐ㅠ 그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~ 목차 Reinforcement Learning이란 ? Reinforcement Learning의 의미 Reinforcement Learning의 특징 4가지 Reinforcement Learning의 구조 Rewards Environments Agents Reinforcement Learning의 Algorithms 용어정리 Exploration VS Exploitation Prediction V..
-
강화 학습 참고할 사이트AI 2021. 9. 23. 13:16
https://dnddnjs.gitbooks.io/rl/content/policy_iteration.html Policy Iteration · Fundamental of Reinforcement Learning dnddnjs.gitbooks.io https://github.com/rlcode/reinforcement-learning-kr GitHub - rlcode/reinforcement-learning-kr: [파이썬과 케라스로 배우는 강화학습] 예제 [파이썬과 케라스로 배우는 강화학습] 예제. Contribute to rlcode/reinforcement-learning-kr development by creating an account on GitHub. github.com https://sumn..