'reinforcement learning' 태그의 글 목록

LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )

AI/NLP 2024. 4. 22. 10:23

LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원칙에 맞추어 조정하는 과정 인간의 윤리적 기준, 사회적 가치, 그리고 개별 사용자의 특정 요구를 반영하도록 조정하는 것을 포함 이런 Alignment를 잘 수행하기 위해 인간의 행동을 더 잘 반영하는 Loss Function들이 제시되었는데 이를 Human-Aware Loss Function (HALOs)라고 한다 PPO, DPO, MTO 등이 여기에 해당한다 Reinforcement Learning with Human Feedback (RLHF) / Reinforcement learning from AI feedback (RLAIF) 3 Step으로 수행 Step 1..

Chapter 01) Reinforcement Learning Overview

AI/Reinforcement Learning 2023. 4. 11. 19:41

Chapter 01) Reinforcement Learning Overview InstructGPT에도 강화학습이 쓰였다니 ! 앞으로 더 발전할 분야인 듯 하다 예전에 강화학습 수업 들은 적 있었는데, 학점 망했던 기억이... ㅋㅋㅋ큐ㅠ 그래도 공부는 열심히 했으므로 2년 전에 노션에 남겼던 흔적을 올리기로 ~ 목차 Reinforcement Learning이란 ? Reinforcement Learning의 의미 Reinforcement Learning의 특징 4가지 Reinforcement Learning의 구조 Rewards Environments Agents Reinforcement Learning의 Algorithms 용어정리 Exploration VS Exploitation Prediction V..

강화 학습 참고할 사이트

AI 2021. 9. 23. 13:16

https://dnddnjs.gitbooks.io/rl/content/policy_iteration.html Policy Iteration · Fundamental of Reinforcement Learning dnddnjs.gitbooks.io https://github.com/rlcode/reinforcement-learning-kr GitHub - rlcode/reinforcement-learning-kr: [파이썬과 케라스로 배우는 강화학습] 예제 [파이썬과 케라스로 배우는 강화학습] 예제. Contribute to rlcode/reinforcement-learning-kr development by creating an account on GitHub. github.com https://sumn..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역