홈
태그
방명록

분류 전체보기 (257)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

세상은 내가 정하는 대로 세상은 내가 정하는 대로

컨텐츠 검색 블로그 내 검색

728x90

RL

Reasoning LLM 논문 톺아보기 (RLVR == Reinforcement Learning with Verifiable Rewards)
AI/NLP 2025. 7. 6. 14:55

0. 들어가기 전 : Before Reasoning 강화학습은 이미 LLM을 학습할 떄 적용하고 있었지만 주로 Alignment, 즉 인간의 만족도/답변의 안전성 등 사용성 측면을 위함 우리가 흔히 아는 PPO, DPO와 같은 학습 방법론이 그러하듯따라서 우리는 이것들을 RLHF, Reinforcement Learning with Human Feedback이라고 했음 기존 RLHF에서는 인간 피드백이 주관적이고 일관성이 떨어질 수 있음https://asidefine.tistory.com/280 LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... )LLM Alignment 방법 정리 (RLHF, DPO, KTO, ... ) Alignment란 AI 시스템을 인간의 목표, 선호도 및 원..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

728x90

Designed by Tistory.

티스토리툴바