Skip Navigation

Machine Learning - Theory | Research @lemmy.intai.tech manitcor @lemmy.intai.tech 1 yr. ago

Direct Preference Optimization - Your Language Model is Secretly a Reward Model

https://arxiv.org/pdf/2305.18290.pdf

0 comments