Skip Navigation

Futurology @futurology.today Lugh @futurology.today 3 mo. ago

Sycophancy to subterfuge: Investigating reward tampering in language models

www.anthropic.com Sycophancy to subterfuge: Investigating reward tampering in language models

Empirical evidence that serious misalignment can emerge from seemingly benign reward misspecification.

Sycophancy to subterfuge: Investigating reward tampering in language models

0 comments