How useful is cross-domain generalization for training LLM monitors?

Fabien Roger·LessWrong·Community·May 18, 2026

We study how well single-token classification training generalizes and find that:Control monitor performance can be improved by training on adjacent classification tasks (which is useful if we don't have high-quality in-domain data).We do not find strong benefits from classification-specialized models: training on instruction following after classification training not only keeps the uplift from classification training, but it also mitigates some generalization failures that arise from training ...

Read full article →

How useful is cross-domain generalization for training LLM monitors?

Related Articles