Brief

last 24h

[2/2] 224 sources

Multi-source AI news clustered, deduplicated, and scored 0–100 across authority, cluster strength, headline signal, and time decay.

RESEARCH · arXiv cs.LG English(EN) · 1d · [3 sources]

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

Researchers have introduced Trajectory-Augmented Policy Optimization (TAPO), a novel method for self-distillation in large language models. Unlike traditional approaches that minimize KL divergence, TAPO constructs explicit training trajectories by retaining erroneous reasoning up to the point of failure, then incorporating natural-language diagnoses and corrected reasoning. This method aims to provide more fine-grained error correction and has demonstrated consistent improvements over GRPO in experiments on AIME 2024, AIME 2025, and HMMT 2025. AI

IMPACT This method could lead to more efficient and effective LLM training by providing targeted error correction.
RESEARCH · arXiv cs.CL English(EN) · 3w · [2 sources]

Trait-Aware Policy Optimization for Autoregressive Multi-Trait Essay Scoring

Researchers have introduced Trait-Aware Policy Optimization (TAPO), a novel post-training framework designed to enhance autoregressive models for multi-trait essay scoring. This method decomposes rewards across samples and traits, integrating global consistency, trait accuracy, and inter-trait dependencies. Experiments indicate that TAPO significantly improves scoring performance compared to standard supervised fine-tuning and scalar-reward optimization techniques. AI

IMPACT This research could lead to more nuanced and accurate AI-powered essay evaluation systems.
- Trait-Aware Policy Optimization

Brief

Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

Trait-Aware Policy Optimization for Autoregressive Multi-Trait Essay Scoring