Brief

last 24h

[2/2] 222 sources

Multi-source AI news clustered, deduplicated, and scored 0–100 across authority, cluster strength, headline signal, and time decay.

RESEARCH · arXiv cs.AI English(EN) · 15h · [2 sources]

Do Understanding and Generation Fight? A Diagnostic Study of DPO for Unified Multimodal Models

A recent study on unified multimodal models found that Direct Preference Optimization (DPO) struggles to simultaneously improve both image understanding and generation capabilities. The research indicated that generation quality resisted DPO alignment, with one model showing degraded generation performance and another exhibiting near-orthogonal gradients between understanding and generation tasks. This interference is attributed to a significant imbalance in token magnitudes, suggesting discrete VQ tokenization as a potential bottleneck for unified models. AI

IMPACT Findings suggest current alignment methods may not effectively improve both understanding and generation in unified multimodal models, potentially impacting future model development.
RESEARCH · arXiv cs.AI English(EN) · 6d · [2 sources]

PREFINE: Preference-Based Implicit Reward and Cost Fine-Tuning for Safety Alignment

Researchers have developed PREFINE, a novel method for adapting pre-trained reinforcement learning policies to incorporate safety constraints without full retraining. This technique leverages trajectory-level preferences, similar to how Direct Preference Optimization (DPO) is used for LLMs, to fine-tune policies for safer behavior. PREFINE has demonstrated a significant reduction in constraint violations and failures, exceeding 60%, while preserving original reward performance. The method offers improved data and computational efficiency compared to traditional offline RL or imitation learning approaches. AI

IMPACT Enhances AI safety by enabling cost-aware behavior adaptation in pre-trained models, improving efficiency and reducing failures.
- Direct Preference Optimization (DPO)
- language models (LLMs)

Brief

Do Understanding and Generation Fight? A Diagnostic Study of DPO for Unified Multimodal Models

PREFINE: Preference-Based Implicit Reward and Cost Fine-Tuning for Safety Alignment