HF Papers

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

On-Policy Self-Evolution via Failure Trajectories for Agentic Safety Alignment

2026-05-13

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

2026-05-13

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning

SeePhys Pro: Diagnosing Modality Transfer and Blind-Training Effects in Multimodal RLVR for Physics Reasoning

2026-05-13

World Model for Robot Learning: A Comprehensive Survey

World Model for Robot Learning: A Comprehensive Survey

2026-05-13

From Web to Pixels: Bringing Agentic Search into Visual Perception

From Web to Pixels: Bringing Agentic Search into Visual Perception

2026-05-13

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

Continual Harness: Online Adaptation for Self-Improving Foundation Agents

2026-05-13

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Learning, Fast and Slow: Towards LLMs That Adapt Continually

2026-05-13

PASA: A Principled Embedding-Space Watermarking Approach for LLM-Generated Text under Semantic-Invariant Attacks

PASA: A Principled Embedding-Space Watermarking Approach for LLM-Generated Text under Semantic-Invariant Attacks

2026-05-13

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

2026-05-13

Do not copy and paste! Rewriting strategies for code retrieval

Do not copy and paste! Rewriting strategies for code retrieval

2026-05-13

Debiased Model-based Representations for Sample-efficient Continuous Control

Debiased Model-based Representations for Sample-efficient Continuous Control

2026-05-13

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

2026-05-13

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

2026-05-13

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

2026-05-13

MEME: Multi-entity & Evolving Memory Evaluation

MEME: Multi-entity & Evolving Memory Evaluation

2026-05-13

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

Beyond Reasoning: Reinforcement Learning Unlocks Parametric Knowledge in LLMs

2026-05-13

A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models

A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models

2026-05-13

A Causal Language Modeling Detour Improves Encoder Continued Pretraining

A Causal Language Modeling Detour Improves Encoder Continued Pretraining

2026-05-13

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

2026-05-13

Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

2026-05-13