HF Papers

CocoaBench: Evaluating Unified Digital Agents in the Wild

CocoaBench: Evaluating Unified Digital Agents in the Wild

2026-04-14

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

2026-04-14

Introspective Diffusion Language Models

Introspective Diffusion Language Models

2026-04-14

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs

2026-04-14

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

Solving Physics Olympiad via Reinforcement Learning on Physics Simulators

2026-04-14

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

Prompt Relay: Inference-Time Temporal Control for Multi-Event Video Generation

2026-04-14

TRACE: Capability-Targeted Agentic Training

TRACE: Capability-Targeted Agentic Training

2026-04-14

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

2026-04-14

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

2026-04-14

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

From Reasoning to Agentic: Credit Assignment in Reinforcement Learning for Large Language Models

2026-04-14

Efficient RL Training for LLMs with Experience Replay

Efficient RL Training for LLMs with Experience Replay

2026-04-14

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

SPEED-Bench: A Unified and Diverse Benchmark for Speculative Decoding

2026-04-14

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

General365: Benchmarking General Reasoning in Large Language Models Across Diverse and Challenging Tasks

2026-04-14

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

2026-04-14

Zero-shot World Models Are Developmentally Efficient Learners

Zero-shot World Models Are Developmentally Efficient Learners

2026-04-14

Continuous Adversarial Flow Models

Continuous Adversarial Flow Models

2026-04-14

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting

2026-04-14

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

TorchUMM: A Unified Multimodal Model Codebase for Evaluation, Analysis, and Post-training

2026-04-14

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach

2026-04-14

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

2026-04-14