HF Papers

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

2026-06-01

SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

2026-06-01

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

2026-06-01

Task-Focused Memorization for Multimodal Agents

Task-Focused Memorization for Multimodal Agents

2026-06-01

dMoE: dLLMs with Learnable Block Experts

dMoE: dLLMs with Learnable Block Experts

2026-06-01

Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

2026-06-01

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

2026-06-01

Exploring Autonomous Agentic Data Engineering for Model Specialization

Exploring Autonomous Agentic Data Engineering for Model Specialization

2026-06-01

PEEK: Picking Essential frames via Efficient Knowledge distillation

PEEK: Picking Essential frames via Efficient Knowledge distillation

2026-06-01

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

2026-06-01

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

2026-06-01

Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

2026-06-01

From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

2026-06-01

VLM3: Vision Language Models Are Native 3D Learners

VLM3: Vision Language Models Are Native 3D Learners

2026-06-01

DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

2026-06-01

Linear Scaling Video VLMs for Long Video Understanding

Linear Scaling Video VLMs for Long Video Understanding

2026-06-01

Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

2026-06-01

How can embedding models bind concepts?

How can embedding models bind concepts?

2026-06-01

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

2026-06-01

Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

Seeing Isn’t Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

2026-06-01