HF Papers

VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

2026-05-28

The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

2026-05-28

Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution

2026-05-28

PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

2026-05-28

How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning

How and What to Imagine? Visual Thinking in Unified Multimodal Models for Cross-View Spatial Reasoning

2026-05-28

Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

2026-05-28

Models That Know How Evaluations Are Designed Score Safer

Models That Know How Evaluations Are Designed Score Safer

2026-05-28

AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

AgensFlow: A Coordination-Policy Substrate for Multi-Agent Systems

2026-05-28

ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations

ESC-Skills: Discovering and Self-Evolving Skills for Emotional Support Conversations

2026-05-28

AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

2026-05-28

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

2026-05-28

AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning

2026-05-28

AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

AgentHijack: Benchmarking Computer Use Agent Robustness to Common Environment Corruptions

2026-05-28

Advancing Creative Physical Intelligence in Large Multimodal Models

Advancing Creative Physical Intelligence in Large Multimodal Models

2026-05-28

LACUNA: Safe Agents as Recursive Program Holes

LACUNA: Safe Agents as Recursive Program Holes

2026-05-28

Category-Level 3D Correspondence in Camera Space via Morphable Object Priors

Category-Level 3D Correspondence in Camera Space via Morphable Object Priors

2026-05-28

Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets

2026-05-28

Growing a Neural Network in Breadth, Depth, and Time

Growing a Neural Network in Breadth, Depth, and Time

2026-05-28

Got a Secret? LLM Agents Can't Keep It: Evaluating Privacy in Multi-Agent Systems

Got a Secret? LLM Agents Can’t Keep It: Evaluating Privacy in Multi-Agent Systems

2026-05-28

How Accurate are Video Quality Models for Diffusion-Based Video Super-Resolution?

How Accurate are Video Quality Models for Diffusion-Based Video Super-Resolution?

2026-05-28