HF Papers

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

Initialisation Determines the Basin: Efficient Codebook Optimisation for Extreme LLM Quantization

2026-04-13

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

AVGen-Bench: A Task-Driven Benchmark for Multi-Granular Evaluation of Text-to-Audio-Video Generation

2026-04-13

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

2026-04-13

Semantic Richness or Geometric Reasoning? The Fragility of VLM's Visual Invariance

Semantic Richness or Geometric Reasoning? The Fragility of VLM’s Visual Invariance

2026-04-13

Large Language Models Align with the Human Brain during Creative Thinking

Large Language Models Align with the Human Brain during Creative Thinking

2026-04-13

Robust Reasoning Benchmark

Robust Reasoning Benchmark

2026-04-13

MixFlow: Mixed Source Distributions Improve Rectified Flows

MixFlow: Mixed Source Distributions Improve Rectified Flows

2026-04-13

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

2026-04-13

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

2026-04-10

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

2026-04-10

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

2026-04-10

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

2026-04-10

ClawBench: Can AI Agents Complete Everyday Online Tasks?

ClawBench: Can AI Agents Complete Everyday Online Tasks?

2026-04-10

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

2026-04-10

LPM 1.0: Video-based Character Performance Model

LPM 1.0: Video-based Character Performance Model

2026-04-10

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

2026-04-10

Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

2026-04-10

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

2026-04-10

DMax: Aggressive Parallel Decoding for dLLMs

DMax: Aggressive Parallel Decoding for dLLMs

2026-04-10

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

2026-04-10