HF Papers

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

2026-03-20

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

2026-03-20

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

2026-03-20

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

2026-03-20

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

2026-03-20

Memento-Skills: Let Agents Design Agents

Memento-Skills: Let Agents Design Agents

2026-03-20

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

2026-03-20

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

2026-03-20

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

2026-03-20

AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

2026-03-20

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

2026-03-20

Tinted Frames: Question Framing Blinds Vision-Language Models

Tinted Frames: Question Framing Blinds Vision-Language Models

2026-03-20

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

2026-03-20

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

2026-03-20

MOSS-TTS Technical Report

MOSS-TTS Technical Report

2026-03-20

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

2026-03-20

OSM-based Domain Adaptation for Remote Sensing VLMs

OSM-based Domain Adaptation for Remote Sensing VLMs

2026-03-20

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

2026-03-20

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

2026-03-20

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

2026-03-20