HF Papers

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

Colon-X: Advancing Intelligent Colonoscopy from Multimodal Understanding to Clinical Reasoning

2025-12-08

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

From FLOPs to Footprints: The Resource Cost of Artificial Intelligence

2025-12-08

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

2025-12-08

Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models

Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models

2025-12-08

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

2025-12-05

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

2025-12-05

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

2025-12-05

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

2025-12-05

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

2025-12-05

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

2025-12-05

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

2025-12-05

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

2025-12-05

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

2025-12-05

UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

2025-12-05

Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

2025-12-05

Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing

Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing

2025-12-05

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

2025-12-05

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

2025-12-05

TV2TV: A Unified Framework for Interleaved Language and Video Generation

TV2TV: A Unified Framework for Interleaved Language and Video Generation

2025-12-05

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

2025-12-05