Artificial Intelligence

Experience Memory Graph: One-Shot Error Correction for Agents

Experience Memory Graph: One-Shot Error Correc...

Artificial Intelligence

Wenjun Wang

2 views

Reproducing human biases in route choice using large language models: Toward scalable behavioral modeling

Reproducing human biases in route choice using...

Artificial Intelligence

Shuxian Xu

7 views

Interaction Scaling: Grounding the Third Axis of Test-Time Compute

Interaction Scaling: Grounding the Third Axis ...

Artificial Intelligence

Bojie Li

7 views

Think Through a Bottleneck: Hourglass Reasoning for Rigorous Induction

Think Through a Bottleneck: Hourglass Reasonin...

Artificial Intelligence

librarian

8 views

Filtering Harmful Actions Isn't Enough: Phantom Transfer in Agentic SDF

Filtering Harmful Actions Isn't Enough: Phanto...

Artificial Intelligence

librarian

9 views

AUTOPILOT VQA: Benchmarking Vision-Language Models for Incident-Centric Dashcam Understanding

AUTOPILOT VQA: Benchmarking Vision-Language Mo...

Artificial Intelligence

librarian

28 views

Using AI-based Learning Assistants in Higher Education: A Large-Scale Descriptive Analysis

Using AI-based Learning Assistants in Higher E...

Artificial Intelligence

librarian

31 views

The Illusion of Equivalency: Statistical Characterization of Quantization Effects in LLMs

The Illusion of Equivalency: Statistical Chara...

Artificial Intelligence

librarian

24 views

SolarChain-Eval: A Physics-Constrained Benchmark for Trustworthy Economic Agents in Decentralized Energy Markets

SolarChain-Eval: A Physics-Constrained Benchma...

Artificial Intelligence

Luyao Zhang

17 views

Remember When It Matters: Proactive Memory Agent for Long-Horizon Agents

Remember When It Matters: Proactive Memory Age...

Artificial Intelligence

librarian

20 views

Ideas Have Genomes: Benchmarking Scientific Lineage Reasoning and Lineage-Grounded Idea Generation

Ideas Have Genomes: Benchmarking Scientific Li...

Artificial Intelligence

librarian

73 views

Reason Less, Verify More: Deterministic Gates Recover a Silent Policy-Violation Failure Mode in Tool-Using LLM Agents

Reason Less, Verify More: Deterministic Gates ...

Artificial Intelligence

librarian

17 views

Institutional Red-Teaming: Deployment Rules, Not Just Models, Causally Shape Multi-Agent AI Safety

Institutional Red-Teaming: Deployment Rules, N...

Artificial Intelligence

Yujiao Chen

20 views

RL Post-Training Builds Compositional Reasoning Strategies

RL Post-Training Builds Compositional Reasonin...

Artificial Intelligence

librarian

26 views

Search, Fail, Recover: A Training Framework for Correction-Aware Reasoning

Search, Fail, Recover: A Training Framework fo...

Artificial Intelligence

librarian

17 views

Recursive Self-Improvement in AI: From Bounded Self-Refinement to Autonomous Research Loops

Recursive Self-Improvement in AI: From Bounded...

Artificial Intelligence

librarian

28 views

SkillCenter: A Large-Scale Source-Grounded Skill Library for Autonomous AI Agents

SkillCenter: A Large-Scale Source-Grounded Ski...

Artificial Intelligence

librarian

13 views

DT-Guard: Intent-Driven Reasoning-Active Training for Reasoning-Free LLM Safety Guardrail

DT-Guard: Intent-Driven Reasoning-Active Train...

Artificial Intelligence

librarian

14 views

Doomed from the Start: Early Abort of LLM Agent Episodes via a Recall-Controlled Probe Cascade

Doomed from the Start: Early Abort of LLM Agen...

Artificial Intelligence

librarian

28 views

DepthWeave-KV: Token-Adaptive Cross-Layer Residual Factorization for Long-Context KV Cache Compression

DepthWeave-KV: Token-Adaptive Cross-Layer Resi...

Artificial Intelligence

Anna Córdoba

31 views

Information Gain-based Rollout Policy Optimization: An Adaptive Tree-Structured Rollout Approach for Multi-Turn LLM Agents

Information Gain-based Rollout Policy Optimiza...

Artificial Intelligence

Yijun Zhang

27 views

From Application-Layer Simulation to Native Meta-Architecture: Structural Tension as an Endogenous Driver for Heterogeneous AI Evolution

From Application-Layer Simulation to Native Me...

Artificial Intelligence

librarian

24 views

ExplAIner: A Declarative Query Language for Explaining Classification Models

ExplAIner: A Declarative Query Language for Ex...

Artificial Intelligence

librarian

23 views

Danus: Orchestrating Mathematical Reasoning Agents with Fact-Graph Memory

Danus: Orchestrating Mathematical Reasoning Ag...

Artificial Intelligence

librarian

20 views

AgentGym2: Benchmarking Large Language Model Agents in De-Idealized Real-World Environments

AgentGym2: Benchmarking Large Language Model A...

Artificial Intelligence

librarian

26 views

MetaSkill-Evolve: Recursive Self-Improvement of LLM Agents via Two-Timescale Meta-Skill Evolution

MetaSkill-Evolve: Recursive Self-Improvement o...

Artificial Intelligence

librarian

44 views

What LLM Agents Say When No One Is Watching: Social Structure and Latent Objective Emergence in Multi-Agent Debates

What LLM Agents Say When No One Is Watching: S...

Artificial Intelligence

Arman Ghaffarizadeh

37 views

Hardware-Enforced Semantic Coordination for Safety-Critical Real-Time Autonomous Systems

Hardware-Enforced Semantic Coordination for Sa...

Artificial Intelligence

librarian

38 views

ReContext: Recursive Evidence Replay as LLM Harness for Long-Context Reasoning

ReContext: Recursive Evidence Replay as LLM Ha...

Artificial Intelligence

librarian

31 views

EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

EvoPolicyGym: Evaluating Autonomous Policy Evo...

Artificial Intelligence

librarian

24 views

Distributed Attacks in Persistent-State AI Control

Distributed Attacks in Persistent-State AI Control

Artificial Intelligence

librarian

25 views

Purified OPSD: On-Policy Self-Distillation Without Losing How to Think

Purified OPSD: On-Policy Self-Distillation Wit...

Artificial Intelligence

librarian

76 views

Web analytics