GitHub - XiaShan1227/Embodied-Intelligence: Intelligent Manipulation and Perception for Robotic Arms

一、Perception

D³Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement (CoRL-2024)
[paper] [code]
UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation (ICRA-2025)
[paper] [code]
Learning Affordance Grounding from Exocentric Images (CVPR-2022)
[paper] [code]
Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation (CVPR-2025)
[paper] [code]
AffordanceLLM: Grounding Affordance from Vision Language Models (CVPR-2024)
[paper] [code]
DINOv3
[paper] [code]
SAM 3: Segment Anything with Concepts
[paper] [code]

[Nan Xue]
[Yuxi Xiao]

Depth Completion

D³RoMa: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation (CoRL-2024)
[paper] [code]
Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation (CVPR-2025)
[paper] [code]
Masked Depth Modeling for Spatial Perception
[paper] [code]
Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots
[paper] [code]

Object Tracking

SpatialTracker: Tracking Any 2D Pixels in 3D Space (CVPR-2024)
[paper] [code]
SpatialTrackerV2: 3D Point Tracking Made Easy (ICCV-2025)
[paper] [code]
Tracking Any Point
[Link]
CoTracker: It is Better to Track Together (ECCV-2024)
[paper] [code]
PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point Tracking (ICCV-2023)
[paper] [code]

二、Robotic Manipulation

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion (RSS-2023/IJRR-2024)
[paper] [code]
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations (RSS-2024)
[paper] [code]
Generalizable Humanoid Manipulation with 3D Diffusion Policies (IROS-2025)
[paper] [code]
Motion Before Action: Diffusing Object Motion as Manipulation Condition (RA-L-2025/ICRA-2026)
[paper] [code]
GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy (CoRL-2024)
[paper] [code]
ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation (CoRL-2024)
[paper] [code]
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models (CoRL-2023)
[paper] [code]
Efficient Heatmap-Guided 6-Dof Grasp Detection in Cluttered Scenes (RA-L-2023)
[paper] [code]
Diff-DAgger: Uncertainty Estimation with Diffusion Policy for Robotic Manipulation(ICRA-2025)
[paper] [code]

[Wenlong Huang]
[Yanjie Ze]
[Yixuan Wang]

Vision Language Action

[Link]

三、Framework

四、Technical Roadmap

[Lumina-Embodied-AI-Guide]

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

一、Perception

Depth Completion

Object Tracking

二、Robotic Manipulation

Vision Language Action

三、Framework

四、Technical Roadmap

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

一、Perception

Depth Completion

Object Tracking

二、Robotic Manipulation

Vision Language Action

三、Framework

四、Technical Roadmap

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages