# 思而后行：基于视触听觉多模态的服务机器人

本项目“思而后行”旨在构建一个基于视、触、听觉多模态融合的家庭服务机器人系统。系统采用 NVIDIA Jetson Orin Nano 作为边缘计算平台，利用 JetPack SDK 中的 CUDA、cuDNN、TensorRT 等实现高效的本地推理和多模态感知融合。集成 Intel RealSense D437 视觉相机、Gelsight Mini 触觉传感器和科大讯飞语音模块，实现语音、视觉和触觉三路感知的协同处理。 项目基于 Interpreter–Commander–Executor 三层智能体架构，实现从自然语言指令的语义解析、任务拆解到机械臂动作执行的闭环控制。创新点包括结合大语言模型（LLM）进行语义结构化解析，构建个性化用户偏好知识图谱，并引入联邦学习机制，在保障用户隐私的同时进行本地增量学习，提升机器人对个体需求的适应能力。系统支持复杂多步骤任务自动拆解和动态调度，响应时延控制在百毫秒级，具备良好的鲁棒性和扩展性。 该系统适用于智能家居、养老陪护、医疗辅助等场景，推动家庭机器人从传统机械执行向理解、思考与学习的智能助理转变，提升用户交互体验和服务效率。

 ![思而后行：基于视触听觉多模态的服务机器人](https://developer.download.nvidia.com/zh-CN/images/community/showcase/service-robot.jpg &quot;思而后行：基于视触听觉多模态的服务机器人&quot;)

\*此项目展示图片来自项目作者

### 项目开发者
 闫腾, 余圳曦, 简浩, 李文贤, 钟秉灼

### 相关技术...

- JetPack SDK
- CUDA
- cuDNN
- TensorRT
- Text
- Audio
- Jetson Orin Nano

### 资源

[查看项目代码库](https://github.com/Fenbid0605/Think-Before-Acting)

[观看项目相关视频](https://blog.csdn.net/weixin_45500557/article/details/148211606?spm=1001.2014.3001.5502)