思而后行：基于视触听觉多模态的服务机器人

本项目“思而后行”旨在构建一个基于视、触、听觉多模态融合的家庭服务机器人系统。系统采用 NVIDIA Jetson Orin Nano 作为边缘计算平台，利用 JetPack SDK 中的 CUDA、cuDNN、TensorRT 等实现高效的本地推理和多模态感知融合。集成 Intel RealSense D437 视觉相机、Gelsight Mini 触觉传感器和科大讯飞语音模块，实现语音、视觉和触觉三路感知的协同处理。项目基于 Interpreter–Commander–Executor 三层智能体架构，实现从自然语言指令的语义解析、任务拆解到机械臂动作执行的闭环控制。创新点包括结合大语言模型（LLM）进行语义结构化解析，构建个性化用户偏好知识图谱，并引入联邦学习机制，在保障用户隐私的同时进行本地增量学习，提升机器人对个体需求的适应能力。系统支持复杂多步骤任务自动拆解和动态调度，响应时延控制在百毫秒级，具备良好的鲁棒性和扩展性。该系统适用于智能家居、养老陪护、医疗辅助等场景，推动家庭机器人从传统机械执行向理解、思考与学习的智能助理转变，提升用户交互体验和服务效率。

*此项目展示图片来自项目作者

资源

查看项目代码库

观看项目相关视频

思而后行：基于视触听觉多模态的服务机器人

项目开发者

相关技术...

资源