本项目“思而后行”旨在构建一个基于视、触、听觉多模态融合的家庭服务机器人系统。系统采用 NVIDIA Jetson Orin Nano 作为边缘计算平台,利用 JetPack SDK 中的 CUDA、cuDNN、TensorRT 等实现高效的本地推理和多模态感知融合。集成 Intel RealSense D437 视觉相机、Gelsight Mini 触觉传感器和科大讯飞语音模块,实现语音、视觉和触觉三路感知的协同处理。 项目基于 Interpreter–Commander–Executor 三层智能体架构,实现从自然语言指令的语义解析、任务拆解到机械臂动作执行的闭环控制。创新点包括结合大语言模型(LLM)进行语义结构化解析,构建个性化用户偏好知识图谱,并引入联邦学习机制,在保障用户隐私的同时进行本地增量学习,提升机器人对个体需求的适应能力。系统支持复杂多步骤任务自动拆解和动态调度,响应时延控制在百毫秒级,具备良好的鲁棒性和扩展性。 该系统适用于智能家居、养老陪护、医疗辅助等场景,推动家庭机器人从传统机械执行向理解、思考与学习的智能助理转变,提升用户交互体验和服务效率。
*此项目展示图片来自项目作者