最近一直在想一件事:如果让 AI 真正去参与嵌入式设备救援,第一步到底该做什么?
很多人一上来会想到机械臂、人形机器人、自动焊接,听着很酷。但真到日常救砖场景里,最高频的问题其实没那么夸张。更多时候,是系统起不来、串口要看、SSH 连不上、要反复断电上电、要进刷机模式、要判断到底卡在 Bootloader 还是内核。
所以我觉得,和其先做一个“会拿烙铁的机器人”,不如先做一个AI 嵌入式救援工位:把串口、电源控制、USB 刷机、摄像头、电流监控这些通道整理到一个固定工作台里,再让 AI 在安全边界内参与诊断和恢复。
一、为什么我觉得这条路更现实
嵌入式设备出故障,常见情况无非几类:
- 系统还能活,但服务挂了,只能 SSH 排查;
- 系统起不来,只能从 TTL 串口看日志;
- Bootloader 异常,要进 USB 刷机模式;
- 再严重一点,才轮到 JTAG、SWD甚至编程器。
这说明一个现实:救砖不是单点工具能解决的事,而是一条分层处理链路。AI 真有价值的地方,不是“代替工程师拍脑袋”,而是把这些重复动作和判断流程整理成可执行闭环。
二、这个 AI 救援工位到底包含什么
如果按最实用的思路拆,至少有三层:
1)AI 判断层
它负责看串口日志、系统日志、USB 枚举状态、电流变化,给出当前故障在哪一层、下一步该怎么走。
但 AI 不能直接乱敲命令,更不能一上来就刷机。它只负责分析和生成方案。
2)受控执行层
真正动手的应该是封装好的本地工具,比如:
- 读取串口日志;
- 控制继电器断电上电;
- 触发 BOOT / RESET 按键动作;
- 进入指定板型的 USB 恢复模式;
- 备份分区;
- 刷入 Golden Image;
- 刷后验证是否成功启动。
也就是说,AI 不直接拿 Shell Root,而是调用一组带校验的动作接口。
3)物理工位层
这一层负责把现实世界接好:
- 固定板子的夹具;
- Pogo Pin 探针接 TTL、BOOT、RESET 等测试点;
- 可控 USB / 电源连接;
- 摄像头看灯、看屏、看线;
- 电流电压模块记录上电过程。
这样一来,AI 才不是只看一段日志的“纸上诊断”,而是真的能感知设备状态。
三、为什么不能只靠 SSH 和串口
如果只看 SSH 和 TTL,很多问题其实还差半步:
- 线没插好,日志里未必会说;
- 板子反复重启,电流曲线比文本更早暴露问题;
- 刷机模式有没有成功枚举,USB 状态最直接;
- 灯亮没亮、屏幕卡没卡,摄像头一眼就能看出来。
所以我更认同的路线是:日志、串口、USB、摄像头、电流曲线一起看,由本地程序先提取结构化特征,再交给 AI 综合判断。
比如:
- 电流始终为0,可能压根没供电;
- 电流瞬时拉高后掉下去,可能启动失败或保护断电;
- USB设备反复出现又消失,可能在反复进出刷机模式;
- 串口没输出但电流稳定,可能不是系统死了,而是串口参数不对。
这些东西,单独看一条日志很容易误判,合起来就更像真正的现场排障。
四、第一版千万别做大,先做 MVP
这种项目最怕一开始就想“通吃所有芯片、所有板子、所有刷机方式”。结果往往是 PPT 很大,落地很慢。
更稳的做法是:
只选一块固定板子,跑通一条完整救援闭环。
我觉得第一版 MVP 可以按下面这个顺序来:
阶段1:基础网关
- 接通 TTL 串口采集;
- 支持电源继电器控制;
- 支持 SSH 连通和日志保存;
- 先做一个简单 Web 或命令行界面。
阶段2:单板型恢复
- 给目标板建立 Profile;
- 记录串口参数、分区布局、刷机模式;
- 准备 Golden Image;
- 打通一条 USB 恢复流程;
- 支持刷后自动验证启动。
阶段3:安全 Agent
- AI读取日志和状态;
- AI生成修复计划;
- 本地工具检查计划是否合法;
- 高风险动作要人工确认;
- 全程保留审计记录。
阶段4:多模态增强
- 加入电流/电压监控;
- 加入 USB 枚举时间线;
- 加入摄像头画面确认;
- 把这些数据和串口日志对齐。
阶段5:治具化
- 做固定夹具;
- 用 Pogo Pin 接测试点;
- 用舵机控制 BOOT / RESET;
- 把 USB / 电源插拔尽量导向化、重复化。
做到这里,它就不再是概念,而是一个真正可复现的工程系统。
五、我最看重的不是“自动”,而是“安全”
这类系统如果没有边界,比没做还危险。因为 AI 一旦有写权限、刷机权限、分区权限,犯一次错就可能把板子彻底搞残。
所以我认为第一天就要把规则立住:
- 没有板型 Profile,只允许只读诊断;
- 涉及刷机、改分区、写 Bootloader、切换启动分区,必须人工确认;
- 任何写操作前先备份;
- 刷后如果没在规定时间内看到成功标志,自动停止继续写入;
- 必要时回滚到 Golden Image;
- 所有操作都要留痕,方便复盘。
说白了,AI 在这里不是“万能修理工”,而是一个被关在规则里的工程助理。
六、如果真做出来,它最值钱的地方在哪
我觉得它最大的价值,不是替代硬件工程师,而是接管那些最烦、最重复、最容易漏记录的动作:
- 反复断电上电;
- 抓启动日志;
- 比对异常特征;
- 执行标准恢复流程;
- 失败后自动停手;
- 生成完整过程报告。
这类活人做也能做,但很费时间,而且每次都靠经验。要是能把它流程化、工具化、可回滚化,后面不管是自己折腾开发板,还是做一套面向固定板型的维修 / 测试工位,价值都不小。
七、我的结论
如果真想让 AI 进入嵌入式设备维修和恢复场景,我不建议先追机械臂和大而全方案。
更现实的路线是:先做一个能稳定救活一块固定开发板的 AI 小工位。它能看日志、控电源、进刷机模式、读电流、看画面,而且整个过程有安全边界、有人工确认、有备份回滚。
这条路虽然不花哨,但更像真正能落地的工程起点。
等单板型闭环跑通了,再慢慢扩到更多 SoC、更多板型、更多治具动作,这时候谈自动化升级才有意义。
by 数码罗记 · godsun.pro