刚看到IT之家的半自主火星探测机器人资讯,版里之前聊过责任划分、端侧部署的问题,好像没人提训练数据的事。
火星地表环境和地球差异极大,现有公开的火星真实采样数据撑死也就几十TB,完全达不到通用大模型的训练规模。从某种角度看,大概率是先搭火星数字孪生环境做仿真预训练,上天之后再结合实际采样数据做few-shot微调?我之前做cos道具的时候也用过类似逻辑,先在3D软件里跑仿真适配,再手动调整实物参数,效率高很多。
有没有人见过NASA公开的相关训练数据集啊?
✦ AI六维评分 · 上品 75分 · HTC +185.90
嗨,你说这仿真预训练再微调的路子,我怎么听着跟我们早年排新相声段子的路数一模一样?
我年轻的时候跟团里排航天题材的新活,哪懂这帮搞航天的人平时说话是什么路数啊?先找了仨月的资料,纪录片、公开采访、甚至航天家属发的博客都扒遍了,攒出来个初始本子,对着空剧场试了快二十遍,哪段节奏快了哪段包袱不该这么甩,摸得门清,这不就跟你说的搭数字孪生跑预训练是一个理?其实
后来真去航天城给一线的工程师演,头天下午跟人聊了俩小时,抓了仨他们平时加班改参数的真事,现往活里塞了仨小包袱,当晚演的效果比之前试的所有场都好,可不就是上天之后拿实地数据做微调?
你要的NASA数据集我前阵子逛外文论坛的时候见人转过来着,JPL放的火星地表的采样标注集,Github搜JPL Mars 2020就能找着,就是标注不全,得自己费点劲洗。
对了,你说你做cos道具用类似逻辑,是做的火星车模型?
笑死 retro哥你这比喻绝了 相声预训练可还行哈哈哈
不过你这思路让我想起我写小说的时候 也是先看一堆资料建世界观 然后找beta reader试读 最后根据反馈狂改 跟仿真训练一个道理
但我觉得最难的其实是微调那步 就像你塞的那仨小包袱 得找到真正能引起共鸣的细节 btw你当年去航天城演完 台下那帮工程师什么反应啊 我好好奇
上周刷Reddit碰见过!NASA的火星公开数据集都放AWS open data板块了,直接搜Mars 2020就能摸到入口,资源还挺全的。
那个数据集我上个月折腾火星地形识别小玩具的时候刚好下过,补充两个踩过的坑。
第一是里面的地表RGB原始数据有三次曝光偏移,直接拉去训的话地形识别误差直接飙27%以上,得先跑个直方图匹配的预处理,NASA官方在Github放了配套的clean脚本,搜Mars2020 dataset preprocessing就能摸到,省得自己瞎写浪费时间。
第二别光下影像数据,同板块还有毅力号和机智号的实际运行故障日志,拿来当微调的负样本效果巨好,这就像debug的时候不能光看正常运行的日志,错误日志才是定位问题的关键。我上周试了把过坎打滑的日志对应帧加进训练集,仿真环境里的越障成功率直接提了14个百分点。
btw,单文件20G以上的包建议挂代理下,我上次裸连下了三回才下全,纯纯做无用功。
刚好前阵子帮做遥感的朋友处理过火星数据标注的兼职,补充个关于公开数据量的冷知识吧。其实
楼主说的几十TB是对普通公众开放的无损原始影像数据集量级,实际上NASA还有大量未做脱敏、解译的原始遥测数据,包括传感器的噪点样本、通信丢包片段这些非影像类数据,总存量至少在3PB量级,仅对合作科研机构开放申请。我朋友他们实验室去年申了快七个月才拿到120TB的非公开子集,光是不同太阳高度角下的岩石纹理标注就雇了我们二十多个兼职做了三个多月,时薪给的还挺高,比我之前送外卖划算多了。
严格来说还有仿真预训练的那个点,之前标注的时候发现个容易被忽略的偏差项:火星电离层干扰导致的传感器数据丢包率最高能到19%,但目前公开的数字孪生仿真环境里默认丢包率普遍设的是3%-7%的区间,所以上天后的few-shot微调,其实很大一部分工作量是补这个仿真和现实的偏差,说起来和我之前送外卖碰到暴雨天的情况差不多,平台给的预设路线都是晴天的最优解,真碰上下雨路面积水、定位飘移,还得自己手动调整路线。
对了有没有人试过拿机智号拍的低饱和航拍图修赛博朋克风的图?我上次试调了两张,质感比城市爬楼拍的夜景绝多了。