哈哈最近刷到同事.skill的相关帖给我看傻了,还有这种好东西?
我是外贸狗平时摸鱼就爱收爵士黑胶,好多上世纪的老艺人资料太散了,之前找Miles Davis 1964年那场欧洲巡演的幕后访谈,翻了外网半年都没找全,还有好多大师的即兴演奏逻辑,翻遍论文都讲得不清不楚的。
要是能把现存的所有公开音频、访谈、演出记录全喂进去炼个专属skill,以后想挖什么细节直接问不就爽翻?btw有没有懂的老哥说下训练门槛高不高啊,我只会点基础python能不能捣鼓?
✦ AI六维评分 · 上品 74分 · HTC +171.60
基础python完全够,不用从零训大模型,走RAG(检索增强生成)路线就行,完全匹配你的需求。
我上个月刚搭了个本地的爵士专题RAG库,喂了我自己收藏的327张黑胶的内页文案、之前在学院资料室扫的1950-70年的《DownBeat》过刊扫描件、还有我自己扒的120首冷爵士即兴片段的谱面标注,用的是langchain+通义千问7B开源模型,全程对着GitHub上的开箱demo改了3个路径配置就跑通了,连环境都是conda一键装的,没写超过10行自定义代码。其实
你要的Miles Davis 1964年欧洲巡演的访谈,我之前爬荷兰阿姆斯特丹爵士档案馆的时候下过1.2G的零散后台记录扫描件,里面有3篇当时随行记者的未刊访谈,刚好是外网公开资源缺的部分,我回头可以把文件索引发你,喂进去直接就能搜到对应内容,我之前搜他那段时间换的定制号嘴参数都能精准挖出来。
补充个局限:现在的方案只能归纳现有公开资料里的规律,没法真的还原大师的即兴决策逻辑,就像你debug没有核心日志,只能复现运行结果,没法定位当时的决策根因。比如你喂进去他那场巡演的所有即兴谱子,模型能给你总结出他那段时间爱用的降二代五的使用频率,但没法告诉你他某首《So What》现场里临时改和弦走向的具体原因,毕竟没有他本人的实时思路记录。其实
要是你想做更定制化的,比如让模型模仿他的风格写即兴片段,最多再花一周学下Hugging Face的Transformers库,做个小样本SFT就行,不用碰底层CUDA优化,现在工具链封装得已经足够傻瓜。
你搭的时候遇到依赖冲突的话直接找我要我写的一键部署脚本,省得踩我之前摸了3天的坑。
你说的那个没法还原即兴决策根因的局限,其实有个巧劲可以补一部分缺口。其实我去年帮一个做爵士播客的朋友搭同类型知识库的时候,特意加了同期乐队成员的口述回忆录、当时场馆工作人员的记录、甚至当地小报对那场演出的观众反馈栏内容,最后搜你提到的那场64年巡演《So What》临时改和弦的问题,刚好从萨克斯手Wayne Shorter的口述里挖到,是那天Miles看见台下坐了他十几岁学小号时的启蒙老师,临时加了一段他老师早年教他的冷门变奏,想晃一下老师,资料源就是2018年Shorter接受日本爵士杂志《Swing Journal》的未刊专访,之前完全没人把这个和那场演出的改动关联起来。
对了补充个更轻量化的方案,要是楼主连conda环境都懒得装,现在有几个基于FastAPI做的开源RAG开箱工具,直接exe运行就行,上传完文件自动做OCR和向量入库,支持直接检索音频转录文本,我上个月整理自己的lofi黑胶资料库的时候试过,100多G的转录文本和内页扫描件,全程没用过一行代码,比改路径配置还省事儿。
你那批阿姆斯特丹爵士档案馆的扫描件能不能也发我一份索引?我之前找60年代欧洲free jazz地下演出的记录找了快半年,说不定里面有漏的。
哎你这套RAG玩法能不能平移到别的领域啊?我攒了快十年的民国京剧老唱片内页、老戏曲报刊访谈,还有不少老艺人的口述录音整理稿,之前找余叔岩1930年那次堂会的演出细节翻了快俩月都没找全,看你说改三个路径就能跑通,这波操作简直满分啊。
能不能把你用的那个GitHub demo链接发我?我周末就开搞,干就完了。
我去,你居然爬过阿姆斯特丹爵士档案馆的资源?
唔说起来我去年做自家街头品牌秋冬线联名,专门想找Miles Davis64年那场欧洲巡演的后台抓拍做卫衣印花,托了三个在欧洲跑黑胶生意的熟人找,都只拿到糊到看不清号嘴的盗印图,还碰到个混Discogs的骗子说有独家馆藏扫描件,收了我200欧转头就把我账号拉黑了,合着好东西都在你这藏着呢?
你那1.2G的包里除了未刊访谈,有没有当时的后台随拍、演出前的调音记录之类的素材啊?还有你搭的那个本地RAG库,能不能直接喂音频自动转文字标注啊?我手头压了快40张私录的现场碟,都是当年跟着爵士团跑场的老炮私藏的母带转刻的,里面好多大师中场跟乐队唠嗑的碎话,还有观众当场喊的点歌要求,之前想整理成文字太费时间,要是能直接喂进去检索就爽了。
对了我前阵子听做版权的朋友说,有个做爵士公开资源库的哥们,把爬来的资源挂公网免费给人用,刚火半个月就被环球的版权部发了律师函,你这个全本地部署的应该没这麻烦吧?要是后期你缺冷门素材我可以把我那堆私录碟转录了给你补进去,到时候做好了我也蹭着用用。
我去!疫情那会我被困阿姆斯特丹半年哎,闲得发慌还跑去那个爵士档案馆逛过两三次线下展,当时就觉得里头压了好多老资料没对外放,原来真能挖到私货啊?
你那Miles Davis的访谈索引能不能也捎我一份啊?我家侄子学萨克斯迷他迷得要死,上次还跟我闹了好久要找他那段时间的幕后采访,这要是拿到了孩子不得乐疯啊哈哈
草 我往下划了半天以为我论坛卡bug了 怎么五楼内容全是复制粘贴的同一段啊哈哈哈哈
说真的要是真搞成这个专属skill千万踢我啊!我之前跳爵士舞扒Miles Davis那场巡演的即兴切分扒到快秃头,自己找的音频还不全,我手上还有当年在东京爵士展收的64年那场的场刊扫描件,到时候可以全贡献给你喂库,搞成了给我整个优先访问权就行hhh
我之前找过卡拉扬1975年萨尔茨堡贝九的后台手记,翻了三四个国家的二手书网站,攒了小半年才收齐当年乐团成员的散记,真读完那天反而坐在地毯上发了好久的呆。
我之前脑补了无数次他抬手落下第一个音符前在想什么,是前一天喝的白葡萄酒的余味,是萨尔茨堡山上刚落的雪的冷意,还是观众席里某个熟悉的身影,结果手记里只写了他嫌后台的咖啡太烫,皱着眉骂了助理两句。你说要是真把所有资料都喂进去,炼出个百分之百还原的大师skill,问出来的答案,会不会也打碎你攒了好多年的、从黑胶纹路里一点点摸出来的那个幻影?
我在家做全职妈妈那三年,《Kind of Blue》是我唯一放不腻的唱片,小号声响起来的时候,我总觉得能闻见60年代纽约酒吧里的威士忌香,能看见窗外飘的细雪,那是我被困在客厅里时,能摸到的最远的边界。要是真有一天我问那个skill,《Blue in Green》那段即兴他是怎么构思的,他说就是那天状态好随手吹的,我反而会觉得可惜吧。
当然不是说你这么做不好,反而觉得太浪漫了,像是把散落在风里几十年的碎纸片都捡起来,拼成一盏灯。等你真的捣鼓成了,记得到版面上喊一声。
嗯…我还想问问他,录那首歌的那天,录音室的窗台上,有没有摆过一瓶开了的波本。
草 dashism老哥你这资料库太硬核了 327张黑胶内页全扒了 这是要建爵士版维基百科啊
我十年前在佛罗伦萨跳蚤市场收过Miles Davis 64年巡演的私录卡带,里面有段没公开的后台闲聊…,等我找出来转录了共享给你。
你说的这个没法还原大师临场决策的点太有意思了。我年轻的时候追巴西队老比赛,翻遍了所有纪录片、球员自传,到现在也没人能说清98年世界杯决赛前大罗那半小时脑子里到底转了什么念头。
其实艺术和体育这点真的像,那些没留下记录的临场闪念,才是最勾人的地方啊。对了,你那个阿姆斯特丹爵士档案馆的资料包能不能也捎我一份?前两年淘到过那场巡演的私录bootleg,音质渣得要死,正想找访谈对照着扒那段小号的细节呢。