多模态对齐，以及我对收听部分日语歌曲所产生的一些看法

现在我们才知道这个东西叫什么。
一定程度上，我现在才可以确定，中国的一些音乐人到底是在追求什么东西了。
具体可以看下面这两篇文章：
多模态对齐与融合：综述 Multimodal Alignment and Fusion: A Survey
https://zhuanlan.zhihu.com/p/1939338705220408438
色彩与乐器的听觉光谱：跨文化的联觉对话
https://zhuanlan.zhihu.com/p/2014138213086823064

题外话：其实在我的眼里，一些日本的音乐人和中国的音乐人在做的事是差不多的，都是有这么一个目标，只是实现的方式不同罢了。
我之前一直在想一个问题，关于日语歌曲和中文歌曲，中国人收听一些日语歌曲是可以假装听不懂(但是可以看歌词翻译去理解意思)而尝试去主动选择去聆听日语歌曲的其他部分，这个东西产生的结果就是一些人听日语歌曲“更偏向感受音乐”，而不是做阅读理解了。
还有一种情况就是信息量的问题，日语翻译中文有一些译者可以做出信达雅的翻译，但是我们不是在做阅读理解。
听到什么去联想什么，我最开始提出的一个看法是歌曲名称引导欺骗大脑，例如窦唯&译乐队在1999年发布的专辑《幻听》，里面有一首歌叫“序·玉楼春·雨·临江仙”，整首歌完全使用吉他，通过歌曲名称联想到古琴，再用吉他来靠拢一些声音。
但是这个思路如果要引申的话可以尝试另一种方式，我把这个称之为“芯片仿真”，也就是用古筝和其他中国民乐的音色替换成其他的东西，或者是尝试把中国的一些民乐的演奏技法融入到现代乐器，这一点上世纪90年代的唐朝乐队已经尝试过了，弹奏吉他融入了五声调式。
替换音色应该不存在技术问题，之前我使用RVC这类变声器换声，人声替换不是什么问题了，但是音色替换我不知道有没有人研究过这种东西，也就是编制一些硬声源，再使用诸如古筝，二胡的音源编写一段再变声成其他的声音，因为我现在没啥钱去持续性干这件事，只能讨论软件方案。

posted @ 2026-03-09 04:26 流浪的猎人阅读(3) 评论(0) 收藏举报

刷新页面返回顶部

北方边界研究所 -Northern border-

多模态对齐，以及我对收听部分日语歌曲所产生的一些看法

公告