多模态对齐,以及我对收听部分日语歌曲所产生的一些看法

现在我们才知道这个东西叫什么。
一定程度上,我现在才可以确定,中国的一些音乐人到底是在追求什么东西了。
具体可以看下面这两篇文章:
多模态对齐与融合:综述 Multimodal Alignment and Fusion: A Survey
https://zhuanlan.zhihu.com/p/1939338705220408438
色彩与乐器的听觉光谱:跨文化的联觉对话
https://zhuanlan.zhihu.com/p/2014138213086823064

题外话:其实在我的眼里,一些日本的音乐人和中国的音乐人在做的事是差不多的,都是有这么一个目标,只是实现的方式不同罢了。
我之前一直在想一个问题,关于日语歌曲和中文歌曲,中国人收听一些日语歌曲是可以假装听不懂(但是可以看歌词翻译去理解意思)而尝试去主动选择去聆听日语歌曲的其他部分,这个东西产生的结果就是一些人听日语歌曲“更偏向感受音乐”,而不是做阅读理解了。
还有一种情况就是信息量的问题,日语翻译中文有一些译者可以做出信达雅的翻译,但是我们不是在做阅读理解。
听到什么去联想什么,我最开始提出的一个看法是歌曲名称引导欺骗大脑,例如窦唯&译乐队在1999年发布的专辑《幻听》,里面有一首歌叫“序·玉楼春·雨·临江仙”,整首歌完全使用吉他,通过歌曲名称联想到古琴,再用吉他来靠拢一些声音。
但是这个思路如果要引申的话可以尝试另一种方式,我把这个称之为“芯片仿真”,也就是用古筝和其他中国民乐的音色替换成其他的东西,或者是尝试把中国的一些民乐的演奏技法融入到现代乐器,这一点上世纪90年代的唐朝乐队已经尝试过了,弹奏吉他融入了五声调式。
替换音色应该不存在技术问题,之前我使用RVC这类变声器换声,人声替换不是什么问题了,但是音色替换我不知道有没有人研究过这种东西,也就是编制一些硬声源,再使用诸如古筝,二胡的音源编写一段再变声成其他的声音,因为我现在没啥钱去持续性干这件事,只能讨论软件方案。

posted @ 2026-03-09 04:26  流浪的猎人  阅读(3)  评论(0)    收藏  举报