想学音乐不难！人工智能让音乐更简单但有可能成为音乐家吗？

「自动音乐采谱研究」的重要性

相传莫扎特十四岁时听到复杂的教堂乐曲，便能默记全曲并写成乐谱。在这个充满神秘色彩的故事中，除了隐含人们对音乐「天份」这道门坎的敬畏以外，自动采谱也成为 AI 人工智能研究者所挑战的重要梦想。中研院信息科学研究所的苏黎，专攻音乐信息检索（Music Information Retrieval，MIR），以「多重音高侦测技术」为基础，发展出自动采谱的人工智能，以更轻松简单的方式来协助我们学音乐、理解音乐和制作音乐。目前市场上已经有许多人工智能在音乐上的应用，例如人们用 Soundhound 音乐识别软件来搜寻当下听到的歌，或试听在线串流平台推荐的歌曲，或透过软件快速找到自己想要听的歌。这方面的发展已接近成熟，但主要都是针对「聆听」的行为。若想透过人工智能进一步了解音乐的深层意涵，例如作曲家的创作思维，演奏家的诠释技法，乃至于乐评家的观点，那么，一个拥有像莫扎特般卓越音乐听力，可以协助自动采谱，并将听见的音乐变成容易亲近演奏的完整乐谱的人工智能，会是关键性的一步。

人类如何认识音乐？音高 94 关键！

试着哼唱莫扎特的〈小星星〉，想起小学教室里的风琴伴奏，而那架风琴的 Do 还老是走音。在这样简单的歌曲里头，事实上已经包含了许多复杂的信息，如速度、节奏、音高、和弦、器乐及人声的音色等多样要素，别忘了还有走音的 Do 这个偏差因子。因此，人工智能对大编制乐曲如交响乐的自动采谱，必须面对大量且交迭的信息，难度仍然很高。所以要把听到的乐曲转成可以看到的谱，还是要找出其中特征最稳定，也能决定旋律的关键—「音高」。内文参考原至：胜博发祈福 http://chiayuan.org.tw/

「音高」为乐曲所有要素中最基本的特征，乐谱上的信息，大多与音高有关。

说起音乐讯号的本质，苏黎认为音高是音乐讯号中的最基本的信息之一，而音高侦测正是音乐讯号处理的基本技术。举个大家都有的生活经验：当朋友打电话来，有时我们会觉得对方的声音好像不太一样。这是因为线路与装置在讯号传输过程中改变了朋友说话的音色，让我们的听觉受到混淆。但对方声音在电话里的语调，也就是音高，不论是上扬还是下降，并不容易受影响。因此，我们即使因为噪声而不认得对方的声音，但往往还能听懂对方讲话的内容。也因为音高拥有这样的基本特性，所以如何辨识音高可以说是分析声音信息的一项基本技术。

此外，音高信息并不仅包含绝对音高，还包含音与音相对的关系，甚至是那转音之时，各种诠释的可能。就如同有人唱着〈小星星〉的曲调，即使没一个音在音准上，我们仍然听得出这是〈小星星〉的曲调。这是因为我们认得旋律轨迹（melody contour）的样态，也就是「曲调的起伏」。只要曲调起伏的趋势与原曲相似，我们就能如 Soundhound 音乐识别软件一样听得出来。

用「多重音高侦测」，记录人耳辨识困难的合音

扫描二维码关注公众号，回复： 4749183 查看本文章

音高信息除了表现于旋律以外，更是伴奏、和声与对位结构中的基本信息，也就是「和弦辨识（chord recognition）」与「多重音高侦测（multi-pitch estimation, MPE）」技术。近年来多重音高侦测技术的发展重点，大多仍集中于西方古典音乐，因为此类音乐的数据库相对完整，每种乐器的声响型态较容易标准化，在分析乐曲时就相当便利。但因为西方古典音乐大多有完整乐谱，往往是最不需要这项技术辅助研究的。相反的，大量在缺乏谱例记载的传唱民谣，需大量人力从事转谱工作以方便判读分析，多重音高侦测技术在此时便派上用场，并且能给予谱例之外更多的信息。以布农族的祈祷小米丰收歌 Pasibutbut ，也就是著名的「八部合音」（注一）为例。为什么称之八部，据说是因为「泛音唱法」（注二），即一个人可以同时唱出两个音高的声音，除了唱出基音以外，还增强某一个高阶泛音的能量。但现今所看到音乐学家所整理的谱例，大多仍是记为四部，这是因为演唱的编制确实只有四个声部：最高音、次高音、中音和低音。至于泛音唱法之下多出的声部，有些人听得出来，有些人则感知不到；且不同的录音版本差很大，很难明确指出是哪八个声部，各自音高为何。

苏黎透过讯号的时频图（spectrogram）数据左证，可以清楚看见泛音唱法的特征：每一个声部都在偶数的倍频上产生更多能量。经过多重音高侦测（即 CFP transcription result），去掉多倍频的泛音，除了基音外，也很容易看见第一泛音(基音的二倍频)的位置上有能量存在，显示了新的音高成份，算法呈现的结果证实了泛音唱法的存在。藉由计算瞬时频率的技术，也就是「多重音高侦测」，便能把每一个声部的音高轨迹精准算出，将能协助民族音乐的采谱工作。

音乐可视化！将视觉和听觉同步表现

苏黎团队目前所研究的「多重音高侦测技术」，以适用于各种音乐讯号为目的，其能有效刻划出每一种声响结构，并且将声响实时转化成乐谱。多重音高侦测技术不仅可以应用于民族音乐学等领域的采谱处理问题，它的实时处理以及可视化能力，也能在教育、娱乐等应用领域中有庞大潜力，将复杂的演奏实时转为视觉表现。在聆听音乐的同时建立视觉与听觉的关联，以增强对音乐元素如音高、和弦的认知，是丰盛音乐表演（enriched music performance）所努力的方向。为了推广这个概念，苏黎与沛思文教基金会将于 2017 年 11 月合作推出《日新‧乐译》跨界科技音乐会（注三），将现场演奏实时转译成乐谱动画，用科技的语言，述说音乐的故事，透过多媒体动画影像，让大家听得到也看得到音乐的演出。

除了纪录乐谱，还能做什么应用呢？

「多重音高侦测技术」对于辅助学习的应用，也不仅限于音乐元素的侦测与可视化。精确的多重音高侦测技术为了满足这个目标，往往需要更精确的频率与能量侦测算法，精确描述演奏者在演奏时的音量有多大、抖音怎么使用、如何控制音长等等。苏黎与成大苏文钰老师、中研院杨奕轩老师合作的工作中，专注探讨小提琴演奏者的诠释，就像同样的小星星会有很多不同的诠释版本，可以弹得恬静、弹得庄严、弹得诙谐、弹得有精神，种种不同的表情术语和诠释方式，都可以从精确的音高侦测算法中看出端倪。

更进一步地说，未来我们或许能建立一个检定的标准：当弹奏者把自己的演奏记录下来，并输入音乐人工智能时，就可以和标准演奏做出比对，看看自己演奏得好不好。或是藉由音乐人工智能的示范演出，让初学者可以不断聆听各种诠释方式，再去揣摩自己喜欢的演奏表情。这一些都是未来可以从「多重音高侦测技术」中，延伸开发的音乐人工智能。如果可以辨识演奏的诠释方式，则有机会透过音乐人工智能，从仰慕的音乐高手的精湛演奏中，学习乐器的弹奏技巧。

精确的音高侦测技术不仅可以用来分析古典音乐中的表情术语，另一个有趣的应用是分析摇滚乐中，吉他 solo 复杂的演奏技巧。帅气热血的吉他 solo 往往结合各式不同的演奏技巧，如推弦，滑音、闷音、捶勾弦等等，这是吉他新手在学习抓谱时最困扰的地方。「多重音高侦测技术」有助于办识出吉他的演奏技巧，把这一些技巧转变成可阅读的技巧符号，并记载在乐谱上，让我们可以更容易去理解弹奏方式，进而模仿演奏者的演奏变化，达成自己想要的音乐学习目标，也是种未来可能发展出的音乐学习系统。

音乐人工智能会取代音乐家吗？

当 AlphaGo 问世改写了围棋的新面貌，一一击败了世界顶尖的围棋好手，有人感到恐惧、有人感到兴奋，无非都是因为人工智能科技所带来的改变，但换一个角度想，这不正是把漫画「棋灵王」的故事搬到现实世界吗？当 AlphaGo 变成每个人的藤原佐为，我们就可以像进藤光一样，即使没有从小就接触围棋，也可以学习到好的围棋思维。根据类似的道理，我们可以说，音乐人工智能科技的进步，其目的并不在于取代音乐家的工作。相反的，我们能看到在不久的将来，这些科技将会被用来增进人类学习音乐的效率，而扩大音乐的学习与消费市场。正如工业革命让古钢琴现代化并大量制造，而孕育浪漫乐派肖邦、舒曼等作曲家不朽的钢琴独奏作品；当代音乐人工智能的成熟发展将开展另一场革命，不仅让学习音乐变得更轻松有趣，也提供音乐家前所未有的音乐创作思维。

苏黎不仅是个信息科学家，也是一个音乐爱好者。深度研究「多重音高侦测技术」，逐步发展出可以正确转译乐谱的音乐人工智能，一方面希望让专业的音乐创作人拥有更好的创作环境，不用在记载与解析乐谱上耗费太多心力，创作者可以运用更充足的时间来创作崭新的音乐风格。

另一方面则期望，让每个想学习音乐的人，可以搭载犹如莫扎特的音乐耳。每个人都好像拥有一个虚拟音乐老师，以更轻松、简单的方式，认识音乐的组成结构，降低学习成本，加快学习音乐的速度。让想学音乐的心，不会随着年龄增长而有所阻碍，让全年龄层的人们都有兴趣把音乐成为生活的一部分。

想学音乐不难！人工智能让音乐更简单但有可能成为音乐家吗？

猜你喜欢