摘要

现有的基于内容的音乐推荐系统通常采用两阶段的方法。他们首先提取传统的音频内容特征，如 Mel-frequency cepstral系数，然后预测用户的偏好。然而，这些传统的功能，最初并不是为音乐推荐而创建的，不能在音频中捕获所有相关信息，从而限制了推荐性能。利用基于深度信念网络和概率图形模型的新模型，将两个阶段统一为一个自动化过程，同时学习音频内容的特征，并提出个性化的建议。与现有的基于深度学习的模型相比，我们的模型在不依赖协同过滤(CF)的情况下，在热启动和冷启动阶段都优于它们。我们提出了一种高效的混合方法，将自动学习的特性和CF进行无缝集成。我们的混合方法不仅显著提高了CF的性能，而且优于传统的基于特征的混合方法。

介绍

音乐推荐系统会自动推荐符合用户音乐偏好的歌曲。一场比赛的质量受到许多因素的影响(例如，个性，情绪状态，活动，社会环境)和歌曲(例如，音乐音频内容，新奇，多样性)。

在与歌曲相关的因素中，音乐音频内容是非常重要的。在大多数情况下，我们喜欢/不喜欢一首歌是由于它的声音内容，如声乐、旋律、节奏、音色、体裁、乐器或歌词的特点。不听内容，我们对这首歌的质量几乎一无所知，更不用说我们是否喜欢它了。因为音乐内容在很大程度上决定了我们的喜好，所以它应该能够为推荐提供良好的预测能力。

然而，现有的音乐推荐依赖于音乐音频内容，通常会产生不令人满意的推荐效果。他们都采用了两阶段的方法:提取传统音频内容特征，如Mel-frequency cepstral系数(MFCC)，然后利用这些特性来预测用户的偏好[1,2,3]。然而，传统的音频内容特性并不是为音乐推荐或音乐相关的任务而创建的(例如，MFCC最初用于语音识别[4])。他们只是在发现之后才加入了音乐推荐，他们还可以描述高级的音乐概念，如体裁、音色和旋律。使用这些特性可能导致推荐性能差的两种方式。首先，由于所谓的语义差距[5]，不能准确地描述高级概念。其次，即使特征描述是准确的，高级概念可能对用户的音乐首选项并不重要。因此，传统的功能可能无法考虑到与音乐推荐相关的信息。

关于 MFCC 可参阅:https://zhuanlan.zhihu.com/p/27416870

我们认为，有效的基于内容的音乐推荐方法的关键是一组好的内容特性。手工制作这样的功能是可能的，但费时费力。一种更好的方法是将现有的两阶段方法结合到一个统一的自动化过程中:从音频内容中自动和直接学习特性，以最大化推荐性能。深度学习技术的最近发展[6]使这种统一的方法成为可能。事实上，人们已经开始使用深度学习来学习其他音乐任务的特征，比如音乐类型分类[7]和音乐情感预测[8]，结果很有希望。

基于内容的方法也经常结合协同过滤(CF)，它根据志同道合的用户的兴趣推荐歌曲。大多数现有的推荐系统都基于CF[9]。然而，由于它完全依赖于使用数据，CF在面对新歌问题时是无能为力的——它不能推荐没有使用历史的歌曲。基于内容的方法并没有受到这个问题的影响，因为他们可以根据歌曲的音频内容进行预测，这通常是在线商家可以使用的。因此，基于内容的方法可以在新歌场景中挽救CF。由于CF和基于内容的方法利用了信息的不同维度，因此可以将它们组合成一种混合的方法来进行更好的预测。

因此，我们首先开发一个基于内容的模型，该模型自动并同时从音频内容中提取特征，并提出个性化推荐。然后，我们开发了一种混合方法，将CF和内容特性结合起来。具体而言，本文力求作出以下贡献：

基于内容的方法：我们开发了一种新的基于概率图模型的基于内容的推荐模型和深信念网络（DBN）。它统一了特征学习和推荐。虽然它不依赖于协同过滤，但它优于基于CF的模型，无论是冷启动阶段还是暖启动阶段。

混合法：将CF和音乐内容，我们将自动学会了音频特征的高效混合模型。实验结果表明，学习功能互补的CF也优于传统特征的混合方法。

本文的其余部分组织如下。2节简要回顾了流行音乐的记录方法推荐和简要介绍了深信念网络以及在音乐任务中的应用。第3节描述了我们的基于内容和混合推荐模型，并讨论了我们实验中使用的基线内容模型。第4节描述了我们广泛的实验评估。第5节总结了这项工作，并讨论了未来的研究方向。

相关工作

在介绍深层信仰网络和其他深层学习技术之前，我们将列举当前的音乐推荐技术。然后我们将回顾深层学习技术在音乐任务中的应用，包括音乐推荐。

音乐推荐

目前，音乐推荐系统可分为四类：协同过滤（CF）、基于内容的方法、基于上下文的方法和混合方法。

协同过滤通过考虑其他志同道合用户的偏好来推荐歌曲。例如，如果用户A和B具有相似的音乐首选项，那么B所推荐的歌曲，但尚未被B所考虑，B的最新方法是基于矩阵分解（MF）的，这一点很好地总结了[ 11 ]。在第3.1节中，我们将阐述一个MF方法，概率矩阵分解。

基于内容的方法推荐具有与用户首选歌曲相似的音频内容的歌曲。大多数现有的基于内容的方法首先提取传统的音频特征，如MFCC，然后根据歌曲特征向量之间的相似性进行推荐。然而，所使用的相似性度量通常是临时的，因为它们对推荐目标没有进行优化，通常从非常有限的一组距离函数中选择，如欧几里得距离[ 12, 13 ]，地球移动器的距离[ 14 ]，或皮尔森相关距离[ 15, 16 ]。虽然最近的两部作品试图利用机器学习技术自动学习相似性度量（17, 18），但它们仍然依赖于传统特征。已经尝试对传统特征[ 13, 15 ]进行特征选择或转换，但它们仍然是次优的，因为传统特征可能无法考虑必要的信息。
基于上下文的方法推荐歌曲来匹配用户上下文的各个方面（例如，活动、环境或生理状态[ 3, 19 ]）。随着传感器丰富和计算能力强的智能手机的出现，他们近年来越来越流行。

混合方法将上述两种或多种方法结合起来。混合CF和基于内容的方法已被广泛的探索在推荐其他产品，如电影[ 20, 21, 22，23 ]。虽然这种方法可以推广到音乐推荐，我们不使用他们由于效率问题：（1）他们使用贝叶斯推理[ 20, 22, 23 ]和[ 24 ]和蒙特卡洛模拟比我们的算法慢因此多；（2）已被应用于与用户和项目的100万名，收视率在我们的数据集，数据集有成千上万的用户和项目和2800万额定值。直接在我们的数据集上应用这些算法是不平凡的。

深度学习在音乐中相关的任务

音乐信息检索领域最近才开始接受深度学习的力量。Lee et al。[ 35 ]使用卷积深层信度网络，以无监督的方式，如音乐流派分类的前道特征。结果表明，自动学习的特征明显优于MFCC。在Hamel等。（7）将深层信度网络用于音乐体裁分类和自动标注，其性能优于基于MFCC和MIM特征集。在[ 36, 37 ]中，汉弗莱等人。建议传统的两阶段机器学习过程——特征提取和分类/回归——同时进行。对一段音乐的节奏风格，Pikrakis运用工程特征代表的韵律特征DBN [ 38 ]。施密特等人。[ 39 ]发现，DBN容易优于基于音频内容的理解音乐的节奏和旋律的传统特色。其他类似稀疏编码的特征学习技术也开始应用于音乐任务中。在40中，采用稀疏编码的方法，以无监督的方式学习可解释的音频特征，并在音乐体裁分类中取得了良好的性能。

据我们所知，是由oorD等人几乎同时提出第一个基于深度学习的音乐推荐方法。[ 41 ]在去年。他们首先进行矩阵分解以获得所有歌曲的潜在特征，然后利用深层学习将音频映射到这些潜在特征。他们的方法和我们的方法的比较将在后面详述。

总之，除了“41”和所有混合方法之外，所有基于内容的音乐推荐方法都是基于传统特性，这些特性不是为音乐推荐而创建的。为了同时进行特征提取和推荐，我们将建立一个统一的纯内容推荐模型。我们还将展示自动学习的特征可以应用于我们的高效混合方法。

《利用深度学习改进基于内容和混合音乐推荐》论文阅读

摘要

介绍

相关工作

音乐推荐

深度学习在音乐中相关的任务

推荐模型

基于概率矩阵分解的协同过滤

猜你喜欢