音楽理論が理解できなくても、openvpi (Python3.10) に基づいて楽譜を選択し、mp3 を midi 楽譜に変換することができます。

いわゆる「楽譜拾い」とは、曲を聴いたり、演奏ビデオを見たりすることによって、音楽作品の楽譜やスコアを徐々に分析して復元するプロセスを指します。これは音楽を学習および演奏する一般的な方法であり、音楽愛好家、ミュージシャン、学生によってよく使用されます。

記譜の過程では、人々は音楽作品を注意深く聴き、それぞれの音、和音、リズムなどの要素を特定して記録し、試行錯誤と熟慮の繰り返しを通じて徐々に正確な楽譜やスコアを復元します。これは、正式な楽譜を持っていない人、または特定の曲を学びたい人にとって効果的な方法です。

記譜の目的は、音楽作品をよりよく理解して演奏し、テクニック、音楽の構造、芸術的表現を学ぶことです。しかし、音楽理論を理解していない人にとっては、音符やイントネーションを聞き取るのが難しいため、今回はopenvpiのオープンソースプロジェクトsomeを使用して、mp3ファイルを直接スコア化し、mp3をmidiファイルに変換しました。

プロジェクト構成

まずプロジェクトのクローンを作成します。

git clone https://github.com/openvpi/SOME.git

プロジェクト ディレクトリを入力します。

cd some

次に、プロジェクトの事前トレーニングされたモデルをダウンロードします。

https://pan.baidu.com/s/1lVQcKP7ijTELslJNgoDqkQ?pwd=odsm

2stems モデルは、プロジェクトの pretrained_models ディレクトリに配置されます。

ckpt モデルはプロジェクトの ckpt ディレクトリに配置されます。

ckpt ディレクトリと pretrained_models ディレクトリがない場合は、手動で作成してください。

次のように:

§───ckpt
│ config.yaml
│ model_ckpt_steps_104000_simplified.ckpt
§───pretrained_models
│ └───2stems
│ ._checkpoint
│ チェックポイント
│ モデル。 data-00000-of-00001
│ model.index
│ model.meta

このようにして、プロジェクトが構成されます。

BGM とボーカルの分離

スコアのピッキングは主にボーカル パートのため、spleeter の参加が必要です。spleeter については、次を参照してください。人工知能 AI ライブラリ Spleeter 無料のボーカルと BGM の分離練習(Python3. 10) については、紙面の都合上、ここでは詳しく説明しません。

注文の実行:

spleeter separate -p spleeter:2stems -o ./output ./test.mp3

ここで使用される 2stems モデルは上記でダウンロードされ、プロジェクトの pretrained_models ディレクトリに配置されています。

出力ディレクトリがない場合は手動で作成してください test.mp3 は記譜が必要な音楽ファイルです。

バックグラウンドミュージックのaccommodation.wavとボーカルvocals.wavが、それぞれプロジェクトの出力ディレクトリに出力されます。

├───output  
│   └───test  
│           accompaniment.wav  
│           vocals.wav

音声のノイズ除去

通常の状況では、分離された人間の音声にはミキシングなどのノイズが含まれている可能性があり、変換効果に影響を及ぼします。

ここではノイズリダクションに Noisereduce が使用されています。

pip install noisereduce

ノイズ低減コードを記述します。

from scipy.io import wavfile  
import noisereduce as nr  
# load data  
rate, data = wavfile.read("./output/test/vocals.wav")  
# perform noise reduction  
reduced_noise = nr.reduce_noise(y=data, sr=rate)  
wavfile.write("./output/test/vocals.wav", rate, reduced_noise)

実行後、ボーカルファイル「vocals.wav」がノイズ低減のために書き換えられます。

パウプ(wavをmidiに変換)

次に、コマンドを実行して変換します。

python infer.py --model ./ckpt/model_ckpt_steps_104000_simplified.ckpt --wav ./output/test/vocals.wav

プログラムは以下を返します:

python infer.py --model ./ckpt/model_ckpt_steps_104000_simplified.ckpt --wav ./output/test/vocals.wav  
accumulate_grad_batches: 1, audio_sample_rate: 44100, binarization_args: {'num_workers': 0, 'shuffle': True}, binarizer_cls: preprocessing.MIDIExtractionBinarizer, binary_data_dir: data/some_ds_fixmel_spk3_aug8/binary,  
clip_grad_norm: 1, dataloader_prefetch_factor: 2, ddp_backend: nccl, ds_workers: 4, finetune_ckpt_path: None,  
finetune_enabled: False, finetune_ignored_params: [], finetune_strict_shapes: True, fmax: 8000, fmin: 40,  
freezing_enabled: False, frozen_params: [], hop_size: 512, log_interval: 100, lr_scheduler_args: {'min_lr': 1e-05, 'scheduler_cls': 'lr_scheduler.scheduler.WarmupLR', 'warmup_steps': 5000},  
max_batch_frames: 80000, max_batch_size: 8, max_updates: 10000000, max_val_batch_frames: 10000, max_val_batch_size: 1,  
midi_extractor_args: {'attention_drop': 0.1, 'attention_heads': 8, 'attention_heads_dim': 64, 'conv_drop': 0.1, 'dim': 512, 'ffn_latent_drop': 0.1, 'ffn_out_drop': 0.1, 'kernel_size': 31, 'lay': 8, 'use_lay_skip': True}, midi_max: 127, midi_min: 0, midi_num_bins: 128, midi_prob_deviation: 1.0,  
midi_shift_proportion: 0.0, midi_shift_range: [-6, 6], model_cls: modules.model.Gmidi_conform.midi_conforms, num_ckpt_keep: 5, num_sanity_val_steps: 1,  
num_valid_plots: 300, optimizer_args: {'beta1': 0.9, 'beta2': 0.98, 'lr': 0.0001, 'optimizer_cls': 'torch.optim.AdamW', 'weight_decay': 0}, pe: rmvpe, pe_ckpt: pretrained/rmvpe/model.pt, permanent_ckpt_interval: 40000,  
permanent_ckpt_start: 200000, pl_trainer_accelerator: auto, pl_trainer_devices: auto, pl_trainer_num_nodes: 1, pl_trainer_precision: 32-true,  
pl_trainer_strategy: auto, raw_data_dir: [], rest_threshold: 0.1, sampler_frame_count_grid: 6, seed: 114514,  
sort_by_len: True, task_cls: training.MIDIExtractionTask, test_prefixes: None, train_set_name: train, units_dim: 80,  
units_encoder: mel, units_encoder_ckpt: pretrained/contentvec/checkpoint_best_legacy_500.pt, use_buond_loss: True, use_midi_loss: True, val_check_interval: 4000,  
valid_set_name: valid, win_size: 2048  
| load 'model' from 'ckpt\model_ckpt_steps_104000_simplified.ckpt'.  
100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.66it/s]  
MIDI file saved at: 'output\test\vocals.mid'

変換されたピアノ メロディー MIDI ファイルは出力ディレクトリに保存されます。直接ダブルクリックして再生することも、コードを通じて再生することもできます。

''' pg_midi_sound101.py  
play midi music files (also mp3 files) using pygame  
tested with Python273/331 and pygame192 by vegaseat  
'''  
import pygame as pg  
def play_music(music_file):  
  '''  
  stream music with mixer.music module in blocking manner  
  this will stream the sound from disk while playing  
  '''  
  clock = pg.time.Clock()  
  try:  
    pg.mixer.music.load(music_file)  
    print("Music file {} loaded!".format(music_file))  
  except pygame.error:  
    print("File {} not found! {}".format(music_file, pg.get_error()))  
    return  
  pg.mixer.music.play()  
  # check if playback has finished  
  while pg.mixer.music.get_busy():  
    clock.tick(30)  
# pick a midi or MP3 music file you have in the working folder  
# or give full pathname  
music_file = r"D:\work\YiJianBaPu\output\test\vocals.mid"  
#music_file = "Drumtrack.mp3"  
freq = 44100  # audio CD quality  
bitsize = -16  # unsigned 16 bit  
channels = 2  # 1 is mono, 2 is stereo  
buffer = 2048  # number of samples (experiment to get right sound)  
pg.mixer.init(freq, bitsize, channels, buffer)  
# optional volume 0 to 1.0  
pg.mixer.music.set_volume(0.8)  
try:  
  play_music(music_file)  
except KeyboardInterrupt:  
  # if user hits Ctrl/C then exit  
  # (works only in console mode)  
  pg.mixer.music.fadeout(1000)  
  pg.mixer.music.stop()  
  raise SystemExit

結論

著者は元のプロジェクトをフォークし、ボーカル分離とノイズリダクションの機能を追加し、事前トレーニングされたモデルを統合して人々と共有しました。

https://github.com/v3ucn/YiJianBaPu

おすすめ

転載: blog.csdn.net/zcxey2911/article/details/134423023