Parámetros acústicos-frecuencia fundamental-estándar Librosa: definición textual de la frecuencia fundamental y extracción de la frecuencia fundamental de archivos wav con librosa

0. Descripción

Extraiga la frecuencia base de wav y mantenga los mismos superparámetros, así que use librosa

Referencia:  https://www.jianshu.com/p/ac1444495f75

https://www.cnblogs.com/LXP-Never/p/11561355.html

Gracias autor ~

1. Tono y frecuencia fundamental

2. Definición de frecuencia fundamental

3. Armónicos

Sobretonos == Armónicos

Según esto, el tono y el contenido se pueden desacoplar.

  • El primer formante, segundo formante ... como la posición, especialmente las posiciones relativas, determina el contenido pronunciar TODO necesita ser discutido | diferente resonancia armónica de vocales de diferentes múltiplos fortalecen diferente, también se refleja en parte las diferencias de tamaño relativo en energía
  • La altura de la frecuencia fundamental y la altura absoluta del formante también están relacionadas con el contenido de la pronunciación hasta cierto punto, pero el valor de frecuencia fundamental promedio del hablante debe restarse y luego mirar
  • La altura absoluta de la frecuencia fundamental humana, formante, etc., está relacionada con el timbre, como la diferencia de género, la diferencia en el rango F0
  • La posición relativa del formante, la información más grande es el contenido de pronunciación, pero el mismo contenido de pronunciación, habrá los hábitos de pronunciación y la estructura oral de todos, por lo que la información secundaria también tiene información de timbre. Esto es más similar a la identidad del hablante, características ASV
  • El verdadero "grueso, brillante, nítido, agradable" también se cuenta como un tono, pero también puede ser simulado por la misma persona, como el canto de novelas de varios personajes para un solo jugador, etc. La energía asignada por diferentes frecuencias formantes causar el sentido del oído. Personas y personas Existe una gran diferencia entre ellas, que también puede causar ASV
  • Por lo tanto, 1-Si la norma (0, 1) de la energía independiente de cada frecuencia se realiza para cada persona en el espectro mel, las características individuales de la voz pueden eliminarse hasta cierto punto y la información de pronunciación puede conservarse (esto es una buena idea, que involucra la posición y la ubicación (Energía) | Este proceso es equivalente a eliminar las características orales de la persona y agregar "agravación de la persona" a una pronunciación específica
  • Luego lo anterior, 2- Si puedes extraer la f0 y cada formante en cada momento, y normalizar estas posiciones con la posición de f0, también puedes quitar el timbre en cierta medida, y retener la información de pronunciación | | Este proceso es es equivalente a eliminar las características de las cuerdas vocales humanas y agregar "agravación humana" a una pronunciación específica

Haz una pregunta, todo el mundo tararea "tararea" en el coro, la misma tonalidad, usa esto para analizar

(

  • Tono: la diferencia en el timbre es causada por varias vibraciones, y su energía total es diferente en la distribución de energía de los niveles armónicos.

)

Respuesta:

Dejar que la gente tararee la misma palabra equivale a "degenerar" o "hacer analogías" con el violín. Todo el mundo es violín, pero los hombres y las mujeres, el tenor y el bajo, son violines de diferente naturaleza y tienen matices. Incluso si la energía distribución es la misma palabra, la distribución natural es diferente, pero la diferencia no es grande (en comparación con diferentes palabras para tararear).

Una pregunta más, ¿es la frecuencia y la posición del formante del ba que dicen los niños y el ba que las niñas dicen son iguales? ¿Es lo mismo después de que se requiere la norma, la estructura de las cuerdas vocales y la fuerza de los músculos del pecho son iguales? diferente

El significado de la línea horizontal en el gráfico: La línea horizontal indica que un cantante ha estado en un cierto tono durante un período de tiempo. La línea más brillante indica mayor amplitud y, por supuesto, el volumen del sonido es más alto

Una línea recta es un tono largo y recto. La estabilidad del tono largo y recto se investiga principalmente. Cuanto más recta es la línea, más estable es el tono largo. Si es una sacudida grande, romperá el sonido, si es una sacudida pequeña, será inestable. Si está torcido, significa que no está seguro acerca de TODO y necesita discutir

La línea ondulada es el vibrato. Cuanto mayor sea la onda, mayor será el vibrato. El vibrato también se basa en la estabilidad, si el vibrato es inestable, significa que hay un problema con la respiración y el control no es bueno.

3.1. Cómo observar y evaluar sobretonos / armónicos

  • Hay tres puntos principales para considerar los armónicos: rico o no; distribución; el volumen de armónicos. El sobretono de contraste es principalmente para mirar la comparación con la frecuencia fundamental. Debido a que el volumen del archivo de audio se puede ajustar, no tiene mucho sentido simplemente mirar el tamaño de los armónicos, es más práctico referirse a la frecuencia fundamental. (La resonancia de baja frecuencia depende del tipo de vocal. Cada vocal tiene sus propias características de resonancia específicas. En general, la frecuencia fundamental se ve menos reforzada por la resonancia)
  • En este ejemplo, el primer sobretono es enorme (sabrá si lo mira más, generalmente el primer sobretono es el más grande), y los tres sobretonos alrededor de 3000 también son muy fuertes

Otro método de observación es comparar con el acompañamiento. Cuanto más obvia es la línea vocal, más fuerte es la voz vocal y más penetrante es el acompañamiento. Después de que el autor tenga un ejemplo, lo omitiré ...

4. Descripción general de librosa

5. librosa extracto F0

https://librosa.org/doc/main/generated/librosa.pyin.html

 

y, sr = librosa.load(librosa.ex('trumpet'))
f0, voiced_flag, voiced_probs = librosa.pyin(y, fmin=librosa.note_to_hz('C2'), fmax=librosa.note_to_hz('C7'))
times = librosa.times_like(f0)


import matplotlib.pyplot as plt
D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)
fig, ax = plt.subplots()
img = librosa.display.specshow(D, x_axis='time', y_axis='log', ax=ax)
ax.set(title='pYIN fundamental frequency estimation')
fig.colorbar(img, ax=ax, format="%+2.f dB")
ax.plot(times, f0, label='f0', color='cyan', linewidth=3)
ax.legend(loc='upper right')

 

 

Supongo que te gusta

Origin blog.csdn.net/u013625492/article/details/112564667
Recomendado
Clasificación