Kaldi阅读并更改代码

Common utilities

base/kaldi-common.h

几乎所有Kaldi程序都会include该头文件。

该头文件include了一些其他位于base/目录的头文件，主要提供：

错误-日志宏
类型定义（typedefs）
数学实用程序函数（如随机数生成器）
其他#defines

util/common-utils.h

命令行参数解析

I/O函数（处理带管道的文件名）

ark列表处理

列表类型

字符串转换

gmm/model-common.h

GMM/SGMM的枚举，如：模型哪些部分需要更新

gmm/diag-gmm.h

单个GMM的定义，对GMM的操作，包括：

调整混合组元数以及特征维数

复制

高斯采样

扰动

分裂

合并

对组元的增、删、改、读写

似然计算

根据数据选择似然最高的组元

private:

/// GMM Constant（对数高斯混合模型概率密度函数中的常量）

/// 即 log(weight) - 0.5 * (log det(var) + mean*mean*inv(var))

Vector<BaseFloat> gconsts_;

bool valid_gconsts_; ///< Recompute gconsts_ if false

gmm/am-diag-gmm.h

该类仅储存了一个GMM列表，以及定义了一些存取函数和便捷函数。

std::vector<DiagGmm*> densities_;

矩阵库

matrix/matrix-lib.h

该头文件是对BLAS和LAPACK的封装

sp-matrix.h

压缩的对称矩阵（symmetric packed matrices）

tp-matrix.h

压缩的上下三角矩阵（triangular packed matrices）

srfft.h

分裂基快速傅里叶变换（Split Rafix FFT）

matrix/kaldi-matrix.h

矩阵定义、矩阵运算，tutorial

在文件matrix/matrix-lib-test.cc中添加一个测试函数。如前所述，如果出现问题，测试程序将被设计为以非零状态中止或退出。

我们将为Vector::AddVec函数添加一个测试例程。该函数将一个常量乘以一个向量，并加到另一个向量中。仔细阅读下面的代码，尽可能多地理解它（请注意：我们故意在代码中插入了两个错误）。如果你对模板不熟悉，理解它可能会很困难。我们尽量避免使用模板，因此Kaldi的大部分内容在不知道模板编程的情况下仍然可以理解。

template<class Real>

void UnitTestAddVec() {

// note: Real will be float or double when instantiated.

int32 dim = 1 + Rand() % 10;

Vector<Real> v(dim); w(dim); // two vectors the same size.

v.SetRandn();

w.SetRandn();

Vector<Real> w2(w); // w2 is a copy of w.

Real f = RandGauss();

w.AddVec(f, v); // w <-- w + f v

for (int32 i = 0; i < dim; i++) {

Real a = w(i), b = f * w2(i) + v(i);

AssertEqual(a, b); // will crash if not equal to within

// a tolerance.

}

特征提取代码

feat/feature-mfcc.h

数据成员有：

// lifter系数

Vector<BaseFloat> lifter_coeffs_;

// 离散余弦变换（Discrete Cosine Transformation）矩阵

Matrix<BaseFloat> dct_matrix_; // matrix we left-multiply by to perform DCT.

// 最小对数能量

BaseFloat log_energy_floor_;

// 梅尔滤波器组，声道长度归一化系数

std::map<BaseFloat, MelBanks*> mel_banks_; // BaseFloat is VTLN coefficient.

// 分裂基傅里叶变换

SplitRadixRealFft<BaseFloat> *srfft_;

// note: mel_energies_ is specific to the frame we're processing, it's

// just a temporary workspace.

// 当前帧的梅尔能量

Vector<BaseFloat> mel_energies_;

以及特征计算函数

声学决策树以及HMM拓扑代码

tree/build-tree.h

决策树构建主要是由BuildTree函数实现：

EventMap *BuildTree(...)

其返回值EventMap是一个能够表示从EventType（(key, value)二元组向量）到EventAnswerType（整数）的映射。

key表示音素上下文位置（如，-1、0、1或2）；

其中-1表示当前位置位于该HMM中（粗略的位置）

value表示音素的标识符；

BuildTree()函数的输入数据为

const BuildTreeStatsType &stats,

其类型BuildTreeStatsType：

typedef vector<pair<EventType, Clusterable*> > BuildTreeStatsType;

其中的EventType：

typedef vector<pair<EventKeyType, EventValueType> > EventType;

EventType是三音素标识符，如{{-1, 1},{0, 15},{1, 21},{2, 38}}表示左上文音素为15、右下文音素为38的三音素21，并且其pdf-class（中间状态的标识符）为1。

Clusterable* 是指向一个接口类，支持如统计数据相加、目标函数（如似然）计算的运算。

在常见的脚本中，该指针通常指向一个统计数据类。

该类包含足够的用于估计对角高斯pdf的统计数据。

如：

class GaussClusterable: public Clusterable{

private:

Matrix<double> stats_;//两行的矩阵，一行为向量之和，一行为向量的平方和

}

在进行accumlate tree时，为三音素中的每个HMM状态（即pdf-class）统计单高斯的统计数据。

-ci-phones选项（该选项是优化项，不加也可）用于指定无需进行数据统计的上下文无关音素（如静音音素）。

该程序的输出可以被看作是上述的BuildTreeStatsType。

Kaldi阅读并更改代码

猜你喜欢