1.中国のNLP完全な機械処理の流れ

まず、私たちはNLPが含ま技術的な知識を理解するためのマップを渡し、この図は、発現解析対象と二つの異なる寸法の内容の分析から来ます。

ここでは、画像の説明を入力します。

人々の機械学習経験がのが何をするのか、中国の自然言語処理の基礎コースを見てみましょう、中国の自然言語処理と機械のプロセスが広く一貫したプロセスを学ぶことを知っているが、詳細には多くの異なる点がありますありますか?

コーパスを取得します。

コーパス、その言語材料。コーパス言語学は、研究の内容です。コーパスは、コーパスを構成する基本単位です。だから、人々は単に代替テキスト、およびコンテキストに代わるものとして、実世界の言語の文脈でのテキストとして使用します。我々は、テキストのようないくつかのコレクションが存在する場合には、我々は(コーパス)コーパスコレクションを呼び出し、コーパス(コーパス)と呼ばれるテキストのセットを置きます。(出典定義:Baiduの百科事典)を元コーパスによって、我々のコーパスは、次の2つに分割されます。

1.既存のコーパス

多くの企業、企業や事業開発と他の組織では、紙ベースまたは電子テキストデータの多数の蓄積になります。だから、私たちに少し統合を可能にする条件下で、これらの材料のために、完全に電子ペーパーのテキストは、私たちのコーパスとして使用することができます。

2.ダウンロード、グラブコーパス

手は今いない場合はどのように個人データにそれを行うには?今回は、こうした中国国内の中国そごうコーパス、人民日報コーパスなどのオープンデータセットの国内および国際的な基準を得るために選択することができます。ほとんどがここに外国人英語や外国語、ので未満であること。また、いくつかのデータをつかむし、その後のフォローアップ内容をする爬虫類自分で選択することができます。

コーパス前処理

ここでは事前にコーパスが50%を占めるだろうだろう-70作品全体の%を、完全に中国の自然言語処理技術の応用では、どのようなコーパスの前処理に焦点を当てるので、開発者の意志で最も時間の事前コーパス中。コーパス前処理を完了するために4つの主要な側面の単語を無効にするには、以下のデータ、セグメンテーション、POSタグ付け、によってクリアされます。

1.コーパスクリーニング

名前が示すように、データクレンジングは、我々はコーパスに興味を持っているものを見つけるためにある、関心はクリーニングのノイズ成分とみなされていないオリジナル・タイトル用のテキスト抽出を含め、削除、ウェブコンテンツのクロールするための抽象、テキストやその他の情報、削除広告、タグ、HTML、JSなど、コードとコメント。音声および固有表現抽出、書き込みスクリプトまたはバッチコードなどに応じて、手動の重複除外、ALIGN、削除、および寸法、または規則、正規表現マッチングの内容を抽出:方法クレンジング共通のデータです。

2.セグメンテーション

中文语料数据为一批短文本或者长文本,比如:句子,文章摘要,段落或者整篇文章组成的一个集合。一般句子、段落之间的字、词语是连续的,有一定含义。而进行文本挖掘分析时,我们希望文本处理的最小单位粒度是词或者词语,所以这个时候就需要分词来将文本全部进行分词。

常见的分词算法有:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法,每种方法下面对应许多具体的算法。

当前中文分词算法的主要难点有歧义识别和新词识别,比如:“羽毛球拍卖完了”,这个可以切分成“羽毛 球拍 卖 完 了”,也可切分成“羽毛球 拍卖 完 了”,如果不依赖上下文其他的句子,恐怕很难知道如何去理解。

3.词性标注

词性标注,就是给每个词或者词语打词类标签,如形容词、动词、名词等。这样做可以让文本在后面的处理中融入更多有用的语言信息。词性标注是一个经典的序列标注问题,不过对于有些中文自然语言处理来说,词性标注不是非必需的。比如,常见的文本分类就不用关心词性问题,但是类似情感分析、知识推理却是需要的,下图是常见的中文词性整理。

常见的词性标注方法可以分为基于规则和基于统计的方法。其中基于统计的方法,如基于最大熵的词性标注、基于统计最大概率输出词性和基于 HMM 的词性标注。

4.去停用词

停用词一般指对文本特征没有任何贡献作用的字词,比如标点符号、语气、人称等一些词。所以在一般性的文本处理中,分词之后,接下来一步就是去停用词。但是对于中文来说,去停用词操作不是一成不变的,停用词词典是根据具体场景来决定的,比如在情感分析中,语气词、感叹号是应该保留的,因为他们对表示语气程度、感情色彩有一定的贡献和意义。

特征工程

做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。显然,如果要计算我们至少需要把中文分词的字符串转换成数字,确切的说应该是数学中的向量。有两种常用的表示模型分别是词袋模型和词向量。

词袋模型(Bag of Word, BOW),即不考虑词语原本在句子中的顺序,直接将每一个词语或者符号统一放置在一个集合(如 list),然后按照计数的方式对出现的次数进行统计。统计词频这只是最基本的方式,TF-IDF 是词袋模型的一个经典用法。

词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,其主要包含两个模型:跳字模型(Skip-Gram)和连续词袋模型(Continuous Bag of Words,简称 CBOW),以及两种高效训练的方法:负采样(Negative Sampling)和层序 Softmax(Hierarchical Softmax)。值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量的表示方式,如 Doc2Vec、WordRank 和 FastText 等。

特征选择

同数据挖掘一样,在文本挖掘相关问题中,特征工程也是必不可少的。在一个实际问题中,构造好的特征向量,是要选择合适的、表达能力强的特征。文本特征一般都是词语,具有语义信息,使用特征选择能够找出一个特征子集,其仍然可以保留语义信息;但通过特征提取找到的特征子空间,将会丢失部分语义信息。所以特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择。目前,常见的特征选择方法主要有 DF、 MI、 IG、 CHI、WLLR、WFO 六种。

模型训练

在特征向量选择好之后,接下来要做的事情当然就是训练模型,对于不同的应用需求,我们使用不同的模型,传统的有监督和无监督等机器学习模型, 如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。这些模型在后续的分类、聚类、神经序列、情感分析等示例中都会用到,这里不再赘述。下面是在模型训练时需要注意的几个点。

1.注意过拟合、欠拟合问题,不断提高模型的泛化能力。

过拟合:模型学习能力太强,以至于把噪声数据的特征也学习到了,导致模型泛化能力下降,在训练集上表现很好,但是在测试集上表现很差。

常见的解决方法有:

  • 增大数据的训练量;
  • 增加正则化项,如 L1 正则和 L2 正则;
  • 特征选取不合理,人工筛选特征和使用特征选择算法;
  • 采用 Dropout 方法等。

欠拟合:就是模型不能够很好地拟合数据,表现在模型过于简单。

常见的解决方法有:

  • 添加其他特征项;
  • 增加模型复杂度,比如神经网络加更多的层、线性模型通过添加多项式使模型泛化能力更强;
  • 减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

2.对于神经网络,注意梯度消失和梯度爆炸问题。

评价指标

训练好的模型,上线之前要对模型进行必要的评估,目的让模型对语料具备较好的泛化能力。具体有以下这些指标可以参考。

1.错误率、精度、准确率、精确度、召回率、F1 衡量。

错误率:是分类错误的样本数占样本总数的比例。对样例集 D,分类错误率计算公式如下:

精度:是分类正确的样本数占样本总数的比例。这里的分类正确的样本数指的不仅是正例分类正确的个数还有反例分类正确的个数。对样例集 D,精度计算公式如下:

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(True Positive)、假正例(False Positive)、真反例(True Negative)、假反例(False Negative)四种情形,令 TP、FP、TN、FN 分别表示其对应的样例数,则显然有 TP+FP++TN+FN=样例总数。分类结果的“混淆矩阵”(Confusion Matrix)如下:

ここでは、画像の説明を入力します。

准确率,缩写表示用 P。准确率是针对我们预测结果而言的,它表示的是预测为正的样例中有多少是真正的正样例。定义公式如下:

ここでは、画像の説明を入力します。

精确度,缩写表示用 A。精确度则是分类正确的样本数占样本总数的比例。Accuracy 反应了分类器对整个样本的判定能力(即能将正的判定为正的,负的判定为负的)。定义公式如下:

召回率,缩写表示用 R。召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确。定义公式如下:

F1 衡量,表达出对查准率/查全率的不同偏好。定义公式如下:

ここでは、画像の説明を入力します。

2.ROC 曲线、AUC 曲线。

ROC 全称是“受试者工作特征”(Receiver Operating Characteristic)曲线。我们根据模型的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。在这一过程中,每次计算出两个重要量的值,分别以它们为横、纵坐标作图,就得到了 ROC 曲线。

ROC 曲线的纵轴是“真正例率”(True Positive Rate, 简称 TPR),横轴是“假正例率”(False Positive Rate,简称FPR),两者分别定义为:

ROC 曲线的意义有以下几点:

  1. ROC 曲线能很容易的查出任意阈值对模型的泛化性能影响;
  2. 有助于选择最佳的阈值;
  3. 可以对不同的模型比较性能,在同一坐标中,靠近左上角的 ROC 曲所代表的学习器准确性最高。

2つのROC曲線が交差しない場合、我々はそのカーブに応じて、それの最高を表し、曲線左上隅性能に最も近いを学ぶことができます。ROC曲線は、2羽のモデルを越えた場合、状況は非常に複雑であり、実際のタスクが発生した。しかし、両方の一般的な方が良い主張することは困難です。この時点で比較しなければならない場合には、合理的な判断ROC曲線下面積の比較に基づいて、すなわちAUC(下面積ROC曲線)。

これは、ROC曲線下面積AUC、学習者のパフォーマンスのメリットの尺度です。AUCは、2クラスモデルのメリットを評価する尺度であり、負の前列例の確率を予測するための正例です。

以前の私たちは、語らその後、マルチ分類問題の実際のニーズとのROC曲線は、より一般的な「1対多」の問題への場合は、バイナリ分類問題のためのものです。すなわち、正の1の実施形態として、ROC曲線の複数を見て負例として残って描かれています。

モデルのオンラインアプリケーション

オンラインアプリケーション、モデルの持続性へのサービスやアプリケーションを提供するために、現在主流の方法をモデル化します。

最初の行は、モデルは、ビジネス・システムのためのインタフェースのサービスを公開するために、オンライン展開を行われ、次のトレーニングモデルです。

第二は、オンライントレーニング、永続的な、そしてオンラインサービス・インタフェース・テンプレートとピクルスを読み取ることによって、インターフェースサービスを変更ピクルスモデルの完了後にオンライントレーニングです。

おすすめ

転載: www.cnblogs.com/chen8023miss/p/11971238.html