ドキュメントノート:ポリシーは、機械学習の材料科学小さなデータセットに適用され、材料科学の小さなデータセットに機械学習を適用するための戦略

機械学習の材料科学小さなデータセットで使用される一つの戦略

要約:材料科学の研究データセットの小型化と多様化は、機械学習に困難にします。本論文では、素材データの機械学習モデルの予測可用性と容量の間の基本的な相互作用を分析します。// データの量の影響を直接モデルの精度に影響されず、自由度によって調節される(DOF)モデルは、精度と自由度をもたらす現象の間に相関があります。マークDOF関連する精度の出現は、それによって、未知の領域を予測する正確拘束、大きな予測誤差特性に表示さに起因する問題を嵌め込みます。本稿では、MLコスト自由度を増大させることなく、モデルの予測精度を確立し、小さなデータサイズで特徴空間における追加のプロパティの粗推定値、材料が提案されています。

 

はじめに:

  包括的な分析素材データの可用性およびMLモデルの予測能力との間の相互作用は、現在ある仕事の焦点。

  本論文では、研究では、重要な現象を明らかにしたモデルが限定されたデータ利用できるトレーニング教材を使用した場合:自由度の高いコストの精度を向上させることにある自由のモデル度との間のリンク(DOF)と予測精度を、 。精度-統計的な偏りによる結社の自由の出現、 -分散トレードオフ、未知の領域の予測の精度を制限します。

  前提を増大させることなく、自由度は、提案された機能スペース属性(CEP)法に基づいて概算したアルゴリズムの精度を向上させます3ケーススタディでは、集積の概算は、効果的に提案された戦略の正確なML小さなモデルを構築するためにデータを使用して、材料の汎用性を実証し、MLモデルの予測精度を向上させます。

 

結果:

  研究方法:Wardらの方法を用いて、可能な記述子として手作り化学一連のパラメータを使用して。それは予測の最小標準誤差として、他のMLアルゴリズムで提供しますので、我々は、MLモデルを構築するために、核リッジ回帰(KRR)を使用します。訓練データのサイズ、全体データからランダム集中のサブセットを操作します。データセットの拡大に​​伴い、CV-RMSEを期待して減少を続けています。

  大RMSEの起源を理解するために、我々は、使用された予測誤差にブートストラップ法のバイアスと分散分解の寄与を。(少し)

  モデルの精度は密接にモデルの自由度、高い相関を示す性能と訓練データの両方に関連して改善します。

  MLを選択する方法をテストするために、モデルのデータサイズの精度が確立最小絶対収縮および選択オペレーター(LASSO)回帰でモデルを解析するために、衝撃の結論に影響を与えます。低い精度は、複雑な物理的および線形回帰アルゴリズムをキャプチャするために失敗することができます。これらの結果は、訓練のために小型モデル素材データを使用してではなく、唯一の観察を返すように選択される方法に依存する場合、精度自由度は、共通の統計的現象と関連していることを示しています。

  自由度の関連を統計的基礎で始まったが、その精度は単に統計的な現象ではありませんが。関連付けは下フィッティングの結果であるので、予測誤差が大きく、正確な予測ルールの確立を妨げる大きなバイアス特性によって制御されるからです。上記の研究では、最良のモデルは、現代の密度汎関数理論は、例えば、予測のパフォーマンスよりもさらに悪くなります。そのため、自由度を増加させない前提の下で、モデルの精度を向上させる方法は、MLパフォーマンスモデリング材料における大きな課題となっています。

 

戦略:

  原理的には、適切なトレーニングデータを操作することで精度の向上を達成することが可能です。たとえば、私たちは自然にトレーニングセットに、より多くの例を追加することを検討することができます。しかし、単純にデータセットだけでなく、非常に複雑なモデルにつながる拡大することは物理的に埋め込ま説明するのは難しいですが、また、高価な実験の追加費用によって妨げられる可能性があります。図1に確立経験的関係、データ増加量を倍増は、誤差は約23%低減されます。したがって、指数関数的成長の可能性のコストは、新しい素材データを追加することによって、精度を向上させるために挑戦します。このような半導体部品や結晶構造の固定のエネルギーバンドギャップよりもむしろ広い空間モデリング横切って化学化合物を有する基の予測として、コンフィギュレーション空間の制約材料によってモデル化することができます。従って、ML-推定器は、より高い精度を得るように構成されたが、汎用性を犠牲にして有限体の外側に適用された場合。

  、トレーニングデータの貧弱な柔軟性を考慮した空間の設計上の特徴から右モデリング、マテリアルインフォマティクスは、認識の重要なステップです。元の分析の後、私たちは明らかに、単一の機能によって識別される属性の簡単なおもちゃのモデルを想定してみましょう。この場合、一度の特別な特徴は、トレーニングデータは、2つのサンプルのみが含まれていても、関連する精度が消えるはずです、モデリングに含まれています。         したがって、我々の意図は、このような低次元かつ安価な買収など会う他の要件を満たす//(1)の機能を設計(推定値が正確ではないかもしれないが)の特性を推定できるように、情報の発現を提供し、//(2)することですコスト。上の配慮の1に基づいて、我々は、材料特性は何世紀も前時代だった予測その自分自身を思い出させます。経験的な推定値は正確に絶対的に予測できないかもしれないが、それはまだ対象財産の少なくとも定性的な知識で提供することができます。適した特徴空間の構築に任意のアカウントにターゲットプロパティの事前知識を取る必要がありますので、我々は、MLモデルにおける化学CEP記述子記述するように使用します。

 

  为了更精确地描述所提出的策略,我们将CEP定义为使用不太精确的方法(包括零或接近零的计算要求计算、经验模型和不昂贵的实验测量)预测目标属性。有了这个定义,CEP的使用满足了获取成本低廉的考虑2。

  我们的想法是将CEP与之前使用的化学描述符结合起来,来预测目标属性。在以前的报告中,PBE计算的带隙,这是不准确的,但也较低的计算要求,用于预测更准确和更昂贵的水平计算的带隙。虽然早期作品的成功部分有关的事实描述符和属性都是获得使用类似的基础理论,我们证明在当前工作的使用CEP的描述符提高预测实验测量特性,模型性能的强烈影响的大噪声包含在训练集。

  此外,我们的研究表明,获得CEP的方法不仅限于密度泛函计算,而且可以推广到其他不昂贵的方法。在以下部分中,我们构建毫升模型三个练习:如使用GGAcalculated值的预测CEP,晶格热导率(κL)使用经验模型来获得CEP和弹性性能的沸石使用力场计算获得CEP。在这三项研究中,通过将CEP整合到特征空间中,ML模型都获得了最先进的预测能力,证明了用少量可用材料数据构建精确ML模型的策略的通用性。

 

应用:

  我们将案例研究的结果汇总在表1中。所有这些研究都利用了现有的约100个例子的数据集,在我们看来,这是一个将ML应用于材料研究的下限。虽然这些研究在数据来源、获取CEP的方法、选择适当特征的算法和回归方法方面有所不同,但在将CEP作为描述符的附近,预测能力得到了有效的提高,其比例误差远远低于上述调查中观察到的趋势,证明了该策略在利用少量可用材料数据构建精确的ML模型方面的能力。

  重要的是,所提出的策略的成功依赖于CEP和属性的统计关系,而不需要对目标属性本身进行足够准确的估计,这为设计合适的描述符设置了最小的障碍。考虑到大量的模型和方法来经验地预测材料的性能,我们乐观地认为,我们提出的策略允许一个通用的解决方案来桥接机器学习技术和材料科学家的传统智慧,以创建更好的预测模型。

 

  许多材料特性的数量通常在一到几百个之间,因此在试图建立ML模型时需要特别小心。目前的工作是研究数据量和预测精度之间的基本相互作用.我们证明了数据量的影响不是直接影响精度,而是由模型DoF来调节的,当模型在有限的材料数据可用性下进行训练时,会产生精度- DoF关联。精度-自由度关联的出现是统计欠拟合的信号,具有较大的预测偏差,限制了未知域的预测能力。提出了一种将CEP作为描述符的方法,利用小材料数据建立精确的ML模型。

  在三个案例研究中,粗估计的使用有效地提高了ML模型的预测能力到最新水平,证明了所提出的使用小材料数据构建精确ML模型的策略的通用性。

 

方法:

一,数据准备

1.属性数据集(略)

2.属性的粗略估计(略)

3.化学描述符:

  按照Ward等人的方法,将34个指纹型化学描述符分为以下几类:(1)化学计量属性,包括元素的重量百分比和原子百分比;(2)元素性质包括电负性、原子半径、有效核电荷、范德华半径、共价半径、周期表行数、块数、气态原子生成焓、电离能、价数;(3)化合物描述符,包括分子量、密度、体积、配位数、原子序数密度;(4)电子结构贡献。利用特征选择算法选择最优特征子集。

二,机器学习

1.回归    KRR LASSO

2.特征选择

  套索回归(LASSO)的模型是由不同的调优参数λ的收缩选择一个子集非零系数CV误差降到最低。

  在KRR中,使用逐步向前搜索过程来选择特征。逐步前向搜索从零特征开始,迭代地寻找下一个最大减少CV错误的特征。当不能通过添加新特性来减少CV错误时,搜索停止。

3.调解分析

  调解分析按照传教士和Kelly的方法进行,使用基于普通最小二乘回归分析的MBESS软件包在R中计算.

おすすめ

転載: www.cnblogs.com/vangaohao/p/12172481.html