2023 年の第 4 回 MathorCup College 数学モデリング チャレンジ - ビッグデータ コンペティションの問題 B の問題解決アイデア

7 日間の馬杯ビッグデータ チャレンジは予定どおり開始されました。質問 B をより深く理解できるように、質問 B を解くための予備的なアイデアをここに示します。

トラック B: E コマース小売業者の需要予測と在庫最適化の問題

馬杯大会は予選と準決勝に分かれているため、問題 B については、全員が予測に関する問題のみを見て、最適化に関する問題は見ませんでした。質問にある在庫の最適化も含めて、このコンペでは読む必要はまったくありません。これにより、このコンテストの難易度も大幅に軽減されました。以下は、このコンテストにおける問題 B の問題解決アイデアの詳細な分析です。

データ! ! ! ! (データクリーニング+データ可視化)

データの問題に関して言えば、最初のステップは問題を解決することではなく、データを前処理することであることに注意してください。この質問では、このような巨大なデータセットには外れ値や欠損値が含まれている必要があります。したがって、7 日間の競技期間に基づいて、誰もが 1 ~ 2 日をかけて、特に外れ値を探すことができます。

ここでのデータに関して、私は 2 つのアイデアを提供しますが、これはこのコースで強調されてきた 2 つの方向でもあります。 2 つ目は、論理的な異常です。限界値とは主に、指定されたデータの需要が大きな値または 0 を持つ状況を指します。これら 2 つの極端な値はどのように処理されるべきでしょうか?私の最初のアイデアは、これら 2 つの最大値について議論し、結果を削除することです。次に、線形補間が塗りつぶしに使用されます。

値 0 については、データを分析すると、そのような最小値が多数あることが大まかにわかり、必要なテキストの説明が提供されます。この種のデータは異常なデータであるが、実態と一致していると説明できれば十分です。

論理的異常の場合、たとえば、コンピューターまたはオフィスの販売業者がペットを販売します。これは異常なデータであることは間違いなく、処理が必要です。ただし、この種の論理異常の難点は、直接見ることができないため、注意深く検索するか、検索関数に制約を設定して検索する必要があり、より複雑です。

これは大まかに言うと、データの前処理のためのデータクリーニングです。データのエンコード処理の一部もあります。つまり、マーチャントのエンコードを例にすると、これらの変換されたデータに対して後続の処理を実行する必要があります。ここでは、データのエンコード方法を設定する必要があります。通常、デフォルトの方法は、エンコードを実行することです。以下に示すシーケンス。 SPSSPRO を使用して、ここで簡単に生成できます。後ほど動画でも解説します。

この問題についての最初の考え

データ処理がほぼ完了すると、問題は解決されます。以下は、質問 1、2、および 3 に対する予備的なアイデアです。

質問 1 では、付録 1-4 のデータを使用して、2023 年 5 月 16 日から 2023 年 5 月 30 日までの各倉庫における各販売者の製品の需要を予測し、モデルの予測パフォーマンスを評価します。

データ分析とモデリングのプロセスに従って、同じカテゴリの需要特性が最も類似するように、販売者、倉庫、商品によって形成されたこれらの時系列をどのように分類すればよいでしょうか?

質問 1 は 2 つの質問として理解することも、1 つの方法で解くこともできます。質問 1 では、販売者、倉庫、商品によって形成される時系列を予測し、分類する方法が求められます。データを分析すると、1996 年の製品の組み合わせに対して毎日需要があることがわかります。 1996 個の異なる組み合わせについて、すべてを予測することは不可能です。つまり、確立された予測モデルには for ループ 1996 が必要です。この構成では、7 日かかってもコードを完成させるのは困難です。したがって、いくつかの類似した特性に基づいて分類し、要件に関する同じカテゴリの特性が最も類似するように同じカテゴリを結合する必要があります。さまざまなカテゴリに基づいて予測を行います。これにより、予測の作業負荷が大幅に軽減されます。

相関分析モデルが使えると思います. このモデルはコースの 5 番目のレッスンで説明されました. コースの無料バージョン、コースの上級バージョン、またはオンラインでの独学を選択できます。ここで私の提案は、人物相関分析を直接使用し、分類の需要との相関係数を選択し、分類モデリングを実行することです。 (注: 高度な分類モデルを選択することもできます。提供された情報には、分類と識別の高度な方法も多数あります。これらの高度な方法を分類に使用できます)

適切な指標を選択した後、販売者コード、商品コード、倉庫コード、日付、出荷量(需要と見なすことができます)を実行できますが、予測を行う前に特定のメカニズム分析を覚えておく必要があります。ご存知のとおり、結果を取得する 4 つのデータは独立したものではなく、それらの間には一定の関係があります。したがって、これら 4 つの指標について相関分析を行うことができ、特定の関数式が得られた上で予測を行うことができます。

メカニズムの分析のために、散布図、相関分析、線形または部分線形フィッティングを描画できます。

このようなグラフを描くことでメカニズムを解析し、複数の予測値間の関係式を構築します。

予測モデルの選択については、以下の表を参考に、ご自身の能力に応じて適切な予測モデルを選択してください。

私が常に推奨している最適化モデルに基づいて加重予測モデルを選択することもできます。

メカニズム解析から導き出される関係式に基づいて予測が行われます。

質問 2。これらの新たな予測ディメンションが、過去の添付ファイルのデータを通じてどのように参照されるかについて説明してください。 1、検索

同様のシーケンスに移動し、 2023 年 5 月 16 日から 2023 年 5 月 30 日までのこれらのディメンションの予測値を完成させます。予想結果を結果表2に記入し、対戦プラットフォームにアップロードしてください。

質問 1 で確立した分類モデルを使用し、質問 2 の付録 5 のデータを再分類および判断に導入し、質問 1 と同じ予測モデルを使用して予測を行ってみてください。

質問 3: 毎年 6 月には定期的に大規模なプロモーションが行われます 。これは、需要の正確な予測と契約履行に大きな課題をもたらします。添付資料 6 は、昨年のダブル イレブン期間中の添付資料 1 に対応するマーチャント + 倉庫 + 製品ディメンションの需要データを示しています。2023 年 6 月 1 日から 2023 年 6 月 20 日までの予測値を得るには、これらのデータを参照してください。予想結果を結果表3に記入し、対戦プラットフォームにアップロードしてください。

大規模なプロモーションにおける販売者 + 倉庫 + 製品のディメンションに関するデータの導入は、2 番目の質問と同様であり、導入されたデータに基づいて、分類モデルを使用して新しい分類結果が取得されます。この新しい分類結果には、質問 1 と同じ予測モデルを使用できます。

おすすめ

転載: blog.csdn.net/qq_33690821/article/details/134087046