問題
オリジナル問題
- するために設けられた3つの製品データ・セットの分析 、識別を記述し、数学的な証拠とサポート、意味のある定量的および/または定性的なパターン、関係、対策、およびパラメータサンシャイン当社はで成功を助けること星評価、レビュー、および有用性評価の範囲内との間でその3つの新しいオンライン市場の製品の提供。
分析製品は、特定のサポートを記述して、意味のある定量的および/または定性的なパターン、関係、メトリックおよびパラメータを決定する数学的な証拠によると、3つのデータセットを提供し、これらのデータは、スターになりますサンシャインでその3つの新製品のオンライン販売の成功を会社を助けるインナーレベル、コメントやヘルプ階層、との間で行われます。
参考思考
アイデア①:
データセットの分析は、SPSSソフトウェアを使用してテキストデータ分析と回帰モデルにおけるデータセットのテキスト、引数が、それは後で従属変数の製品ラインとして成功するかどうかを、星評価、投票、コメントの有用性です。
アイデア②:
まず、などのデータセット、冗長性を、フィルタリングした後、各コメントの重量に対応する重みを与えるために、データに合うようにMATLABのPythonや統計的な単語の出現頻度の評価、そして最終的に予測式を使用しての整合性。いずれにせよ、最も重要なことは、評価の単語頻度統計を行うことです!
③考えます:
このような使用のPythonなどのデータマイニング、テキストマイニングアルゴリズム、システムの問題のビルド顧客の評価と分析にデータベースへ、そして最終的には成功の製品ラインの取得確率を取得します。
質問2
オリジナル問題
- :彼のサンシャインカンパニーマーケティングディレクターから具体的な質問と要望以下の使用であなたのアドレスに分析
2.会社の日の問題のためのマーケティングディレクター、次の特定の要件を解決するために、あなたの分析:
- A.は、三つの自社製品のがONオンライン市場。で購入を希望されるに置かれたら、トラックにMOSTサンシャイン会社のために有益されたデータのレビューや評価に基づく措置を特定し
評価し、レビューによると、オンライン市場で売られて3つの製品たら、A.、測定データが識別され、それがサンシャイン当社にとって最も有用です。 - B.特定し、A製品APOS表示名履歴評判が増加するか、オンライン市場で減少していることを示唆する各データセット内の時間ベースの対策とパターンを議論した。
B.は、これらの対策、データのそれぞれを識別し、濃縮し、メトリックと時間のモードに基づいて議論そしてモデルは、オンライン市場での製品の評判が上昇または下降されている可能性があります。 - C.ベストはAが潜在的に成功したか失敗プロダクト示していることを、テキストベースの組み合わせにmeasure(S)と評価ベースの措置を決定します。
C.は、最高の決定は、メトリックのテキストに基づいて、製品の潜在的な成功または失敗を示し、複合メトリックの評価に基づいて、 。 - D。スターの評価はもっとレビューを扇動のDo特定は?、顧客はのタイプのいくつかのAシリーズ低スターの評価?見た後レビューを書く可能性が高いために例です
と、d。特定の星の評価は、より多くのコメントにつながるかどうか?例えば、低星評価のシリーズを見た後、顧客はいくつかのコメントを書く可能性が高いですか? - E.は、テキストベースのレビューの具体的な品質記述子されているような「熱狂的な」、「失望」、およびその他は、強く評価レベル?に関連する
、そのような「暖かい」、「ダウン」としてE.特定の質量記述子ベースのコメントテキスト、ように、密接に格付けレベルに関連するかどうか?
参考思考
2.Aのアイデア
同社の製品上のデータによると、市場で3つの製品を、予測した後(星と助けレベル)とコメントを評価最も有用な組み合わせを決定するために、太陽を追跡します。モデルの問題は、ヘルプ見つけるつもりであることが最も有用な組み合わせがプラスであるものをどのような星評価とレビュー。ボリュームに似た総合的な評価メカニズムは、データ分析を通じて、Googleのページランクの発明と呼ばれていることかと仮定 - それは、ユーザーがソートにWebページを検索するように、ウェブページの重要性を測定することができます。
2.Bアイデア
モデルでこの測定モードに追加しました。顧客は、トレンドの評価と評価を商品を購入する際、時間をかけて成長を予測するために、曲線をフィッティングすることによって。そして、(低評判)年のデータマイニングスクリーニングにより塗装した後、低格付けのオンライン市場での3つの製品が増加しました。最も重要なのは、我々があること、アカウントに時間ベースの概念を取る必要があり、あなたが時間やビジュアライゼーションの上に指標を表現することができ、また、動的にする必要がありますということです。
2.Cのアイデア
これは、ほとんどのことを求めている製品の評価およびテキスト(コメント)の潜在的な成功または失敗の組み合わせという、やや類似して示しています。それは最高の成功と失敗の組み合わせを表していることを評価し、テキストを比較することにより、選択された最も有用な組み合わせから、です。この質問は、まず評判分析の組み合わせが何を作るように頼ま単語頻度統計で考えることができます。
2.Dのアイデア
このコメントの間の関係とは、星に焦点を尋ねる、またはフィルタタップにテキストデータを使用します。統計データ分析のために、それぞれの星の相関は、コメントテキストを表示します。これは、単語頻度統計は自重を割り当て、だけでなく、直接通じおおよそ特徴的な単語(良い、悪い)によって分割することができ、テキストタイプを分割する必要があります。
2.Eアイデア
最後に、小さなQはちょうどあなたが相関分析を行うことができ、最高の評価を持ついくつかの単語と単語の頻度を見つける必要が一緒にやるdはタイトルに取り付けることができるテキストデータの分析の組み合わせ、です。
エピローグ
最初に質問Cを考える2020年の米国のレースは、今年のトピックは、よりオープンな質問であり、データの訓練過程や評価システムのモデリング仮定は唯一正当化することができ、比較的自由である、ここに書きましたデータ処理は、合理的な評価メカニズムを得ることができる限り、特定の方法に固執しないでください、そしてその上に、時間と時間ベースの変動の概念を検討します。