ビッグデータを活用したユーザーラベリングシステム構築のアイデアと応用

ビッグデータの時代において、データは従来のIT業界の市場競争環境、マーケティング戦略、サービス モデルを変え、大規模で多様かつ価値のある変化を示しています。ZBレベルの膨大なデータから貴重な情報をどのように取得し、選別するかはIT 企業にとって大きな課題であり、顧客タグを構築し、精密なマーケティング サービスをサポートすることは上記の課題に対する効果的な解決策ですが、完全な ラベルを付ける方法は?どのレーベルをプレイするか? 誰が戦うのでしょうか?ユーザータグを使用してビジネス価値を生み出すにはどうすればよいですか? これらは製品設計レベルで解決する必要がある問題です。

Pocket Medical News は、医師の頭条とインテリジェントな学習プラットフォームの構築に常に取り組んでおり、ビッグデータ技術を通じて医師の学習のインテリジェンスとパーソナライゼーションを実現します。このような学習プラットフォームを構築するには、最も基本的なことは、ユーザーのラベルを確立することです。システムは、長い期間の研究、思考、参照、実践を経て、独自のラベル構築アイデアを持ち、自社のビジネスに合ったラベルを抽出しました。当社ではユーザーの行動ログの収集を重視しており、現在数億件のログデータを蓄積しており、データ処理・タグ計算基盤の構築を進めております。

ラベル制度の仕組み

ラベル付けシステムは、データ処理層、データ サービス層、データ アプリケーション層の 3 つの部分に分割できます。各層は異なるユーザー オブジェクトに直面し、異なるトランザクションを処理します。レベルが低いほど、ビジネスとの結合が小さくなります。レベルが高いほど、ビジネスとの関連性が高くなります。

データ処理層

データ処理層は、データを収集、クリーニング、抽出します。Pocket Medical Information には多くの学習モジュールがあり、Web サイト、アプリ、小さなプログラムなどの複数の製品形式があります。各製品モジュールと製品エンドでは、大量のビジネス データと行動データが生成されます。これらのデータは非常に似ていて、異なります。完全なユーザー ラベリング システムを構築するには、可能な限り広範囲のデータを集約する必要があります。すべてのデータを収集した後、データのクリーニング、重複排除、無効化、異常などの処理を行う必要があります。

データビジネス層

データ処理層は、ビジネス層に最も基本的なデータ機能とデータ原材料を提供します。ビジネス レイヤーはパブリック リソース レイヤーに属し、特定の製品や事業分野には属しません。これは主に、ラベル システム全体を維持し、1 か所で管理するために使用されます。このレベルでは、運用担当者と製品が参加して、原材料の切断などのビジネス要件を提案できます。主に次の主要なタスクを完了します。

    1.ビジネス側で必要なタグを定義します。

    2.タグインスタンスを作成します。

    3.ビジネス ラベル インスタンスを実行し、対応するデータを提供します。

データアプリケーション層

アプリケーション層のタスクは、製品とオペレーターにラベル付けツール機能を与え、ビジネス データを集約し、特定のデータ アプリケーション シナリオを構築することです。

ラベルの種類

 データ抽出の観点から見ると、ラベルは事実ラベル、モデル ラベル、予測ラベルに分類できます。

ファクトラベル

生産システムからデータを取得し、ユーザーの自然属性、製品属性、消費属性、リソース属性などを定性的または定量的に記述し、アクティブユーザーかどうかなど、スタッフの経験によって蓄積されたビジネスルールに基づいて生産タグをフィルタリングおよび分析しますまたは候補者です。お待​​ちください。

モデルラベル

ユーザーの属性や行動などの属性を抽象化・クラスタリングするため、ユーザーの基礎データを分析し、ユーザーの興味・関心・嗜好・ニーズなどを表すラベルとユーザーの関心度を表すインデックスをユーザーに対応させて集計ラベルとインデックスを付与します。需要のレベル、購入の可能性など。

予測ラベル

ユーザーの属性、行動、シグナリング、場所、特性に基づいてユーザーの潜在的なニーズが掘り出され、これらの潜在的なニーズがマーケティング戦略とルールでマークされるため、適切なタイミングでユーザーにマーケティングをプッシュできます。適切なタイミングで。

データの適時性の観点から、タグは静的属性タグと動的属性タグに分類できます。

静的属性タグ

長期的には、あるいはまったく変化しないこともあります。たとえば、性別、生年月日など、これらのデータは確立された事実であり、ほとんど変更されません。

動的プロパティラベル

ラベルの有効性を確保するには有効期間があり、定期的に更新する必要があります。たとえば、ユーザーの購買力やユーザーのアクティビティなどです。

タグの定義

ユーザーのラベル付けとユーザーのポートレートの作成は最終的にはアプリケーションのためであるため、アプリケーションのシナリオに基づいてユーザーのラベル付けシステムを定義する必要があり、各ラベルには最終的な目的があります。たとえば、試験トレーニング サービスを提供する場合、受験者か否か」というラベルを作成する必要がありますまた、業種によってユーザーの特性も大きく異なり、例えば医師ユーザーは一般ユーザーに比べて診療科役職病院のレベル」など特別な意味を持つタグが多くなっています。

ラベルには階層関係があり、管理や理解を促進するだけでなく、厚さや強度を制御し、最終的な貼り付けを容易にするためにも役立ちます。ラベルの深さを 4 つのレベルで制御することがより適切であり、4 番目のレベルは特定のラベル インスタンスです。同社の事業に応じて、まず人口統計的属性、行動的属性、ユーザーカテゴリー、商業的属性の4つの大きなカテゴリーに分け、次にインターネット習慣、学習習慣、群集属性、消費能力、消費習慣などのカテゴリーに分けました。最後のレベルは、ユーザーのアクティビティ レベル、読書ソース、テスト設定などの特定のタグに対して正確です。

ラベルのメンテナンス

   それぞれのラベルは何もないところから作成されることはなく、変更されずに残ることも、何もないところから消えることもありません。ラベルのメンテナンスでは、ルールを生成し、重みを定義し、ポリシーを更新する必要があります。

ルールを生成する

前編で述べたように、ラベルは事実ラベル、モデルラベル、予測ラベルの 3 つのカテゴリに分類されますが、これら 3 つのカテゴリのラベルについても、ルール生成の難易度と複雑さが段階的に増加しています。ファクト ラベルは、ラベルを抽出する場所のみを考慮する必要があります。これには、明確なラベル定義と、懸念される疾患の種類などの非網羅的なラベル セットの両方が含まれます。一方、モデル ラベルは、データの関連付けと論理的関係を設計する必要があります。ラベル生成の精度は、ビッグデータ分析と人工知能技術の応用に大きく依存します。

重量を定義する

タグは、閲覧プロセス中に生成される可能性が高い疾患タグなど、複数のシナリオで表示されます。また、検索シナリオでも生成される可能性がありますが、これら 2 つのシナリオに対応する同じタグの重みは異なります。の。検索の方が積極的な需要が大きいため、閲覧は検索よりも重要性がはるかに低くなります。

戦略を更新する

上記では、データの適時性からタグを静的属性タグと動的属性タグに分けました。静的属性タグの処理は比較的単純で、加算し続けるだけです。しかし、動的属性タグの場合、期限切れのタグをダウングレードしたり削除したりする必要があり、例えば医師の診察の前後など、タグの「候補か否かに影響するため、更新戦略が必要となります

ラベル構築のための技術アーキテクチャ

ラベリング システムの構築には多くのリンクが含まれ、データ量は膨大です。データの保存と計算をサポートするには、堅牢で効率的な技術フレームワークが必要です。Pocket Medical Information では、SQL データベースと no-SQL データベースを使用して、構造化されたニーズを満たすことができます。データ非構造化データのストレージには、Hadoopの分散ストレージ テクノロジとデータ ウェアハウスとしてのhiveおよびhbaseコンポーネントを使用し、 MapReduceスパーク分散コンピューティングを使用してコンピューティング速度を向上させ、多次元分析にkylinを使用し、外部アプリケーションを提供します。 BIツールとインターフェイスを介して、 SqoopKettle がデータを抽出し、プロセスを呼び出します。

さらなるアプリケーションシナリオ

ユーザータグの確立は、基本的にポケット医療情報におけるスマート医療コンテンツレコメンデーションの学習シナリオに適用されてきましたが、タグの改良とインテリジェント処理の向上により、このタグシステムはより幅広い応用シナリオを持つことになります。

1. 知的学習シナリオの構築

ユーザーの学習ニーズのタグの分析を通じてユーザーのグループ化が行われ、アプリの機能とコンテンツはさまざまなユーザーグループに合わせてパーソナライズされ、さまざまな学習ニーズを持つユーザーのパーソナライズされた学習サービスに対応します。

2. 的確なマーケティングプロモーションの確立

ユーザーをより詳細なレベルでスクリーニングすると同時に、プロモーションの対象となる可能性のあるユーザーを正確に予測することで、医師の対象範囲を拡大し、プロモーションのコンバージョン率を向上させます。

3. KOL ユーザーのポートレートの描写

このラベル モデルに基づいて、外部データの収集と分析が追加されて、医師のより完全な360度のユーザー ポートレートが生成され、企業が潜在的なKOLユーザーを見つけ、ユーザーの洞察を実現し、市場の意思決定を支援するのに役立ちます。

 レーベルの構築は、一見高レベルに見えて実は非常に複雑で複雑なプロセスであり、ビジネスを解明し、さまざまな運用要件の変化に対応する必要があるだけでなく、会社の発展に多大な影響を及ぼします。

おすすめ

転載: blog.csdn.net/jane9872/article/details/131499462