データマイニング - 公開されているデータセットのコレクション

  • AWS (アマゾン ウェブ サーバー) パブリック データセット: 以前は、衛星画像やゲノム データなどの大規模なデータセットの検索、ダウンロード、カスタマイズ、分析には数時間から数日かかりました。データが AWS で公開されると、誰でも自分でダウンロードしたり保存したりせずに、任意の量のデータを分析できます。含まれるもの: 地理空間および環境データセット、ゲノムおよびライフサイエンス データセット、機械学習データセット、規制および統計データ。
  • BigML : BigML は、データセットとモデルを確立および共有するための管理プラットフォームを提供します。その利点は、既存のクラウド コンピューティング ソリューションを利用できることです。BigML は機械学習のみに焦点を当てており、使用可能な Web UI にすべて統合された幅広い機能セットを提供します。データセットをロードし、モデルをトレーニングおよび評価し、新しい予測を (1 つずつまたはバッチで) 生成できます。
  • バイオアッセイ研究データベース バイオアッセイ研究データベース: BASD は、国立衛生研究所の分子ライブラリー プロジェクトによる強力な新しい生物学的データベースです。科学者は現在、さまざまな化学プローブが生物学的機能に及ぼす仮説的な効果を前例のない効率で開発およびテストできるようになりました。
  • Bitly : bit.ly は、短縮 URL を表示するためのクリック数などの統計をユーザーに提供します。bitly を使用すると、政府の公開 URL (1.usa.gov など) での匿名のクリックをカウントできます。
  • Canada Open Data : カナダの政府サービス、財政、国内人口情報、または高解像度地図 (衛星地図) に関するデータ。
  • Causality Workbench : このプロジェクトの目的は、機械学習と因果関係発見アルゴリズムをテストするための環境を提供することです。このプラットフォームのライブラリには、さまざまな業界向けの多くのデータセットとソフトウェア パッケージが含まれています。Virtual Lab を使用すると、ユーザーは人工因果システムを研究するための仮想実験を設計できます。
  • Data.gov : 米国政府のオープンデータ Web サイト。農業、気候、消費、生態、教育、エネルギー、金融、医療、産業、政府、海事、海洋、公共の安全、科学研究などのデータが含まれます。

来源:大規模なデータリポジトリを無料で入手できる 70 以上の Web サイト

おすすめ

転載: blog.csdn.net/sriting/article/details/76285917