기계 학습을 위한 매우 완전한 데이터 세트 요약

우리 모두는 기계 학습 모델의 테스트 프로세스에서 데이터 세트가 중요하다는 것을 알고 있습니다. 데이터 세트를 구성할 때 데이터 정리 및 레이블 지정에 주의를 기울여야 합니다. 고품질 데이터 세트는 종종 모델 교육의 품질과 예측 정확도를 향상시킬 수 있습니다. 데이터가 없는 경우 일부 공용 데이터 세트, 특히 인식되고 일반적으로 사용되는 데이터 세트를 찾으려고 시도할 수 있습니다. 이미지 인식, 물체 감지 및 이미지 분할 작업과 같은 일반적인 작업의 경우 해당 공용 데이터 세트를 사용할 수 있습니다. 모델의 선택과 구성이 매우 중요하고 모델에 학습 데이터도 매우 중요하므로 모델 예측의 정확도를 높이기 위해 모델 구조를 변경하면서 품질 향상에도 신경을 써야 합니다. 입력 데이터의 양을 늘리는 것도 고려하십시오.모델의 예측 효과를 향상시킬 수 있는지 확인하십시오. 그래서 오늘은 관련 논문, 데이터 공모전, 현장 공유에서 언급된 머신러닝 데이터셋을 정리하여 정리해 봤습니다. 어서오세요~

01

Springleaf 마케팅 응답 데이터 세트

Springleaf는 고객에게 개인 및 자동차 대출을 제공하여 고객이 자신의 삶과 재정을 관리할 수 있도록 지원함으로써 인류를 대출에 다시 투입합니다. 다이렉트 메일은 Springleaf 팀이 대출이 필요할 수 있는 고객과 연결하는 중요한 방법입니다.

직접 제안은 이를 필요로 하는 고객에게 큰 가치를 제공하며 Springleaf 마케팅 전략의 기본 부분입니다. 타겟팅 노력을 개선하기 위해 Springleaf는 응답할 가능성이 있고 서비스에 대한 좋은 후보가 될 수 있는 클라이언트에 집중하고 있는지 확인해야 했습니다.

글쎄, Springleaf는 고도로 익명화된 기능을 사용하여 직접 견적에 응답할 고객을 예측하도록 요청합니다. 우리의 과제는 새로운 메타 변수를 구성하고 기능 선택 방법을 사용하여 이 엄청나게 광범위한 데이터 세트를 처리하는 것입니다. Springleaf Marketing Response Dataset의 공식 주소는 다음과 같습니다.

https://www.kaggle.com/competitions/springleaf-marketing-response/data

데이터 세트는 익명 고객 정보의 고차원 데이터 세트로 설명됩니다. 각 행은 고객에 해당합니다. 응답 변수는 이진수이며 "대상"으로 레이블이 지정됩니다. 테스트 세트의 각 행에 대한 대상 변수를 예측해야 합니다. 기능은 개인 정보 보호를 위해 익명화되었으며 연속 기능과 범주 기능의 조합으로 구성됩니다. 누락된 값과 같은 것을 나타내는 많은 "자리 표시자" 값을 데이터에서 보게 될 것입니다. 데이터 세트는 의도적으로 Springleaf의 내부 시스템과 일치하도록 인코딩을 유지합니다. 경쟁은 "있는 그대로" 기능의 의미, 가치 및 유형을 제공합니다.

02

StumbleUpon Evergreen 분류 챌린지 데이터 세트

StumbleUpon은 사용자의 관심사를 기반으로 사용자에게 관련성 높은 고품질 페이지와 미디어를 추천하는 사용자 선별 웹 콘텐츠 검색 엔진입니다. 일부 권장 페이지(예: 뉴스 기사 또는 제철 요리법)는 짧은 시간 동안만 관련이 있는 반면 다른 페이지는 시간이 지나도 변하지 않는 품질을 유지하며 발견된 후에도 오랫동안 사용자에게 추천될 수 있습니다. 즉, 페이지는 "일회성" 또는 "에버그린"으로 분류될 수 있습니다. 커뮤니티에서 얻은 등급은 페이지가 더 이상 관련이 없을 수 있다는 강력한 신호를 제공할 수 있지만 이러한 구분을 미리 할 수 ​​있다면 어떨까요? "일시적" 또는 "에버그린" 고품질 예측은 이러한 추천 시스템을 크게 개선할 것입니다.

많은 사람들이 에버그린 콘텐츠를 보자마자 알지만, 알고리즘이 인간의 직관 없이 같은 결정을 내릴 수 있을까요? 우리의 임무는 많은 수의 URL을 평가하고 상시 또는 임시로 표시하는 분류자를 구축하는 것입니다. StumbleUpon을 능가할 수 있습니까? 수상에 대한 추가 보너스로, 대회에서 좋은 성적을 거두면 샌프란시스코 최고의 직장 중 한 곳에서 경력을 쌓을 수 있습니다. StumbleUpon Evergreen 분류 챌린지 데이터 세트의 공식 주소는 다음과 같습니다.

https://www.kaggle.com/competitions/stumbleupon/data

데이터 세트에서 제공하는 데이터에는 두 가지 구성 요소가 있습니다. 첫 번째 구성 요소는 train.tsv 및 test.tsv라는 두 파일입니다. 각각은 총 10566개의 URL에 대해 아래에 설명된 필드를 포함하는 탭으로 구분된 텍스트 파일입니다. 사용 가능한 데이터가 없는 필드는 물음표로 표시됩니다. train.tsv는 7395개의 URL을 포함하는 트레이닝 세트입니다. 세트에는 이진 상록 레이블(상록(1) 또는 매우 녹색(0))이 지정됩니다. test.tsv는 3171개의 URL을 포함하는 테스트/평가 세트입니다. 두 번째 구성 요소는 stumbleUpon의 크롤러에서 볼 수 있는 각 URL의 원시 콘텐츠를 포함하는 zip 파일인 raw_content.zip입니다. 각 URL의 원시 콘텐츠는 urlid 다음에 이름이 지정된 탭으로 구분된 텍스트 파일에 저장됩니다.

03

Santander 고객 트랜잭션 데이터 세트

사람과 기업의 번영을 돕는 것을 사명으로 하는 Santander에서 기업은 항상 고객이 재정 상황을 이해하고 재무 목표를 달성하는 데 도움이 될 수 있는 제품과 서비스를 식별하도록 돕는 방법을 찾고 있습니다. 그들의 데이터 과학 팀은 기계 학습 알고리즘에 지속적으로 도전하고 글로벌 데이터 과학 커뮤니티와 협력하여 다음과 같은 가장 일반적인 문제에 대한 새로운 솔루션을 보다 정확하게 찾을 수 있도록 합니다. 고객이 만족합니까? 고객이 이 제품을 구매할 것인가? 고객이 대출금을 지불할 수 있습니까?

이 챌린지에서 Santander는 거래 금액에 관계없이 미래에 어떤 고객이 특정 거래를 할 것인지 식별하는 데 도움을 주기 위해 Kagglers를 모집했습니다. 본 대회를 위해 제공되는 데이터는 이 문제를 해결하기 위해 사용된 실제 데이터와 동일한 구조를 가지고 있습니다. Santander 고객 트랜잭션 데이터 세트의 공식 주소는 다음과 같습니다.

https://www.kaggle.com/competitions/santander-customer-transaction-prediction/data

숫자 기능 변수, 이진 대상 열 및 문자열 ID_code 열이 포함된 익명 데이터 세트를 가져오며 작업은 대상 테스트 세트의 열 값을 예측하는 것입니다.

04

Google 뇌 호흡압 데이터 세트

환자가 호흡 곤란을 겪고 있을 때 의사는 어떻게 합니까? 그들은 인공 호흡기를 사용하여 바람 파이프의 튜브를 통해 진정된 환자의 폐로 산소를 펌핑합니다. 그러나 기계적 인공호흡은 임상의 집약적 절차로, COVID-19 팬데믹 초기에 그 한계가 명백해졌습니다. 동시에 기계적 인공호흡기를 제어하는 ​​새로운 방법을 개발하는 것은 임상 시험에 들어가기 전에도 엄청나게 많은 비용이 듭니다. 고품질 시뮬레이터는 이 장벽을 줄일 수 있습니다.

현재 시뮬레이터는 각 모델이 폐 설정을 ​​시뮬레이션하는 앙상블로 훈련됩니다. 그러나 폐와 그 특성은 연속적인 공간을 형성하므로 환자 폐의 차이를 고려한 매개변수적 접근이 모색되어야 합니다. Google Brain 팀은 Princeton University와 협력하여 기계 학습을 중심으로 기계 환기 제어 커뮤니티를 성장시키는 것을 목표로 합니다. 그들은 신경망과 딥 러닝이 현재 산업 표준 PID 컨트롤러보다 다른 특성을 가진 폐에 더 잘 일반화할 수 있다고 주장합니다.

대회에서 우리는 진정된 환자의 폐에 부착된 인공호흡기를 시뮬레이트합니다. 최고의 제출물은 폐 특성의 순응도 및 저항성을 고려합니다. 성공한다면 기계식 인공호흡기를 제어하는 ​​새로운 방법을 개발하는 비용 장벽을 극복하는 데 도움이 될 것입니다. 이것은 새로운 시대와 그 이후에도 환자에게 적응하고 임상의의 부담을 줄이는 알고리즘을 위한 길을 열어줄 것입니다. 결과적으로 인공호흡기 요법은 환자의 호흡을 돕기 위해 더욱 광범위해질 수 있습니다. Google Brain 호흡압 데이터 세트의 공식 주소는 다음과 같습니다.

https://www.kaggle.com/competitions/ventilator-pressure-prediction/data

대회에 사용된 인공호흡기 데이터는 호흡 회로를 통해 인공 벨로우즈 테스트 폐에 연결된 수정된 오픈 소스 인공호흡기를 사용하여 생성되었습니다. 아래 그림은 두 개의 제어 입력이 녹색으로 강조 표시되고 상태 변수(기도 압력)가 파란색으로 강조 표시된 설정을 보여줍니다. 첫 번째 제어 입력은 공기를 폐로 보내기 위해 흡기 솔레노이드가 열리는 백분율을 나타내는 0에서 100까지의 연속 변수입니다(즉, 0은 완전히 닫히고 공기가 들어오지 않음, 100은 완전히 열림). 두 번째 제어 입력은 감지 밸브가 공기를 배출하기 위해 열려 있는지(1) 또는 닫혀 있는지(0)를 나타내는 이진 변수입니다. 대회 기간 동안 참가자들에게는 큰 시계열의 호흡이 주어지고 주어진 시계열의 제어 입력을 통해 호흡 중 호흡 회로의 기도 압력을 예측하는 방법을 배우게 됩니다.

05

Allstate 청구 비용 데이터 세트

当你被一场严重的车祸摧毁时,你的注意力会放在最重要的事情上:家人、朋友和其他亲人。与您的保险代理人一起推理是您最不想花费时间或精力的地方。这就是为什么美国个人保险公司Allstate不断寻求新的想法来改善他们为他们所保护的超过1600万个家庭提供的理赔服务。

Allstate目前正在开发预测索赔成本和严重程度的自动化方法。在本次挑战中,Kaggler受邀展示他们的创造力并通过创建一种准确预测索赔严重程度的算法来展示他们的技术实力。有抱负的竞争对手将展示对预测索赔严重程度的更好方法的洞察力,以便有机会参与Allstate确保无忧客户体验的努力。Allstate索赔成本数据集官方地址为:

https://www.kaggle.com/competitions/allstate-claims-severity/data

该数据集中的每一行代表一个保险索赔,我们需要预测“损失”列的值。以“cat”开头的变量是分类变量,而以“cont”开头的变量是连续变量。

06

“值得买”电子商务销量数据集

随着电子商务与全球经济、社会各领域的深度融合,电子商务已成为我国经济数字化转型巨大动能。庞大的用户基数,飞速发展的移动互联网行业,让中国成为全球电子商务规模最大、发展最快的国家之一。大数据、云计算、人工智能、虚拟现实等数字技术为电子商务创造了丰富的应用场景,不断催生如直播带货、推荐平台、农村电商、新国潮、新文创、在线生鲜等新营销模式和新商业业态。

为运用人工智能技术提升用户体验,解决电商企业痛点、难点问题,助力人工智能领域优秀人才的培养,在商务部电子商务和信息化司、北京市商务局指导下,首届电子商务AI算法大赛(ECAA)开幕。“值得买”电子商务销量数据集官方地址如下:

https://www.automl.ai/competitions/19

该比赛提供了消费门户网站“什么值得买”2021年1月-2021年5月真实平台文章数据约100万条,旨在根据文章前两个小时信息,利用当前先进的机器学习算法进行智能预估第三到十五小时的文章产品销量,及时发现有潜力的爆款商品,将业务目标转化成商品销量预测,为用户提供更好的产品推荐并提升平台收益。

07

爱荷华州房价数据集

这是经典的房价数据集,已被纳入sklearn的标准数据集当中。你有一些 R 或 Python 和机器学习基础知识的经验。对于已经完成机器学习在线课程并希望在尝试特色比赛之前扩展技能的数据科学学生来说,这是一场完美的比赛。

让购房者描述他们梦想中的房子,他们可能不会从地下室天花板的高度或靠近东西铁路的地方开始。但是这个比赛的数据证明,比卧室数量或白色栅栏更能影响价格谈判。爱荷华州房价数据集官方地址如下:

https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data

该数据集共包含79个解释变量(几乎)描述了爱荷华州艾姆斯住宅的各个方面,这项竞赛挑战我们预测每栋房屋的最终价格。

08

TFI餐厅销售额数据集

TFI在全球拥有1200多家快餐店,是一些世界上最知名品牌背后的公司:汉堡王、Sbarro、Popeyes、Usta Donerci和Arby's。他们在欧洲和亚洲雇佣了 20000多名员工,并在开发新的餐厅网站方面进行了大量日常投资。

目前,决定何时何地开设新餐厅很大程度上是一个基于开发团队个人判断和经验的主观过程。这种主观数据很难跨地域和文化准确推断。新的餐厅网站需要大量的时间和资金来启动和运行。如果选择了错误的餐厅品牌位置,该站点将在18个月内关闭,并产生运营损失。

我们需要找到创建一个机器学习模型来提高对新餐厅网站的投资效率将使 TFI 能够在其他重要业务领域进行更多投资,例如可持续性、创新和新员工培训。本次竞赛使用人口统计、房地产和商业数据,挑战预测100000 区域位置的年餐厅销售额。TFI餐厅销售额数据集官方地址如下:

https://www.kaggle.com/competitions/restaurant-revenue-prediction/data

该数据集包含137家餐厅的训练集和100000家餐厅的测试集。数据列包括开放日期、位置、城市类型和三类混淆数据:人口数据、房地产数据和商业数据。收入列表示餐厅在给定年份的(转换后的)收入,是预测分析的目标。

9

Walmart零售数据集

对零售数据建模的一个挑战是需要根据有限的历史做出决策。如果圣诞节只来一年一次,那么了解战略决策如何影响利润的机会也是如此。

在本次竞赛中,我们将获得位于不同地区的45家沃尔玛门店的历史销售数据。每个商店包含许多部门,参与者必须预测每个商店中每个部门的销售额。为了增加挑战,数据集中包含选定的假日降价事件。众所周知,这些降价会影响销售,但很难预测哪些部门受到影响以及影响的程度。沃尔玛零售数据集官方地址如下:

https://www.kaggle.com/competitions/walmart-recruiting-store-sales-forecasting/data

我们将获得位于不同地区的 45 家沃尔玛商店的历史销售数据。每家商店都包含多个部门,我们的任务是预测每家商店的部门范围内的销售额。

此外,沃尔玛全年举办多次促销降价活动。这些降价促销是在重要节日之前进行的,其中四个最大的节日是超级碗、劳动节、感恩节和圣诞节。包括这些假期在内的周在评估中的权重是非假期周的五倍。该比赛提出的部分挑战是在没有完整/理想的历史数据的情况下模拟降价对这些假期周的影响。

추천

출처blog.csdn.net/AbnerAI/article/details/129150239