《机器学习》学习第一天（绪论入门）

一、机器学习目的寻找一个函数：这个函数可以完成的常见功能如图

step1：定义一系列有一定功能的函数

step2：验证这一系列函数的优劣性

step3：寻找一个最优的函数

（二）、学习课表

（三）报名达观杯并做一些准备

达观公司组织的比赛，给好既定的官方给的数据集，训练得到机器学习模型，而如何评判模型的优劣，用的是测试集（每个样本没有label信息），用模型对测试集进行分类，然后把分类好的结果给官方进行评判

1.传统监督学习算法（西瓜书的章节有一一对应）

（对数几率回归 / 支持向量机 / 朴素贝叶斯 / 决策树 / 集成学习等）

2.深度学习

（CNN / RNN / attention模型）

Q：提高模型性能

（a）数据预处理

（b）特征工程【特征做的好，质的飞跃，例子：对于一个人，脸部特征、身材特征】

（c）机器学习算法：

（d）模型集成

（e）数据增强

报了名，然后提交了结果，代码按训练营的代码

print("开始.....................")

import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

df_train = pd.read_csv('./train_set.csv')
df_test = pd.read_csv('./test_set.csv')
df_train.drop(columns = ['article','id'],inplace = True)
df_test.drop(columns = ['article'],inplace = True)

vectorizer = CountVectorizer(ngram_range = (1,2),min_df = 3,max_df = 0.9,max_features = 100000)
vectorizer.fit(df_train['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])
y_train = df_train['class'] - 1

lg = LogisticRegression(C = 4,dual = True)
lg.fit(x_train,y_train)

y_test = lg.predict(x_test)

df_test['class'] = y_test.tolist()
df_test['class'] = df_test['class'] + 1
df_result = df_test.loc[:,['id','class']]
df_result.to_csv('./result.csv',index = False)

print('完成................................')

成功了，明天自己要尝试读懂并备注这段代码，自己要理解其原理所在。

安装anaconda 遇见问题：下载安装Anaconda 只出现prompt界面

原因中途弹出的小黑窗手动给关闭了。卸载后让默认要求重装一次成功啦！

《机器学习》学习第一天（绪论入门）

猜你喜欢