绪论--模式分类

我觉得绪论中最有趣的就是那好多好多的问题。接下来我来叙述一下它的众多问题。

怎样才能事先知道其中某个特征对分类性能最重要呢？（有一些相关的特征选取算法，最暴力的就是枚举各种组合喽）
如何精确和定量的设计相对“简单”一些的分类器，来避免过拟合呢？（机器学习中有种东西叫正则化，其它的我就不清楚了）
系统怎样才能得到相对简单的model，使得它会比最简单的model更好呢？（如何设计学习算法？）
假如我们能够做到“泛化能力”和“复杂度”的折中，又将如何预测系统对新模式的泛化能力如何呢？（如何准确的预测泛化能力？）
如何对一张原始图像进行分割，得出我们想要的唯一物体？实在没有分类出来之前就能分割图像呢？或者在她们的图像被分割之前就把她们分类出来呢？似乎需要这样一种方法，他能告诉我们，何时应该从一个模型转向另一个模型，或者何时输入数据中仅包含“背景”或者“没有物体类”，而这种方法又是如何实现的呢？（图像分割，请学习《计算机视觉》）
最好的分类器在分类过程汇总会输入尽可能多的（使之“有意义”的）信息，但也不是过分多。这个将怎样自动实现呢？（数据预处理过程）
如何做到关键的特征对类别信息不相关的变换具有不变性呢？（这里不相关的变换可以指物体的平移，旋转变换。其实变换在不同的领域有不同的定义）
怎样才能训练或使用一个部分特征丢失了的分类器呢？（如何处理缺失值问题？想起了随机森林，能够很好的处理缺失值问题）
如果是根据多个分类器来投票产生最终结果，如何根据少数派的意见做决策？（addboost算法在训练过程中就对不同的分类器赋予不同的权重）
要怎样才能把先验知识和实验数据有机结合起来，以发现有用和有效的特征呢？（吴恩达就说画图啊）
我们应该怎样选择一些模型，拒绝一些模型？有什么样的启发式来供我们选择模型呢？（神经网络啊，万金油啊。10层不够，100层）
是否存在原则性的方法能确定一个分类器具有的最佳的（中等程度的）复杂度？（就是如何精确的平衡bias-variance呢？）
在有监督学习中，学习算法是稳定的，收敛的吗？（在数值分析中，算法的稳定性和收敛性都是很重要的）
在无监督学习中，如何确定类的数目呢？如何能避免不恰当的模式表达？（类的数量如何确定呢？枚举+画图。这里的模式表达指的应该是类的表示是否有现实意义呢？）
在强化学习中，系统将如何从不明确的反馈中学习？（设计一个好的目标函数和好好调参）

数据的输入，数据的预处理，特征选取，模型选择，模型训练，缺失值处理，学习算法的稳定性和收敛性。。。这些都是我们所要面临的问题

猜你喜欢