数据、算法、模型三者缺一不可


前言

一个人工智能项目,当中最重要的究竟是数据、算法还是模型呢?
当然是三者缺一不可,数据是构建的基础也是坚实的后盾,算法与模型是使效果更理想的方法。


一、数据

数据是起点,因为它是非常有用的资产。
数据分为两种:标注数据与未标注数据

标注数据

标注的数据通常采用一组未标注的数据(并用某种有意义的“标签”,“标签”或“类”来增强每个未标注的数据,这些有意义的“标签”,“标签”或“类”)例如,上述类型的未标记数据的标签是这张照片包含马还是牛,在该音频记录中说出了哪些词,在该视频中执行什么类型的动作,本新闻文章的主题是
例如:
在新闻领域中:文本(主题)分类任务 附图
文本分类

在图像识别领域中:手写数字识别任务 附图
手写数字识别

未标注数据

未标注的数据由自然或人工创建的数据的样本组成,您可以从世界上相对容易地获得这些数据。未标记数据的一些示例可能包括照片,录音,视频,新闻文章等。没有“解释”每个未标注的数据 – 它只包含数据,没有其他。
例如:
未标注数据

二、算法

算法分为三种:有监督学习,无监督学习与半监督学习

有监督学习(supervised learning)

有监督学习利用大量的标注数据来训练模型,模型的预测和数据的真实标签产生损失后进行反向传播(计算梯度、更新参数),通过不断的学习,最终可以获得识别新样本的能力。

无监督学习(unsupervised learning)

只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。

半监督学习(semi-supervised learning)

有监督学习和无监督学习的中间带就是半监督学习。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常远远大于有标签数据数量(这也是符合现实情况的)。
隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。

三、模型

模型是数据经过算法学习的结果,这个过程叫做训练。
流程
一个已经训练好的模型,可以被理解成一个函数: y=f(x)。

我们把数据(对应其中的 x)输入进去,得到输出结果(对应其中的 y)
例如:
我们用以下标注数据训练出一个文本分类模型
文本分类
用以下未标注数据的输入到模型,进行识别(博主太懒了,一图多用吧)
未标注数据
f(台湾高雄市发生4.4级地震) =?
↓(这个过程叫做预测)
f(台湾高雄市发生4.4级地震) = 地震


总结

数据是构建模型的基础,如果没有数据再强的模型也一样没有太好的效果,就好比“又要马儿好,又要马儿不吃草”。这是不现实的,当然数据的质量与数量也是要有一个规模的。而算法与模型也要因应用而灵活变换才能得到更好的结果。

猜你喜欢

转载自blog.csdn.net/black_lightning/article/details/111874060