人工智能领域的基础知识点汇总

文章目录

近几年AI领域的技术发展突飞猛进，毫无疑问AI已经成为了先进生产力的代表。作为一名普通程序员如果对相关技术不闻不问，等待自己的只能是淘汰。这里以一个小白的视角，梳理了近些年AI前沿的一些技术和那些大家容易忽视的基本概念，也算是给自己一个入门吧。

AI的基本特性

普通程序和AI(Artificial Intelligence)程序的本质区别在于处理信息和执行任务的方式不同:

普通程序通常是程序员指定程序运行的规则和指令。这些程序遵循预定义的逻辑和算法，对特定的输入做出相应的输出。输入-处理逻辑-输出都是透明的符合确定性，是静态的。

AI程序使用学习算法和统计模型，以经验学习来替代明确编码的规则，通过从大量数据中学习和自我调整来执行任务。人工智能系统的决策基于概率和统计推断，而不仅仅是基于预先定义的规则，输入-处理逻辑-输出是个黑盒，具有不确定性和模糊性，是动态的。

普通程序的规则是静态的，程序行为都是固定的。人工智能程序是动态的，可以通过学和适应来提高其性能，处理更加复杂具有不确定性和模糊性的问题。

机器学习和深度学习技术都涉及到使用数据模型，这些模型会从大量数据中学习模式和规律，并在未知数据上做出预测或执行特定任务。

强化学习是一种技术，它结合了模型和奖励机制，使代理能够在与环境的交互中学习最佳行为策略。

AI模型训练的关键步骤:数据收集、数据预处理、模型选择、模型训练、模型评估。

主要技术

输入技术
自然语言处理(NLP)和自然语言理解(NLU): 自然语言处理技术使得计算机能够理解、解释和生成人类语言。这包括机器翻译、情感分析、语音识别等应用。

计算机视觉: 计算机视觉领域涉及让计算机理解和解释视觉信息。这包括图像识别、物体检测、人脸识别。

学习范式
机器学习: 通过对数据进行学习，使计算机系统能够从经验中改善性能的方法。它涵盖了多种学习方法，包括监督学习、无监督学习、强化学习等。

监督学习: 是一种机器学习范式，其中模型通过使用带有标签的训练数据进行训练，学习输入和输出之间的映射关系。模型的目标是学会从输入到输出的映射，以便对新的、未标记的数据进行预测。

无监督学习: 是一种机器学习范式，其目标是从未标记的数据中发现模式、结构或规律。与监督学习不同，无监督学习没有预先提供标签或目标输出，系统必须自行探索数据并找到隐藏的结构。

半监督学习: 半监督学习是介于监督学习和无监督学习之间的一种学习方式。它利用同时具有标签和未标签数据的训练集进行学习。虽然数据中只有一小部分是带有标签的，但模型试图利用这些标签信息以及未标签数据的特征来进行学习。

强化学习: 是一种学习方式，涉及智能体通过与环境的交互学习，以最大化累积的奖励信号。智能体在不断尝试和错误中学习，并根据奖励信号调整其策略，以在特定环境中获得最大长期回报。

迁移学习: 迁移学习是一种利用已学到的知识来解决新问题的方法。它涉及将从一个问题(源域)中学到的知识或模型迁移到另一个相关但不同的问题(目标域)中，以提高目标任务的性能。

深度学习: 深度学习是一种机器学习的子领域，它使用深度神经网络来模拟和学习复杂的数据表示。深度学习方法通过多层次的神经网络学习数据的层次性特征表示，以提高对任务的性能。

基本应用

感知能力
学习人类的感知能力是AI目前主要的焦点之一

“听”：语音识别、音色识别、声纹识别、声音传导情绪识别
“说”：语音生成、文本转换语音(tts)、音色转换
“读”：自然语言处理(NLP)、自然语言理解(NLU)
“写”：机器翻译、文本生成
“看”：机器视觉、图像识别、人脸识别、物件侦测、指纹识别。

认知能力
指的是人类通过学习、判断、分析等等心理活动来了解消息、获取知识的过程与能力，对人类认知的模仿与学习也是目前AI第二个焦点领域。

学习能力：例如机器学习、深度学习、强化学习等各种学习方式。
分析识别能力：例如医学图像分析、产品推荐、垃圾邮件识别、法律案件分析、犯罪侦测、信用风险分析、消费行为分析等。
判断能力：例如AI下围棋、自动驾驶车、健保诈欺判断、癌症判断等。
预测能力：例如AI执行的预防性维修(Predictive Maintenance)、智能天然灾害预测与防治。

创造力
指的是人类产生新思想，新发现，新方法，新理论，新设计，创造新事物的能力，它是结合知识、智力、能力、个性及潜意识等各种因素优化而成，这个领域目前人类仍遥遥领先AI，但AI也试着急起直追。
主要领域包括：AI作曲、AI作诗、AI小说、AI绘画、AI设计等。

核心机构和厂商

国外

OpenAI
OpenAI(开放人工智能研究中心)是一个美国人工智能研究实验室，OpenAI的研究重点是强化学习。

OpenAI的主要产品如下:
ChatGPT(聊天生成预训练转换器): 是OpenAI开发的人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT-3.5、GPT-4架构的大型语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互，而除了可以用人类自然对话方式来交互，还可以用于甚为复杂的语言工作，包括自动生成文本、自动问答、自动摘要等多种任务。
DALL-E: 是一个人工智能系统，可以根据自然语言的描述创建逼真的图像和艺术作品。
OpenAI Codex: 是由 OpenAI 训练的 AI 模型，用于协助代码生成。它可用于自动执行编码任务、提供代码建议，甚至生成完整的代码片段。
Whisper: 可以将语音转录为文本，并将多种语言翻译成英语。
OpenAI Gym：是一个用于开发和比较强化学习算法的工具包。它提供了广泛的预构建环境和工具，用于训练和测试强化学习代理。

nvidia
NVIDIA创立于1993年1月，是一家以设计和销售图形处理器为主的无厂半导体公司。其生产的高性能GPU加速了AI技术的发展。

A100-80GB系列是基于NVIDIA Ampere架构，是针对AI、数据分析和 HPC的GPU。GPU内存能达到80GB，GPU的带宽能达到2TB/s。
A800-40GB系列显卡是NVIDIA为了避开美国政策限制，针对中国开发的一款AI先开，GPU内存达到40GB，GPU的带宽能达到1.5TB/s。
GH200是最新的系列显卡，还没有上市，它的计算能力比A100更强，GPU内存能达到141GB包含72核的ARM芯片相比A100翻了接近一倍。

Apple
苹果公司，总部位于美国加州的库比蒂诺，与亚马逊、谷歌、微软、Meta并行为五大科技巨擘。目前的业务包括设计、研发、手机通信和销售消费电子、计算机软件、在线服务和个人计算机。

最著名的硬件产品有iPhone智能手机、iPad平板电脑、Mac个人电脑、iPod音乐播放器、Apple Watch智能手表、Apple Vision Pro空间计算电脑、 Apple TV媒体播放器、AirPods无线耳机和HomePod智能音箱、游戏机Pippin atmark。

自有的操作系统包括:macOS、iOS、iPadOS、watchOS、tvOS和新的visionOS六大操作系统。
彭博社称，到目前为止，苹果已经建立了自己的大型语言模型(LLM)框架，即Ajax，以及一个传闻中的聊天机器人，内部称为 Apple GPT。

Google
Google是总部位于美国加州山景城的跨国科技公司，业务范围涵盖互联网广告、互联网搜索、云计算等领域，开发并提供大量基于互联网的产品与服务。

Google发布了PaLM 2模型，根据基准测试，PaLM 2的部分结果超越了GPT-4，PaLM 2模型提供了不同规模的四个版本，从小到大依次为"壁虎"(Gecko)，“水獭”(Otter)、“野牛”(Bison)、“独角兽”，更易于针对各种用例进行部署。

基于PaLM 2，谷歌还推出了两个专业领域大模型。
1.谷歌健康团队打造的Med-PaLM 2，它能回答各种医学问题。
2.面向网络安全维护的Sec-PaLM 2，它使用人工智能来帮助分析和解释潜在恶意脚本的行为，并在非常短的时间内检测哪些脚本实际上对个人和组织构成威胁。

MicroSoft
微软(Microsoft)是源自美国的跨国科技公司，总部位于美国华盛顿州的雷德蒙德，与亚马逊、苹果、谷歌、Meta并行为五大科技巨擘。其中为研发、制造、授权及提供广泛的电脑软件服务为主要业务，最为著名且畅销的产品是Microsoft Windows操作系统及Microsoft Office办公软件。

微软的AI布局主要体现在三个方面:
1.在云计算方面，微软通过投资OpenAI，将其大语言模型ChatGPT和GPT-4等集成到Azure平台上，为开发者提供便捷的AI应用开发和部署服务。
2.在办公软件方面，微软将ChatGPT-4等生成式AI能力嵌入到Microsoft 365应用程序中，如Word、Excel、PowerPoint等，通过自然语言提示，帮助用户提高工作效率和创造力。
3.在搜索引擎方面，微软利用Bing的海量数据和AI技术，提升搜索结果的相关性和准确性，并推出了Bing Spotlight等新功能。

国内

华为
华为是总部位于深圳市的跨国科技公司，业务以研发和制造通信设备、消费电子产品为主，除此之外还涉足软件开发、设计生产集成电路、光伏和电动车等跨界产品。

华为在2023年7月7日发布了盘古大模型3.0。
盘古气象大模型突破了AI预报天气精度不及传统数值预报的世界性难题，该模型是首个精度超过传统数值预报方法的AI预测模型，对比传统方法预测速度提升 10000倍，可秒级完成对全球气象的预测。

科大讯飞
科大讯飞股份有限公司，是中国深圳证券交易所的一家上市公司，公司主营业务范围包括语音支撑软件、行业应用产品/系统、信息工程和运维服务。

2023年5月6日，科大讯飞正式发布星火认知大模型。
2023年8月15日，讯飞发布讯飞星火认知大模型V2.0。
2023年10月24日，讯飞发布讯飞星火认知大模型V3.0。

阿里巴巴
阿里巴巴集团创立于1999年，是一家以提供互联网服务为主的综合企业集团，总部位于杭州。

2023年4月7日，发布的"通义千问"大模型开始邀请测试。
2023年10月31日，云栖大会现场，阿里云正式发布千亿级参数大模型通义千问2.0。

腾讯
腾讯，是中国一家跨国企业控股公司，总部位于深圳南山区腾讯滨海大厦。腾讯业务拓展至社交、金融、投资、资讯、工具和平台等不同领域，其子公司专门从事各种全球互联网相关服务和产品、娱乐、人工智能和技术。

2023年9月7日全球数字生态大会上，腾讯正式发布自研通用大语言模型——混元。

百度
百度公司是一家主要经营搜索引擎服务的中国互联网公司，于2000年1月1日由李彦宏、徐勇两人创立于北京中关村。

2023年3月20日，百度于官方微信公布，文心一言云服务将于3月27日上线。
2023年3月27日，百度推出文心千帆，其包括百度全套文心大模型、相应的开发工具链。
2023年6月27日，百度在一份声明中表示，其最新版本的文心一言模型——文心一言3.5，在综合能力得分上超过了ChatGPT，并在多个中文功能方面表现优于GPT-4。