看NVIDIA GTC 2023之有感

近日，汇聚了全球AI与元宇宙开发者的目光焦点，NVIDIA GTC 2023于美国当地时间3月20日如期而至。在大会上，展出了许多先进领域与AI高速融合的产物，描绘了行业下一个发展的方向。

NVIDIA GTC作为全球AI领域的风向标，从云计算到大数据，从高性能计算到无人驾驶，从机器人到人工智能，从元宇宙到可持续计算，再到最近因为ChatGPT火爆全球的AIGC……，AI的出现，不仅打破了在线人数世界记录的速度，更是开创了AI热，对人的世界或多或少产生了些许焦虑。但历史告诉我们，蒸汽机的出现，改变了马车，但马车夫并没有失业，转行去开了汽车，生产力的突破，是时代的进步。

时代呼唤创新，在本次大会上，有许多亮点：

1：生成式 AI

通过海量的计算数据的学习，生成内容，不仅需要对图像，音频，代码，文本，3d模型进行深层次的训练，更需要体会到创作者和客户的精神上的共鸣。

AI技术正在革命性的带来3D类容的创作，相信不久的将来，会有越来越多的虚拟偶像或者虚拟人出现，为人类社会增添一份动力。

在2021年4月份的GTC主题演讲中，有一部分是黄仁勋的虚拟数字家人出境，但与2023年相比，处理过程还是繁琐了些许。首先，需要使用一卡车的数码单反相机，将人物数字化，然后在人工智能的帮助下制成动画出境。英伟达在博客中写道：“为了创建一个虚拟的黄仁勋，团队对他进行了全面的面部和身体扫描，创建了一个3D模型，然后训练人工智能模仿他的手势和表情，并应用高级人工智能技术，使他的克隆变得更真实。”2022到2023年，一年之差，AI的发展速度恐怖如斯。

近日，日本 Mitsui & Co. 宣布打造基于 NVIDIA DGX 的超算系统 Tokyo-1。Tokyo-1 是全球首款针对医药行业的生成式 AI 超算系统，将用于探索分子动力学模拟与生成式 AI 模型。

AI与传统医药学研合研发早已不是什么新鲜事，但英伟达发布一套生成式AI云服务，用于定制AI基础模型，以加速蛋白质及疗法，基因组学，化学，生物学和分子动力学的领域研究，不仅降低了医护工作者的上手难度，还加快了药物的合成速度，减少了资源的浪费，能使得科研人员能够在自有数据上对生成式 AI 应用进行微调，并直接在浏览器中运行 AI 模型推理，或通过新的云端 API 轻松集成到现有应用中。在云端上，加快了各国和各地区的数据共享。

关键词之三：CV

CV-CUDA 是一个用于云端计算机视觉的开源 GPU 加速库，旨在帮助企业在 GPU 上建立和扩展端到端、基于 AI 的计算机视觉和图像处理 Pipeline。

简单来说，就是成本更低，更高的吞吐量，以及更少的碳排放。

CV-CUDA库为研发人员提供了30种高性能的计算机视觉算法，并且将预处理和后处理的步骤从cpu转移到了gpu，从而在单个gpu上处理4倍的stream，处理相同的工组负载，它的成本只有云计算的4分之1。

在视觉上可以更少排放碳排放，增加计算机的算力的使用率。

关键词之四：自主机器

2021年，英伟达推出了cuOpt，一个实时路线优化软件，可以实时分析数据，优化交付路线，为企业提供时间优势。怎么在最短的时间到达目的地，期间受到的干扰最少，等待的时间最少，容错率最高，是每一个智慧城市和物流平台实时等客户实时考虑的一件事。cuOpt的研究人员在20年前规划了除了最佳路线，二cuOpt创建的路线与之前的获奖者的创建的路线不用，改进的路线比先前的改进高出了7.2倍，比之前创纪录的改进高出了惊人的26.6倍，确实惊人。

AI下的世界在AI的帮助下变得更加聪明和高效，许多的进度超出了人类能达到的高度，是人类在使用AI，还是AI在使用人类呢，人类能到达AI的高度，来回答这个问题吗？

关键词之五：数字孪生

数字孪生工厂，在虚拟环境下设立的工厂，它可以帮助人们在工厂未开工时，设立最佳的生产方式，提供智慧平台，设立最佳的逃生通道与应急措施，摸索出最佳的人与机器的结合方式。借助数字孪生，工程师们可以快速追溯生产数据，甚至细化到当时螺丝的力矩，更容易分析故障的原因；在车辆交付给消费者后， “回放”仍然可以在售后服务中发挥作用。因此，数字孪生工厂相当于工厂在网络上的一个数字备份，随时可以调用，并且也可以虚拟办公。

数字孪生技术迅速成为工业生产的宠儿，自然是因为它有助于生产。中国工程院院士谭建荣曾在2020年指出，数字孪生应用于工业领域，能够实现资源调配、智能化生产，显著提高生产效率。

关键词之六：对话式AI

爆火全球的chatGPT，在百度的文心一言出来后，依旧位于碾压的地位，更何况GTP4。对话式AI将在未在成为众多问答与搜索的网页的入口，对搜索的革命是翻天覆地的。

对话式AI发展过程长，从苹果的siri，到小米的小爱同学，但语音助手的发展总会让人感觉不到灵性，只会执行基础的代码，未能领悟文字中的信息。但chatGPT进过不断迭代和算力提升，进行深度学习，在交流上，你甚至感觉不到机器人的气息。电影流浪地球2中的量子计算机550w为数字生命提供了超强的算力，甚至能模拟人的神经网络与思考模式，为生命提供了另一张可能。

对话式 AI 交互数据的缺乏导致智能语音助手没有足够的学习样本变得更 “聪明”。由于对话式 AI 语音助手产品往往面向的是全球消费者，因此采集多语种、多场景、多种说话风格的对话式语音数据，赋能语音助手更全面的学习样本，是促进AI语音助手与人畅所欲言，对答如流的关键。机器人理解语意与语境，在不同的社会，不同的国家，不同的历史中会有不同的答案，因此需要面向全球消费者提供大量的训练，才能更快迭代。

各行各业的公司都希望利用交互式 avatar 来增强数字体验。但创建它们是一个复杂耗时的过程，需要应用能看、听、理解及与用户交流先进的人工智能模型。一方面可以优化人员成本，另一方面可以提高公司的算力基础。正如黄仁勋所说，生成式 AI 令人印象深刻的能力让公司产生了一种紧迫感，需要重新构想他们的产品和商业模式。在ChatGPT的浪潮下，生成式AI，大语言模型推倒了风口浪尖，各家公司越来越需要在AI上有所建树，提高工业化水平，才能增强竞争力。

视觉在AI领域起到了重要的作用，在生成式AI和对话式AI上，相当于计算机的眼睛，看得到世界，才能有所回应，流浪地球2中的moss，通过机器视觉去捕抓人类的微表情进行处理，再结合神经网络的学习，回应人类，千人千面，每一个人都有属于自己的微表情，因此视觉在人机交互上处于排头地位。

视觉在数字孪生上也起到重要的作用，通过对产品的检测，可以知道产品的质量，宝马工厂在制造车头盖时，会使用AI加以辅助，对检测到有裂缝的产品重新制造。在煤矿救援上，对矿洞建立3D模型，救援行动目标清晰，位置清晰，实数便利，在时间中抢救生命。

另外，英伟达对视觉的研究提供了许多先进的工具与强大的算力支撑，使研究更加如鱼得水。

我的未来展望，AI将会与世界融合，但AI往往能发展到人类无法在短时间内触摸到的高度，究竟是AI在玩弄人类，还是人类在使用AI，人类如何回答呢？

对于视觉的展望，立足于应急管理，视觉在救援中发挥着极其重要的地位，没有信息，就想无头苍蝇一样。因此，我做了一下规划：1，学习深度学习与机器视觉，并且打好数学基础。2，在高年级开始接触项目，从模仿到创新，紧贴时代，立足应急。

在文末，我想以这一句话作为结束：

Because of what we do, we could make what is barely possible possible, or we could make something that is very energy consuming, very energy efficient, or we could turn something that cause a lot of money, and make it more affordable.