近期AI资讯文章汇总（自用）

文章目录

一、AIGC

1.1 AIGC

AIGC定义——通过人工智能算法对数据或媒体进行生产、操控和修改的统称。
《The Document is All You Need！一站式 LLM底层技术原理入门指南》
datawhale AIGC应用优质案例库
全面接入！ChatGPT杀进15个商业应用，让AI替你打工（2023.5.9）
《深度思考：在 AI 时代，你会被放大一千倍的能力是什么？》（2023.5.8）
《AIGC大一统模型：全能Diffusion》：论文、代码:统一的多流多模态Diffusion框架

除了普通的文字生成图像功能之外，还可以输入图像生成类似图像，输入图像生成文字，输入文字生成相似文字，图片语义解耦编辑，输入图像及文字生成视频，根据隐空间编辑图像内容等等。未来的版本还将支持更多的模式，如语音、音乐、视频和3D。据论文介绍，现已证明VD及其基础框架具有以下优势：
- 可以以具有竞争力的高质量处理所有子任务。
- 支持新的扩展和应用，如图形风格和语义的分离、图像-文本双引导生成等。
- 通过这些实验和应用，为生成的输出提供了更丰富的语义洞察力。

1.2 ChatGPT系列

代码解析器（Code Interpreter）：《ChatGPT 上线最强应用：分析数据、生成代码都精通》
《ChatGPT 使用手册》
吴恩达新课又来了，手把手教你用ChatGPT API构建应用！
碾压LLaMA，「猎鹰」彻底开源！400亿参数，万亿token训练，霸榜Hugging Face
如何快速低成本训练私有领域的 AIGC 模型？
本草[原名：华驼(HuaTuo)]: 基于中文医学知识的LLaMA微调模型
AtuoGPT：AutoGPT傻瓜式使用教程+真实体验！以及文章，免费试用gitpod。
BingChat《微软Bing突然爆炸级更新！无需等待人人可用，答案图文并茂》
MetaGPT：这是一个多智能体框架，能够扮演不同的角色，一位工程师、产品经理、架构师和项目经理。与AutoGPT类似，但针对产品需求、设计、竞争分析、API和文档量身定制。只输入老板一句话的需求，它就能输出软件公司的整个流程，以及精心安排的SOP。

1.3 谷歌系列

2023.5.11，2023 Google I/O 大会发布多款产品，详见《谷歌全面反攻 ChatGPT！PaLM 2、Gemini 双杀，Bard 正式开放》：
- 正式发布 5400 亿参数大模型 PaLM 2，已为 Google 旗下产品 25 项产品赋能。
- 公布了其下一代多模态基础模型 Gemini，DeepMind 仍然还在训练过程中。模型支持多种输入方式，包含高效的工具，能够让开发者实现 API 集成。
- Google 对标 ChatGPT 的智能聊天机器人Bard 全面开放
- Google 办公套件 Workspace 推出 AIGC 工具包—Duet AI，现开放试用（对标Copilot ）
正式上线，GitHub向所有用户开放全新代码搜索引擎

1.4 CV

1.4.1 Stable Diffusion

1.4.2 智能CV

1.5 代码生成

AI代码生成器CodeWhisperer：秋叶介绍视频、官网注册
codeinterpreter-api：ChatGPT 代码解释器的开源实现
CodeGeeX2-6B ：CodeGeeX2 是多语言代码生成模型 CodeGeeX 的第二代模型，基于 ChatGLM2 架构注入代码实现。
Copilot Chat ：VSCode 最新插件，GitHub Copilot新功能—— Copilot ChatAI聊天助手来袭！

1.6 国内

《中科院学术专业版 ChatGPT》：项目针对了中科院日常科研工作，基于 ChatGPT 专属定制了一整套实用性功能，用于优化学术研究以及开发日常工作流程。其中内置的工具，包括但不限于以下这些：学术论文一键润色、语法错误查找；中英文快速互译；一键代码解释；快捷键自定义；高阶实验模块化设计；项目源代码自我剖析；智能读取论文并生成摘要。
Llama2-Chinese：专注于Llama模型在中文方面的优化和上层建设的高级技术社区，包括中文语料、模型部署、微调等。
Colossal-AI：全球规模最大、最活跃的大模型开发工具与社区，提供开箱即用的 8 到 512 卡 LLaMA2 训练、微调、推理方案，对 700 亿参数训练加速 195%，并提供一站式云平台解决方案，极大降低大模型开发和落地应用成本。

1.7 谷歌插件

《ChatGPT插件推荐，效率提升100倍！》
沉浸式翻译： 目前感觉最好用的翻译插件，可以在各种网页上进行一键翻译，同时保留英文原文，方便你进行中英对照。即使是视频里的英文字幕也可以翻译。
- 一键导出双语电子书，同时支持 PDF、字幕、TXT 等文件的实时双语翻译。
- 创新的鼠标悬停翻译 - 仅需将鼠标停留在任意网页的任意段落上，相应的译文就会立即出现在段落下方。
- 深度定制优化主流网站 - 针对 Google、Twitter、Reddit、YouTube、彭博社、华尔街日报等主流网站进行优化，无论是搜索、社交还是获取资讯，都更加流畅高效。
WebChatGPT： 使ChatGPT 具备互联网访问功能，并集成各种prompt。注意：不需要联网搜素时请关闭此功能，否则会把你的prompt都拿去联网搜素。
ChatGPT File Uploader： 安装之后，chatgpt页面会多一个submit file的按钮，用于上传文件。类似功能的还有ChatGPT File Uploader Extended。
ChatGPT to Markdown：安装之后在chatgpt对话页面右上角出现一个M小图标，点击后会弹出一个窗口，里面就是对话内容的markdown格式，并且是实时显示的。也就是说，新增的对话内容会马上显示在窗口里，非常方便，经常提问写博客的很有用。
MaxAI.me： 在任何网页上使用ChatGPT AI。可以在任意网页选择一段文字进行操作，然后便捷选择需要的操作（翻译、总结、续写、解释、运行。。。），支持各种主流的AI模型。类似功能的还有Monica（AI副驾驶）。
Web2Markdown： 可将当前页面的内容转换为 Markdown 格式。此转换保留网页的文本、标题、链接、图像和其他元素，使您能够以简洁易读的方式保存和共享网站内容。

在这里插入图片描述

如上图所示，安装之后固定在浏览器插件栏。上面是我在csdn的博客，点击Web2Markdown插件图标，过几秒就会弹出markdown内容窗口，直接一键复制就行。

YouTube Summary with ChatGPT & Claude： AI时代，看视频最快的方式不是2倍速、3倍速、10倍速，而是让AI帮你看。安装之后，在YouTube网站会出现一个插件图标，点击transcript&summary之后，弹出的窗口秒生成视频全部内容，可自选语言。每段话的时间点，点击之后视频还会自动跳到对应位置。点击chatgpt图标可以将内容发送到chatgpt，最右边按钮还可以复制全部视频文本。
Mr.-Ranedeer-AI-Tutor： 作者通过撰写一份7800token的提示词，将chatgpt打造成专业的AI导师，引导你进行课程学习，对我来说就跟插件的功能一样。通过作者的分享链接，选择继续这个对话就行，然后输入/language 简体中文，先切换为中文模式。/config设置导师类型，/plan设置课程，/start开始学习。以下是详细配置

二、深度学习

2.1 NLP

《RoPE可能是LLM时代的Resnet》：Resnet解决了卷积模型变深之后梯度消失的问题，使的深度模型大放光彩。RoPE（位置编码）类似的也解决了LLM context过长之后引起的上下文无法关联问题。

2.2 CV

《综述｜视觉Transformer在CV中的现状、趋势和未来方向》
Kaggle知识点：YOLO V5 超参数优化
视频预训练（Video Pre-Training，VPT）用于模仿学习（强化学习分支）。通过看完70000小时玩家视频之后，AI就学会了在我的世界中执行各种任务，《我的世界》已经成为AI技术试验田。
Kaggle知识点：常见的语义分割损失

2.3 LLM

《LLM综述》
《FreeWilly：击败Llama 2，抗衡GPT-3.5》
《LangChain: Chat with Your Data》：如何基于LangChain使用LLM构建私有数据的问答系统和聊天机器人
【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”
ToolLLM：促进大型语言模型掌握16000+真实世界的APIs：为了促进开源LLMs的工具使用能力，作者引入了 ToolLLM，这是一个数据构建、模型训练和评估的通用工具使用框架。
开源模型 OpenChat 超越 ChatGPT
Claude2.0：Claude2.0，他来了、Claude2 深度使用体验、《免费，免魔法！建议收藏！本地版Claude-2五步喂饭级教程》
基于 Quivr 搭建个人专属知识库

2.4 神经网络

Kaggle知识点：R-Drop 正则化：由于dropout引入的随机性，训练和推理之间存在一定的不一致性，这可能影响模型的性能和鲁棒性。对于每个训练样本，R-Drop通过最小化两个由dropout采样得到的子模型的输出分布之间的双向KL散度来实现。这样做的目的是使得不同的dropout采样下的子模型生成的输出在统计分布上更加一致，从而减少训练和推理之间的差异。
《GPU多卡并行训练总结（以pytorch为例）》
深度学习调参最全指南！(附对应pdf)
神经网络训练trick
Kaggle知识点：深度学习代码规范

三、机器学习

四、赛事

STI比赛任务二：【答案检验基线方案以及思路分享】、完整代码
Kaggle ICR 赛题 LightGBM基础思路
Kaggle赛题总结：Stable Diffusion
文本分类微调实战技巧
Kaggle比赛总结：ICR疾病预测（数据挖掘）：根据56个匿名化的健康特征，预测一个人是否患有三种特定的医疗条件之一，是一个二分类的任务。
科大讯飞：恶性细胞识别 baseline（目标检测）
科大讯飞：多标签图像检索 baseline（多模态）：构建一个模型输入多个文本标签，检索得到包含标签内容的图像。
科大讯飞：遥感倾斜舰船检测 baseline（目标检测）

五、工具

《终结1.x时代，PyTorch 2.0来了！100%向后兼容，一行代码将训练提速76%》
《Chapyter》：ChatGPT搬进Jupyter，自然语言编程一站搞定
《jupyter-ai》、《JupyterAI上手初体验，魔法命令加知识库玩花活》
Sider ——功能强大的个人AI助手：
- Sider可以让我们使用国内网络直接体验到ChatGPT、NewBing、Bard、Painter的优秀大模型，支持GPT-3.5、GPT-4.0，并且软件界面语言全面支持中文显示
- 软件提供了近150个训练好的AI助手，包括财务、个人成长、工作、沟通、计算机科学、技术、健康、科学、求职、通讯、写作、学术、艺术、娱乐、语言等各个方面，当然，你也可以根据自己的需求，训练出符合自己需求的机器人助手。
prompt社区即将开放中文版：prompt开源学习交流社区FLOWGPT。
Pandas 2.0 数据科学家的游戏改变者
使用Streamlit部署你的模型

近期AI资讯文章汇总（自用）

文章目录

一、AIGC

1.1 AIGC

1.2 ChatGPT系列

1.3 谷歌系列

1.4 CV

1.4.1 Stable Diffusion

1.4.2 智能CV

1.5 代码生成

1.6 国内

1.7 谷歌插件

二、深度学习

2.1 NLP

2.2 CV

2.3 LLM

2.4 神经网络

三、机器学习

四、赛事

五、工具

猜你喜欢