初识AI Models 训练(1)
购买了N卡 Tesla M40 24G后,老机器发现了新用途,FastChat展现了ChatBot的魅力,Stable Diifusion 展现了txt2img的魅力,接下来就是玩转Models了写ymcui/Chinese-LLaMA-Alpaca: 中文LLaMA&Alpaca大语言模型+本地CPU部署 (Chinese LLaMA & Alpaca LLMs) (github.com)给了我很大启发。
使用QLoRA对Llama 2进行微调的详细笔记
peft,tramsformers等库简化了我们对于大模型开发的工作流程,并且不需要很多的专业知识也可以对大模型进行微调。但是要得到一个好的模型是一个漫长的过程,就像我们上面的代码一样,看似简单实则复杂,不仅要了解方法的原理,还要通过查看论文了解每一个参数的含义。本文是一个良好的开端,因为可以把我们在这里学到的大部分东西应用到微调任何LLM的任务中。关于微调Llama 2,我们的流程已经介绍完毕了,但是我们如何才能正确地评估我们的微调性能?能否在不花费太多的情况下调整更大的模型(70B)?
在Python中创建相关系数矩阵的6种方法
我们介绍了Python创建相关系数矩阵的各种方法,这些方法可以随意选择(那个方便用哪个)。Python中大多数工具的标准默认输出将不包括p值或观察计数,所以如果你需要这方面的统计,可以使用我们子厚提供的函数,因为要进行全面和完整的相关性分析,有p值和观察计数作为参考是非常有帮助的。_python相关系数矩阵
快速找到离群值的三种方法
DBSCAN是一种密度聚类算法,也可用于检测离群值。它根据数据点的密度来识别离群值,将密度较低的点视为离群值。LOF是一种局部离群值因子方法,用于检测局部区域内的离群值。它考虑了每个数据点周围的局部密度与相邻点的密度之间的比率,从而识别离群值。Isolation Forest是一种基于随机森林的离群值检测方法,它通过构建树结构来识别离群值。由于使用了随机性,它对高维数据和大数据集非常有效。但是这些方法执行的速度会很慢,如果对于速度要求比较严格还是需要谨慎选择。
基于对数谱图的深度学习心音分类
这是一篇很有意思的论文,他基于心音信号的对数谱图,提出了两种心率音分类模型,我们都知道:频谱图在语音识别上是广泛应用的,这篇论文将心音信号作为语音信号处理,并且得到了很好的效果。对心音信号进行一致长度的分帧,提取其对数谱图特征,论文提出了长短期记忆(LSTM)和卷积神经网络(CNN)两种深度学习模型,根据提取的特征对心跳声进行分类。
EfficientFormer:高效低延迟的Vision Transformers
我们都知道Transformers相对于CNN的架构效率并不高,这导致在一些边缘设备进行推理时延迟会很高,所以这次介绍的论文EfficientFormer号称在准确率不降低的同时可以达到MobileNet的推理速度。Transformers能否在获得高性能的同时,跑得和MobileNet一样快?为了回答这个问题,作者首先回顾了基于vit的模型中使用的网络架构和运算,并说明了一些低效的设计。然后引入一个维度一致的纯Transformer(没有MobileNet块)作为设计范例。
【算法基础】数组和链表,动态数组,循环数组,链表的变种
数组适用于需要随机访问元素和已知大小的情况,具有O(1)的访问时间,常用于排序、查找和矩阵运算等算法。链表适用于频繁插入和删除节点的情况,具有O(1)的插入和删除时间,常用于实现栈、队列、哈希表和高级数据结构,如LRU缓存。
【算法基础】栈和队列及常见变种与使用,双栈、动态栈、栈的迭代器,双端队列、优先队列、并发队列、延迟队列的使用
栈和队列及常见变种与使用,双栈、动态栈、栈的迭代器,双端队列、优先队列、并发队列、延迟队列的使用
【算法基础】一文掌握十大排序算法,冒泡排序、插入排序、选择排序、归并排序、计数排序、基数排序、希尔排序和堆排序
一文掌握十大排序算法,冒泡排序、插入排序、选择排序、归并排序、计数排序、基数排序、布尔排序、桶排序和堆排序
使用高斯混合模型拆分多模态分布
高斯混合模型是一个强大的工具,可以用来对复杂的数据分布进行建模和分析,同时也是许多机器学习算法的基础之一。它的应用范围涵盖了多个领域,能够解决各种数据建模和分析的问题。这种方法可以作为一种特征工程技术来估计输入变量内子分布的置信区间。作者:Adrian Evensen。
【python学习笔记】:实现网页视频自动下载并保存
如何使用python爬虫实现网页视频自动下载并保存:使用python爬取页面,然后自动下载视频,但是这样会有一个问题,我并不是需要所有视频,有些是垃圾视频不需要下载,python似乎还没法做到识别我对哪些视频是有价值的,所以这一步人工绕不开,我选择直接把目标视频的详情页直接右键另存为本地html文件,随后再用python批量处理这些本地的html文件。解析html文件取出视频的标题和下载url,按格式存为本地json读取json,循环下载整个list的视频,并按配置给视频命名递归读取html列表。_网站视频下载脚本
基于语言模型的语音识别与语音合成技术
作者:禅与计算机程序设计艺术 基于语言模型的语音识别与语音合成技术语音识别与语音合成技术是人工智能领域的热点和难点之一。语音识别技术主要解决语音信号转换为文本或命令的问题,而语音合成技术则将文本或命令转化为语音信号。本文将介绍基于语言模型的语音识别与语音合成技术,旨在为读
查看不同类型文件的文件头
在这个示例中,我们首先获取了上传文件的字节数组,然后读取了文件的前几个字节并将它们显示为十六进制字符串。这个示例只是一个基本的演示,实际上,文件头的内容和结构会因文件类型而异,你需要根据具体的文件类型来解释文件头数据。要查看文件的二进制文件头信息,你需要读取文件的前几个字节并将其解释为文件头数据。文件头的结构和内容取决于文件的类型。
用python做小游戏——以射击游戏为例
游戏介绍:《蜜蜂射击游戏》是一款基于Pygame开发的射击类游戏。在游戏中,玩家将扮演一名拥有射击器的玩家,目标是消灭飞行中的蜜蜂敌人并获取高分。游戏特点:1. 简单易学的操作:使用键盘控制玩家角色左右移动,空格键发射子弹,玩家需要躲避蜜蜂的攻击并尽可能地消灭它们。2. 多样化的敌人:游戏中的敌人是飞行的蜜蜂,它们会随机出现在屏幕上方并向下飞行。玩家需要准确地射击来消灭它们,同时避免被敌人的攻击命中。3. 分数系统:游戏中显示当前得分,每次成功消灭一个蜜蜂敌人,得分将会增加。玩家可以挑战自己的高分_pygame射击游戏
今日推荐
周排行