LLM - 使用 Unsloth 框架 轻量级 训练 GRPO 算法 教程
文章浏览阅读1k次,点赞7次,收藏23次。Unsloth 是开源 大语言模型(LLM) 微调框架,通过优化 计算步骤 和 GPU 内核,提升训练速度,减少内存使用,支持主流的 LLM 模型,在单 GPU 上可实现最高 10 倍、多 GPU 上最高 32 倍的加速效果,内存使用降低 70% 以上,支持动态 4 位量化技术,在不显著增加显存的情况下,提高模型精度,兼容 Hugging Face 生态系统,支持长上下文训练,提供多种模型导出格式。_unsloth教程 sft gpro
【C++】二叉树的进阶
文章浏览阅读1.8k次,点赞102次,收藏78次。本文围绕二叉搜索树展开,介绍其概念,中序遍历值为升序。详细阐述操作实现,包括创建树形结构、各类函数及循环和递归版本的查找、插入、删除操作。还说明了K模型和KV模型应用,分析性能。最后给出二叉树进阶面试题及对应链接。
深入浅出理解Android系统中的SeLinux
文章浏览阅读684次,点赞8次,收藏17次。简单介绍SeLinux的历史以及SeLinux在Android系统中的使用_android的selinux
【更新至2023年】2000-2023年全国各省农村平均受教育年限数据(含原始数据+计算过程+结果)
文章浏览阅读266次。2000-2023年全国各省农村平均受教育年限数据(含原始数据+计算过程+结果)_2023年农业生产经营人员平均受教育年限
eBook Tools 使用教程
文章浏览阅读1k次,点赞19次,收藏27次。eBook Tools 使用教程 ebook-tools Shell scripts for organizing and managing ebook collections 项目地址: https://gitcode.com/..._毕里tools如何使用
LeetCode - 神经网络的 反向传播(Sigmoid + MSE) 教程
文章浏览阅读174次。使用 Python + Numpy,设计带有 Sigmoid 激活函数 的神经网络,实现反向传播以更新神经元的权重和偏置。函数输入:特征向量(Input)、真实标签(Label)、初始权重(Weight)、初始偏置(Bias)、学习率(LR)、训练轮数(Epoch)。基于 均方误差(MSE) 损失,使用梯度下降法,更新权重和偏置。函数输出:更新后的权重、偏置、每一轮训练的 MSE 值列表,每个 MSE 值保留四位小数。_给定feature 和 label 写神经元,用mse 反向传播
1997-2024年各省樊纲市场化指数和各分项指数数据(含原始数据+计算代码+结果)
文章浏览阅读299次。1997-2024年各省樊纲市场化指数和各分项指数数据(含原始数据+计算代码+结果)_樊纲市场化指数
obsidian-typings:扩展Obsidian API的类型定义
文章浏览阅读889次,点赞30次,收藏27次。obsidian-typings:扩展Obsidian API的类型定义 obsidian-typings Typescript typings for undocumented parts of the Obsidian API ...
LLM - 大模型构建 Reasoning 推理数据集(OpenR1-Math-220k) 教程
文章浏览阅读488次,点赞5次,收藏8次。使用蒸馏的推理(Reasoning)数据集,进行模型微调(SFT),即使不使用强化学习(RL),也可以提升大模型的效果。因此,构建合适的推理数据集,就可以训练不同的高性能推理模型。_openr1-math-220k 数据集 预览
Android 12系统源码_系统启动(三)SystemServer进程
文章浏览阅读539次,点赞3次,收藏3次。结合Android12系统源码梳理SystemServer进程的相关源码_android waitfordisplay took to 3550ms
gptqlora:高效微调量化大型语言模型
文章浏览阅读796次,点赞21次,收藏12次。gptqlora:高效微调量化大型语言模型 gptqlora GPTQLoRA: Efficient Finetuning of Quantized LLMs with GPTQ 项目地址: https://gitcode.com...
LLM - 关于 KL 散度的一些理解
文章浏览阅读953次,点赞4次,收藏17次。KL 散度 (Kullback-Leibler Divergence) 是衡量两个概率分布之间差异的一种非对称性度量工具。基于信息论原理,用于量化一个概率分布相对于另一个概率分布的信息损失程度。KL 散度值越小,表示两个分布越相似;反之,值越大,说明分布差异越大。
Android 12系统源码_输入系统(四)触摸异常问题排查
文章浏览阅读722次,点赞16次,收藏5次。在遇到系统因为触摸事件异常导致冻屏问题的时候,如何进行异常问题原因的排查和定位_android input系统常见问题
区块链溯源、数据融合、机器学习算法、温室控制模型、实验设计、数据预处理、无线传感网络
文章浏览阅读872次,点赞16次,收藏12次。◦ 包括实验目的及研究问题、实验对象和样本、实验方法和程序、实验仪器和设备、数据处理和分析方法、实验流程控制和质量控制、环境和安全措施、难点及可行性分析。◦ 从庞杂数据中提取有意义模式和信息的过程,包括数据收集整理、特征选择、构建模型、模型评估和模型应用等步骤,常见算法有决策树、聚类分析等,应用领域广泛。◦ 包括实验目的、对象和样本、方法和程序、仪器设备、数据处理分析方法、流程控制和质量控制、环境和安全措施、难点及可行性分析。◦ 包括数据清洗、集成、变换、规约和可视化,用于将原始数据整理成适合分析的形式。
Immich Public Proxy 项目教程
文章浏览阅读433次,点赞19次,收藏19次。Immich Public Proxy 项目教程 immich-public-proxy Share your Immich photos and albums in a safe way without exposing your Immich instance to the public. ...
LLM - 多模态大模型(MLLM) 的 Step-by-Step 推理步骤奖励 (R1-VL) 教程
文章浏览阅读863次,点赞13次,收藏24次。通过高质量 思维链(Chain-of-Thought, CoT) 的推理数据,有监督微调(Supervised Fine-Tuning) 增强多模态大语言模型(MLLM) 的推理能力,导致模型只是模仿成功的推理路径,而不理解错误的推理路径。将 MLLM 的推理能力,超越 被动(Passively) 模仿正确推理路径,使用 逐步分组相对策略优化(StepGRPO),通过 简单(simple)、有效(effective)、密集(dense) 的逐步奖励,自主提升推理能力。_基于推理规则的大模态
2001-2023年各省分性别平均受教育年限数据(含原始数据+计算过程+结果)
文章浏览阅读493次,点赞19次,收藏2次。2001-2023年各省分性别平均受教育年限数据(含原始数据+计算过程+结果)_中国截止2025年人均平均受教育年限
今日推荐
周排行