DeepSeekarchive - Efficient Coder

DeepSeek开源周第五日：探秘3FS与SmallPond的黄金组合

1 months ago 高效码农

当AI遇上海量数据：探秘3FS与SmallPond的黄金组合一、Fire-Flyer文件系统（3FS）——AI时代的存储引擎核心设计理念这个被命名为”萤火虫”的分布式文件系统，如同它的名字般在AI训练场景中闪烁着独特光芒。其三大核心设计犹如三重引擎：解耦式架构：将数千块SSD的吞吐能力与数百个存储节点的网络带宽智能整合，就像把无数萤火虫的光亮汇聚成灯塔。这种设计让应用程序无需关心数据物理位置，真正实现”哪里需要点哪里”的存储体验。强一致性保障：采用CRAQ协议确保数据一致性，开发者可以像操作本地文件一样放心使用，彻底告别分布式系统常见的数据同步噩梦。无感兼容设计：保留传统文件接口的同时，底层采用事务型键值存储（如FoundationDB）。开发者无需学习新API，现有代码几乎零成本迁移。性能怪兽的实战表现吞吐力测试：在180个存储节点、500+客户端的集群中，读取吞吐量达到惊人的6.6TiB/s，相当于每分钟传输400部4K电影排序挑战赛：110.5TB数据排序仅用30分钟，平均吞吐3.66TiB/min，刷新GraySort基准测试记录推理加速器：KVCache技术实现40GiB/s读取吞吐，用SSD缓存替代昂贵DRAM，推理成本直降70% 二、SmallPond——轻量级数据处理神器极简哲学三要素 DuckDB内核：这个嵌入式分析库就像数据处理界的瑞士军刀无服务架构：告别复杂的环境配置，开箱即用的设计让开发效率倍增智能分区：自动哈希分片技术让PB级数据处理举重若轻 # 典型使用场景示例import smallpondsp = smallpond.init()# 数据加载与处理df = sp.read_parquet(“大数据集.parquet”)df = df.repartition(哈希列=”用户ID”) # 智能分片# SQL魔法变换df = sp.partial_sql(“SELECT 用户ID, SUM(消费额) FROM {0} GROUP BY 用户ID”, df)# 结果输出df.write_parquet(“分析结果/”) 性能实测对比数据规模传统方案耗时 SmallPond耗时 1TB 45分钟 8分钟 10TB 6小时 35分钟 100TB 3天 5小时三、黄金组合实战图谱 graph LR A[原始数据] –> B{3FS存储集群} B –> C[SmallPond预处理] C –> D[训练数据集] D –> E[分布式训练] E –> F[模型检查点] F –> B E –> G[推理服务] G –> H[KVCache] H –> B 典型应用场景智能推荐系统： 3FS实时存储用户行为数据 SmallPond分钟级生成特征矩阵训练/推理共享存储，数据流转效率提升5倍自动驾驶训练：千万级标注数据秒级读取分布式训练检查点写入速度达800GiB/s 模型迭代周期从周缩短到天金融风控建模： PB级交易数据实时分析百亿级特征维度秒级处理规则更新延迟降低至分钟级四、开发者成长路径对于转型AI开发的程序员，建议分三步走：基础掌握：理解3FS的CRAQ协议与SmallPond的分区策略场景实践：从单机部署开始，逐步过渡到多节点集群性能调优：掌握网络拓扑感知、数据本地化等进阶技巧这套组合拳不仅降低了分布式系统开发门槛，更将数据处理效率提升到新高度。当AI遇见海量数据，3FS与SmallPond这对黄金搭档正在重新定义存储与计算的边界。

DeepSeek开源周第四日：双向并行+智能负载均衡，训练效率飙升！

1 months ago 高效码农

技术全景概述 DeepSeek在V3/R1系列大模型训练中开源了三项核心技术：双向管道算法DualPipe实现全量计算通信重叠，专家负载均衡器EPLB解决万卡级MoE训练负载不均问题，配套开源性能分析数据揭示底层实现细节。三项技术共同构成了千亿参数大模型的高效训练基础设施。双向管道算法DualPipe 首创双向调度机制，前向/反向计算形成对称流水线，相比传统1F1B算法减少50%流水线气泡通过8PP+20微批次的对称调度示例，实现计算阶段与通信阶段100%重叠（示意图显示黑框区域为重叠部分）内存占用仅2倍参数+PP+1激活，在PP=64时气泡时间公式为(64/2-1)(F&B+B-3W)，显著优于ZB1P等算法提供PyTorch示例代码，需自定义overlapped_forward_backward方法实现具体模块的并行逻辑专家负载均衡器EPLB 采用专家冗余策略，对高负载专家进行智能复制（如示例中将负载183的专家复制到不同GPU）双模式动态切换：当节点数整除专家组时启用分层均衡（先节点级均衡再GPU级均衡），否则采用全局均衡硬件拓扑感知设计，将同组专家绑定到相同节点（配合group-limited路由机制），减少90%跨节点通信提供二维权重矩阵接口，支持动态负载预测（如示例中两层专家权重矩阵的实时调整）性能分析数据宝藏训练剖面：展示EP64+TP1配置下4个MoE层的计算通信重叠，前向块与反向块形成完美交织波形预填充优化：EP32配置处理4k提示时，将16k tokens拆分为两个微批次，使Attention计算与All2All通信重叠解码黑科技：EP128配置下RDMA通信不占用SM资源，在生成128请求时实现通信后置化处理可视化方法：通过chrome://tracing工具可直观观测到MoE层的负载均衡情况（示例图显示各GPU负载差异<5%）

DeepSeek开源周第三日：DeepGEMM如何让矩阵计算快如闪电？

1 months ago 高效码农

揭秘AI加速黑科技：DeepGEMM如何让矩阵计算快如闪电？一、为什么我们需要更快的“数学计算器”？想象一下，AI模型（比如ChatGPT）做一次推理，就像用超大型计算器做亿万次加减乘除。而矩阵乘法（GEMM）就是其中最耗时的“计算步骤”。传统计算库像老式计算器，虽然能用，但面对AI模型的复杂需求（比如百亿参数、混合专家结构），速度跟不上了！ DeepGEMM应运而生——它专为AI时代的计算而生，用“黑科技”让矩阵乘法速度翻倍，甚至比老牌计算库快2.7倍！二、DeepGEMM的三大杀手锏 1️⃣ FP8精度 + 智能内存搬运工（TMA） FP8是什么？一种“瘦身版”数据格式，用更少内存存更多数字，但计算精度依然够用。 TMA黑科技：像传送带一样高速搬运数据，比传统方式快得多！（效果：小矩阵计算速度达206万亿次/秒，相当于每秒完成全人类10年的手算量！） 2️⃣ 实时编译（JIT）——没有中间商赚差价传统库：提前编译所有可能情况，安装包巨大。 DeepGEMM：像“即时翻译”，运行时按需生成最优代码，核心代码仅300行！（省内存、速度快，尤其适合小矩阵计算，速度提升高达1.8倍） 3️⃣ 混合专家（MoE）专属优化当AI模型像“专家委员会”分工协作时，DeepGEMM能智能调度计算资源。（实测：8组专家并行计算，速度比传统库快1.2倍，吞吐量达1297万亿次/秒）三、性能实测：用数据说话场景计算规模速度优势小矩阵推理 64x2112x7168 快2.7倍大矩阵训练 4096x7168x2048 快1.4倍混合专家模型 8组专家并行快1.2倍四、这技术能用在哪？ ChatGPT等大模型推理：减少卡顿，回答更流畅。自动驾驶实时计算：毫秒级决策，安全加倍。科学模拟：天气预报、药物研发速度飙升。五、极简体验：一行代码起飞 import deep_gemm # 输入两个FP8矩阵，输出高速计算结果 result = deep_gemm.gemm_fp8_fp8_bf16_nt(矩阵A, 矩阵B) （安装只需python setup.py install，小白也能玩转！）结语：让计算更快，让AI更智能 DeepGEMM不仅是技术的突破，更是AI普惠的关键一步。无论是学术研究还是工业落地，它都像给AI引擎装上了涡轮增压器。未来已来，你准备好加速了吗？

DeepSeek开源周第二日-DeepEP

1 months ago 高效码农

DeepEP 是一个专为混合专家模型（MoE）和专家并行（EP）设计的通信库，旨在提供高效的 GPU 通信能力，支持高吞吐、低延迟的分布式计算，适用于训练和推理场景。核心功能高性能通信内核正常内核：支持 NVLink（GPU 间高速互联）和 RDMA（远程直接内存访问）混合转发，适用于训练和推理预填充阶段。低延迟内核：纯 RDMA 设计，专为推理解码阶段优化，减少通信延迟。低精度支持：包括 FP8 等低精度操作，节省显存并提升效率。性能表现正常内核：在 H800 GPU 测试中，单节点内（Intranode）通信带宽可达 ~150 GB/s，跨节点（Internode）带宽约 ~45 GB/s。低延迟内核：单次通信延迟最低 163 微秒，带宽稳定在 ~40 GB/s 以上，支持大规模并行（如 256 EP）。快速上手系统要求 Hopper 架构 GPU（如 H800）、CUDA 12.3+、PyTorch 2.1+。依赖修改版 NVSHMEM（需按指南安装）。安装与测试 # 安装依赖并编译 NVSHMEM_DIR=/path/to/nvshmem python setup.py install # 运行测试（需根据集群配置调整参数） python tests/test_intranode.py python tests/test_internode.py 网络配置建议流量隔离：使用 InfiniBand 的虚拟通道（VL）隔离不同任务（如正常内核、低延迟内核）。自适应路由：低延迟内核支持该功能，可缓解网络拥堵，但可能增加延迟。静态路由：轻负载环境下推荐，避免额外开销。使用示例训练/预填充阶段 # 初始化通信缓冲区 buffer = get_buffer(group, hidden_bytes) # 数据分发（Dispatch） recv_x, recv_idx, recv_weights, … = buffer.dispatch(x, topk_idx, …) # 数据合并（Combine） combined_x, event = buffer.combine(x, handle, …) 推理解码阶段 # 低延迟模式初始化（需指定最大 token 数） buffer = get_buffer(group, …

DeepSeek开源周第一日-FlashMLA

1 months ago 高效码农

FlashMLA [](#flashmla) FlashMLA 是适用于 Hopper GPU 的高效 MLA 解码内核，针对可变长度序列服务进行了优化。目前已发布： BF16 块大小为 64 的分页 kvcache 快速启动安装 python setup.py install 基准 python tests/test_flash_mla.py 使用 CUDA 12.6，在 H800 SXM5 上，在内存绑定配置下实现高达 3000 GB/s，在计算绑定配置下实现 580 TFLOPS。用法 from flash_mla import get_mla_metadata, flash_mla_with_kvcache tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) for i in range(num_layers): … o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True, ) … 要求 Hopper GPU CUDA 12.3 及更高版本 PyTorch 2.0 及以上版本 @misc{flashmla2025, title={FlashMLA: Efficient MLA decoding kernel}, author={Jiashi Li}, year={2025}, publisher = {GitHub}, howpublished = {\url{https://github.com/deepseek-ai/FlashMLA}}, } 这个开源的意义可以用三个简单比喻来解释：像给工厂换上了智能流水线传统AI处理不同长度的文字（比如聊天对话），就像工厂处理不同尺寸的包裹需要频繁调整流水线，效率低。现在这个技术就像能自动伸缩的智能流水线，无论长短信息都能流畅处理。相当于给AI发动机升级了涡轮增压专门为最新GPU（Hopper架构）设计，就像给跑车引擎加装涡轮，让AI生成内容的速度更快，同时更省电（降低计算成本）。实测比传统方法快3倍，好比把车速从60码提到180码。如同开放了顶级餐厅的独家菜谱不仅自己用得好，还公开了核心技术配方。就像米其林餐厅公开招牌菜的烹饪秘籍，让所有开发者都能做出同样高水准的”料理”，推动整个AI行业的发展。目前已有企业使用该方案节省了40%的云计算开支。

windows安装部署DeepSeek模型兼容性检测

1 months ago 高效码农

如果想快速检测，请移步点击：DeepSeek模型兼容性检测检查设备能否运行不同规模的DeepSeek模型硬件信息获取与模型支持判断获取硬件信息的关键点获取硬件信息的关键点包括： CPU 内存 GPU（如果有的话）对于模型支持的大小，主要影响因素是：内存大小 GPU 的 VRAM 例如： 7B 的模型可能需要至少 16GB 内存更大的模型如 33B 可能需要 32GB 或以上如果有独立 GPU，尤其是 NVIDIA 的显卡，显存也很重要。例如： 16GB 显存可以运行更大的模型。批处理脚本设计 1. 获取总物理内存使用 systeminfo 命令可以获取系统信息，包括内存。通过 findstr 过滤输出行，提取总物理内存。示例代码： for /f "tokens=2 delims=:" %%a in (‘systeminfo ^| findstr /C:"安装的物理内存"’) do set "total_memory=%%a" set "total_memory=%total_memory: =%" for /f "tokens=1 delims=. " %%b in ("%total_memory%") do set total_memory_gb=%%b 解析：提取 systeminfo 输出中的“安装的物理内存”行。清理空格和单位（如 GB），将值存储到变量 total_memory_gb 中。 2. 获取显卡信息方法一：使用 wmic 通过 wmic path Win32_VideoController get Name, AdapterRAM 获取显卡名称和显存大小。示例代码： for /f "tokens=*" %%d in (‘wmic path Win32_VideoController get Name^, AdapterRAM /format:list ^| findstr …

使用unsloth在kaggle上微调 DeepSeek R1

1 months ago 高效码农

在本教程中，我们将在 Hugging Face 的医疗思路链数据集上对模型进行微调DeepSeek-R1-Distill-Llama-8B。这个精简的 DeepSeek-R1 模型是通过在使用 DeepSeek-R1 生成的数据上对 Llama 3.1 8B 模型进行微调而创建的。它展示了与原始模型类似的推理能力。如果您是 LLM 和微调的新手，我强烈建议您参加Python 中的 LLM 简介课程。作者图片 DeepSeek R1 简介中国人工智能公司 DeepSeek AI 已开源其第一代推理模型 DeepSeek-R1 和 DeepSeek-R1-Zero，它们在数学、编码和逻辑等推理任务上的表现可与 OpenAI 的 o1 相媲美。您可以阅读我们关于 DeepSeek R1 的完整指南以了解更多信息。 DeepSeek-R1-Zero DeepSeek-R1-Zero 是第一个完全使用大规模强化学习(RL) 而不是监督式微调 (SFT) 作为初始步骤进行训练的开源模型。这种方法使模型能够独立探索思路链(CoT) 推理、解决复杂问题并迭代优化其输出。然而，它面临着重复推理步骤、可读性差和语言混合等挑战，这些挑战会影响其清晰度和可用性。 DeepSeek-R1 DeepSeek-R1 的推出是为了通过在强化学习之前加入冷启动数据来克服 DeepSeek-R1-Zero 的局限性，为推理和非推理任务提供坚实的基础。这种多阶段训练使模型能够在数学、代码和推理基准上实现与 OpenAI-o1 相当的最先进的性能，同时提高其输出的可读性和连贯性。 DeepSeek 蒸馏除了需要大量计算能力和内存才能运行的大型语言模型外，DeepSeek 还引入了精简模型。这些更小、更高效的模型已经证明它们仍然可以实现出色的推理性能。这些模型的参数范围从 1.5B 到 70B，保留了强大的推理能力，其中 DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中的表现均优于 OpenAI-o1-mini。较小的模型继承了较大模型的推理模式，展示了提炼过程的有效性。来源：deepseek-ai/DeepSeek-R1 阅读DeepSeek -R1：功能、o1 比较、提炼模型等博客，了解其主要功能、开发过程、提炼模型、访问、定价以及与 OpenAI o1 的比较。[](https://www.datacamp.com/blog/deepseek-r1)[](https://www.datacamp.com/blog/deepseek-r1) 微调 DeepSeek R1：分步指南要微调DeepSeek R1模型，您可以按照以下步骤操作： 1. 设置对于这个项目，我们使用 Kaggle 作为我们的 Cloud IDE，因为它可以免费访问 GPU，而这些 GPU 通常比 Google Colab 中提供的 GPU 更强大。首先，启动一个新的 Kaggle 笔记本，并将您的 Hugging Face 令牌和 Weights & Biases 令牌添加为机密。您可以通过导航到Add-onsKaggle …

本地Deepseek添加知识库：回答不准确、不按照知识库回答、知识库乱码

1 months ago 高效码农

本地Deepseek添加知识库：回答不准确、不按照知识库回答、知识库乱码问题背景近期有开发者反馈，在使用本地部署的Deepseek大模型对接自定义知识库时，遇到了以下三类典型问题：回答内容不准确：模型输出的答案与知识库内容存在明显偏差不按知识库回答：模型完全忽略知识库内容，仅根据自身训练数据生成回答知识库乱码现象：加载的文档出现大量乱码字符，影响模型理解问题分析经过实际测试和日志分析，我们发现这些问题存在一个共同特征：当知识库文档采用非UTF-8编码时，上述问题出现的概率显著增加。具体表现为： 1. 编码不兼容导致解析异常当文档使用GBK/GB2312等中文编码时：特殊符号（如·、®、©等）会被错误解析中英文混合内容可能出现断句错误标点符号转换异常（如中文引号被识别为英文引号） 2. 内容截断引发理解偏差非UTF-8编码文件在读取时可能触发以下问题： # 典型错误示例（Python） with open("knowledge.txt", "r") as f: # 未指定encoding参数 content = f.read() # 默认使用系统编码，可能造成内容截断 3. 元数据处理失效模型预处理模块可能无法正确识别：使用BIG5等编码的繁体中文文档包含BOM头的UTF-8文档混合编码的多格式文档集合解决方案步骤1：统一编码格式 # 使用iconv工具批量转换（Linux/Mac） find ./knowledge_base -name "*.txt" -exec iconv -f GBK -t UTF-8 {} -o {}.utf8 \; # Windows推荐工具： # 1. Notepad++ 编码转换功能 # 2. VS Code 右下角编码选择器步骤2：添加编码声明对于CSV/XML等结构化文档： # 首行添加编码声明 # -*- coding: utf-8 -*- 姓名,职务,联系方式张三,技术总监,zhangsan@example.com 问题根源根本原因是字符集编码不统一。Deepseek的文本处理管线基于UTF-8设计，当遇到其他编码格式时：文本解析器会错误分割语义单元词向量生成出现维度偏移注意力机制计算产生异常权重分配

3个DeepSeek隐藏玩法，99%的人都不知道！

2 months ago 高效码农

3个DeepSeek隐藏玩法，99%的人都不知道！最近，DeepSeek-R1 这款号称“中国版O1”的 AI 模型刷屏了！它在数学和编程领域表现出色，中文写作能力强，对提示词的理解也有很大突破。但许多用户在使用后，发现它似乎并没有想象中那么好用。别急！今天给大家分享 3 个小技巧，帮你正确解锁 DeepSeek-R1 的隐藏玩法。 1. 不要用结构化提示词对话以往我们用的 AI 模型，都需要结构化的提示词，例如：角色：你是一个专业的旅行规划师。任务：帮我制定一份预算 1000 元的天津旅游攻略。执行步骤：…… 但 DeepSeek-R1 是一个推理模型，不需要这么做。 ✅ 正确做法：只需告诉它你的目标，例如： “我预算 1000 元，帮我规划一份天津旅游攻略。” 2. 不要一开始就开启“深度思考”模式很多人发现 DeepSeek-R1 “超能装”，回答里充满了各种术语。这是因为它默认开启了“深度思考”模式，导致回答过于复杂。 ✅ 解决方法：先用普通模式交流几轮，让它“学会”用正常语言表达。再切换到深度思考模式，就能避免专业术语过多的问题。 3. 让它“说人话” 如果 DeepSeek-R1 回答仍然晦涩难懂，你可以在提示词中直接说明： ✅ 示例提示词： “请用通俗易懂的语言解释这个概念。” 或更直接地告诉它： “用大白话说，不要太专业。” 这样，它的回答会更接地气、更容易理解。总结 ❌ 不要结构化提示词 → ✅ 直接说目标 ❌ 不要一开始开深度思考 → ✅ 先聊几轮再开启 ❌ 不要让它装专业 → ✅ 告诉它‘说人话’ 这样，你就能更高效地使用 DeepSeek-R1 了！

零基础使用DeepSeek高效提问技巧

2 months ago 高效码农

零基础使用DeepSeek高效提问技巧核心原则 DeepSeek 是「模式匹配专家」，清晰的指令能激活更精准的知识关联。以下技巧助你高效对话：技巧1：明确具体目标反例与改进 ❌ 反例：帮我写个方案缺陷诊断：缺少行业/场景/格式等关键约束条件 ✅ 正例：作为跨境电商创业者，我需要制定亚马逊新品推广方案，请按以下框架展开：市场调研方法（要求包含3种低成本工具）推广阶段划分（分预热期/爆发期/长尾期）风险控制清单优势：结构化需求 + 场景限定，生成可直接落地的文案。技巧2：提供背景信息反例与改进 ❌ 反例：这段话怎么修改更好："产品具有卓越性能" 缺陷诊断：缺失产品类型/受众/使用场景等关键信息 ✅ 正例：我正在修改智能手环英文产品说明书，目标用户是北美户外运动爱好者。请将"产品具有卓越性能"改为：包含防水等级/续航数据添加符合美国人认知的类比参照（如“续航堪比马拉松运动员的耐力”）使用激励性动词（如“征服极端环境”）执行建议：提供背景和目标，明确底层诉求。技巧3：分步拆解复杂问题反例与改进 ❌ 反例：如何从零开始做小红书账号？缺陷诊断：问题过于宏大，易得到泛泛回答 ✅ 正例：请分三步指导新手运营家居类小红书账号： Step1：冷启动期（0-500粉）必备动作清单 Step2：爆款内容公式（含标题/封面/发布时间模板） Step3：1000粉后商业变现路径关键点：用「Step+数字」拆分阶段，获取阶梯式指引。技巧4：及时反馈修正对话操作示例用户初次指令：请用李佳琦风格写防晒霜卖点 → DeepSeek生成直播话术1.0版反馈修正：语气可以更夸张，增加5个感叹词补充实验室检测数据，用可视化类比结尾添加紧迫感促销话术（如“限时抢购只剩24小时！”）效果：通过迭代优化，逐步逼近理想输出。技巧5：善用追问扩展话术经典模板风险预判：基于这个方案，可能遇到哪些实施风险？给出应对策略理论迁移：如果用XX理论/XX模式重新解构问题，会得到什么新结论？行动提炼：请将以上内容提炼为3个可立即执行的动作要点价值：通过追问挖掘深层洞见，提升方案完备性。高效对话 = 清晰目标 + 充分背景 + 结构化拆分 + 动态修正 + 深度追问