首次披露：理论成本利润率为545%！

发布时间：2025-03-13 03:13:43 作者：玩站小弟

DeepSeek开源周结束，DeepSeek以最后一弹，再次在AI江湖上激起层层涟漪。 3月1日，DeepSeek在知乎上发表了题目《DeepSeek-V3/R1 文章《推理系统概述》全面揭示V3/R 新生军训心得体会500字。

　　DeepSeek开源周结束，首次DeepSeek以最后一弹，披露再次在AI江湖上激起层层涟漪。理论利润率新生军训心得体会500字

　　3月1日，成本DeepSeek在知乎上发表了题目《DeepSeek-V3/R1 文章《推理系统概述》全面揭示V3/R1 推理系统背后的首次关键秘密。

　　最引人注目的披露是，本文首次披露了DeepSeek的理论利润率理论成本和利润率等关键信息。据报道，成本假设GPU租赁成本为2美元/小时，首次总成本为87072美元/天；如果所有tokens都遵循deepsekek 理论上，披露R1的理论利润率总收入为562027美元/天，成本利润率为545%。成本

　　。首次推理系统最大化，披露理论成本利润率高达545%。理论利润率

　　据文章介绍，DeepSeek-V3/R1推理系统的优化目标是吞吐量更大，延迟更低。新生军训心得体会500字为了实现这两个目标，DeepSeek并行使用大型跨节点专家（Expert Parallelism / EP）通过一系列技术策略，最大限度地优化了大模型推理系统，实现了惊人的性能和效率。

　　具体来说，在更大的吞吐方面，大规模跨节点专家并行可以使batch size(批量尺寸)大大提高了GPU矩阵乘法的效率和吞吐量。

　　batch size是深度学习中非常重要的超参数，是指模型在训练过程中每次使用的数据量。它决定了每次模型更新时使用的训练样本数量，并调整batch size可以影响模型的训练速度、内存消耗和模型权重的更新。

　　在较低的延迟方面，大型跨节点专家并行将专家分散在不同的GPU上。每个GPU只需计算少量专家（因此访问和存储需求较少），以减少延迟。

　　然而，由于大规模跨节点专家的平行会大大提高系统的复杂性，带来跨节点通信、多节点数据平行、负载平衡等挑战。因此，Deepseek还重点讨论了使用大规模跨节点专家并行增加batch的问题在size的同时，如何隐藏传输的耗时，如何平衡负载。

　　具体来说，DeepSeeek团队主要通过大规模跨节点专家平行、双批重叠策略、最佳负荷平衡等方式，最大限度地提高资源利用率，确保高性能和稳定性。

　　值得注意的是，本文还披露了DeepSeek的理论成本和利润率等关键信息。据介绍，DeepSeek V3 所有的服务和R1都使用英伟达H800 GPU，由于白天服务负荷高，晚上服务负荷低，DeepSeeek实现了一套机制，在白天负荷高的时候，用所有节点部署推理服务。当夜间负荷较低时，减少推理节点进行研究和训练。

　　通过时间上的成本控制，Deepseek表示Deepsekek V3和R1推理服务占用节点总数，峰值占用278个节点，平均占用226.75个节点(每个节点为8个H8000个节点) GPU）。假设GPU租赁成本为2美元/小时，总成本为87072美元/天；如果所有tokens都遵循deepsekek，理论上，R1的总收入为562027美元/天，成本利润率为545%。

　　然而，DeepSeek也强调，实际收入可能没有那么多，因为V3的价格低于R1，晚上会有折扣。记者注意到，2月26日，DeepSeek在其API开放平台上发布了错峰优惠活动通知。根据通知，北京时间每天00:30-08:30是错峰期，API调用价格大幅下调，其中DeepSeek-V3降至原价的50%，DeepSeek-R1降至25%。在此期间，DeepSeek鼓励用户调用，享受更经济、更流畅的服务体验。

　　根据模型价格细节，在标准时间(北京时间08:30-00:30)，V3和R1的百万tokens输入(缓存命中)价格分别为0.5元和1元，百万tokens输出分别为8元和16元，R1是V3的两倍。优惠期(北京时间000:30-08:30)V3和R1的百万tokens输入(缓存命中)降至0.25元，百万tokens输出降至4元。

　　。开源周告一段，更多惊喜可能还在路上。

　　随着最后一枚“重磅炸弹”的发布，DeepSeek的开源周正式结束。

　　在过去的一周里，DeepSeek每天开源一个代码库，可以称之为“技术全家桶”。据业内人士分析，这一系列技术组件看似独立，实际上共同构建了一个精密协作的系统，使得DeepSeeek在有限的计算能力下最大限度地“榨干”GPU，大大提高了训练推理的效率。

　　记者注意到，在今天DeepSeek发布的“最后一弹”帖子下，不少外国网友表示赞叹。例如，一位网友表示，到第七天，DeepSeek也可能发布AGI(通用人工智能，人工智能的最高目标)；另一位网友说：“这就是为了正确的理由做正确的事情，你们绝对是传说，鞠躬致敬。”；有网友猜测，DeepSeek愿意发布这些信息，说明他们实际上已经达到了领先水平，实际技术能力可能更高。

　　不仅如此，一些网民还将DeepSeek与OpenAI进行了比较，并表示：“‘成本利润率为545%’，等等，所以你是说我被OpenAI抢劫了？”。

　　与DeepSeek的开源和免费相比，OpenAI的模型收费一直非常昂贵。就在2月28日，OpenAI正式发布了GPT-4.5研究预览版的最新模型，这是一种通用语言模型，被称为“最高情商”。然而，与GPT-4o的2.5美元相比，其API调用价格高达每100万tokens75美元，飙升了30倍，与DeepSeek的正常价格相比，GPT-4.5输入价格是惊人的280倍。

　　事实上，GPT-4.5发布后，很多网友在评论区吐槽价格太贵。而OpenAI的CEO山姆·奥特曼也承认，GPT-4.5是一个“庞大而昂贵的模型”。“我们真的很想同时推出Plus和Pro用户，但是随着我们规模的增长，我们已经耗尽了GPU资源。下周我们将增加数万个GPU，然后推出给Plus级别的用户。奥特曼在他的个人社交平台上说。

　　作为大模型领域的“鲶鱼”，DeepSeek就像一个聪明有活力的年轻人，不断给行业的老玩家和巨头带来压力。最近，据外国媒体报道，DeepSeek正在加快DeepSeek-R2推理模型的研发。该模型原计划于今年5月发布，但可能会提前发布。预计新模型将生成更好的代码，并使用英语以外的语言进行推理。

　　从V3到R1，再到即将到来的R2，外界对DeepSeek充满期待，DeepSeek也以持续的技术突破惊艳世界。虽然开源周暂时结束了，但更多的惊喜可能还在路上。

(文章来源:证券时报)。

Tag：清明节的故事简短50字事业单位个人自传6000 竞聘报告怎么写傅雷家书读后感500字初二唯独的近义词朗读者青春原文诚信的作文800字优秀作文清明节来历20字暑假实践报告2000字范文名人事迹素材简短

“非物质文化遗产贺新春延边过年系列活动在延边博物馆启动
中国青年报客户消息(中青报·中青网记者) 蒋肖斌)1月21日，“非物质文化遗产贺新春吉林省延边博物馆开幕了延边新年系列活动启动仪式。本次活动由三个部分组成：启动仪式、“博物馆新年、品尝各种新年品味”
2025-03-13
中国风英雄巨龙:熬兴或将在新年前后推出
在今年的腾讯嘉年华上英雄联盟项目放出了中国风新英雄“熬兴”的简单介绍，而近期Riot终于发布了这个中国龙的详细介绍与预计推出时间，让我们一起来看看这个中国龙的表现吧。Riot首席设计师Morello今
2025-03-13
DNF国服剑魂无我剑气什么时候上线 DNF国服白手无我剑气上线时间
DNF国服剑魂无我剑气什么时候上线?近日测试服带来了一些职业技能改动内容，其中剑魂将新增无我剑气这个技能，这也意味着剑魂即将加强，下面小编就为大家分享DNF国服白手无我剑气上线时间，一起来看看吧。DN
2025-03-13
小妖精未来想要一个妈妈的故事
妖精谷里的小妖精们谁都没有妈妈。(怎么可能，一个听故事的小朋友叫起来，没有妈妈，小妖精又是怎么生出来的呢?)嗯，现实上，妖精谷里小妖精的出生方式各不相同。比方说，小土妖呢，就是从土里钻出来的，而小树妖
2025-03-13
山东传媒职业学院获得国家安全宣传教育多奖
近日，2024年山东省国家安全宣传教育系列活动评选结果公布，山东传媒职业学院多次获奖。● 2024年国家安全宣传教育优秀组织单位。● 第四届全国大学生安全知识竞赛组二等奖，个人一等奖两项，二等奖一项。
2025-03-13
绝对演绎情绪专练班玩法分享
绝对演绎情绪专练班玩法分享发布时间：2023-04-20 15:44:56来源：逗游作者：逗游网绝对演绎养成二次元游戏女性向游戏类别：角色扮演游戏大小：0 M 游戏语言：简体中文游戏版本：v1.0.0
2025-03-13

知识

焦点

百科

探索

时尚

休闲

热点

综合

首次披露：理论成本利润率为545%！

相关文章

最新评论

文章分类

大家感兴趣的内容

最近更新的内容

友情链接