[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zhwguest
V2EX  ›  程序员

deepseek 的源代码开源在哪里啊?

  •  
  •   zhwguest · 3 天前 · 5335 次点击

    想拿来膜拜一下,V3 和 R1 的。还有量化方案也在里面么?

    51 条回复    2025-01-30 06:22:24 +08:00
    Suger828
        1
    Suger828  
       3 天前
    没有开源源代码 ,只有论文,你去复现吧
    dajj
        2
    dajj  
       2 天前
    好像是模型免费下载, 国产就是善于创造概念,这么算 gimmy 也是开源的
    zenghx
        3
    zenghx  
       2 天前 via iPhone
    zlowly
        4
    zlowly  
       2 天前
    xycost233
        5
    xycost233  
       2 天前   ❤️ 17
    @dajj ?第一次听说大模型领域模型开源不算开源的,模型结构都给你了还要咋样
    Felixchen1062
        6
    Felixchen1062  
       2 天前
    感觉 LLM 模型之类的开源,不等同于工程项目的开源
    好比我写了一篇文章,允许随意使用,但我也不需要提供字/词典吧,LLM/CV 模型训练更像是一个 cooking 的过程,食谱,食材都端上来了,毕竟它不像是一个工程项目。
    至于楼上那位国产创造概念的观点,我不太清楚 llama 开源是不是也是这种形式,可以考证一下
    CynicalRose
        7
    CynicalRose  
       2 天前   ❤️ 1
    llama3 的代码仓库: https://github.com/meta-llama/llama3 ,虽然我到现在都没跑起来

    deepseek 的仓库没有代码的: https://github.com/deepseek-ai/DeepSeek-R1 ,v3 还没试: https://github.com/deepseek-ai/DeepSeek-V3
    iorilu
        8
    iorilu  
       2 天前
    大部分模型所谓开源就是指训练好的模型权重开源, 反正你直接可以用

    但不会告诉你怎么训练出来的, 更不会给你训练材料
    CynicalRose
        9
    CynicalRose  
       2 天前
    @CynicalRose LLM 的开源多数只提供 inference 的代码,想训练只能自己尝试复现了。
    dajj
        10
    dajj  
       2 天前   ❤️ 2
    @xycost233 我也是第一次听说,没有代码也叫开源的
    yanggb
        11
    yanggb  
       2 天前
    @dajj LLM 领域目前是这样的,DeepSeek 以 MIT 协议开源了模型权重,附赠实现论文,已经让 AI 研究者激动,甚至有人已经复现了: https://github.com/hkust-nlp/simpleRL-reason/tree/main
    c0nstantien
        12
    c0nstantien  
       2 天前
    @dajj 赢!
    nickchenyx
        13
    nickchenyx  
       2 天前   ❤️ 8
    @dajj 我也是第一次听说 OpenAI 原来是 Close 的
    visitantzj
        14
    visitantzj  
       2 天前   ❤️ 1
    汗……还要人家把业务数据、代码都给你才行?要不要再免费搭上能跑得动的 vps
    crackidz
        15
    crackidz  
       2 天前   ❤️ 3
    DeepSeek 是训练过程全写到论文里了,你可以根据论文直接复现。https://github.com/huggingface/open-r1
    crackidz
        16
    crackidz  
       2 天前   ❤️ 1
    要不怎么说 DeepSeek 是大善人呢
    crackidz
        17
    crackidz  
       2 天前   ❤️ 3
    @CynicalRose deepseek r1 的代码就是 v3 的仓库,是同一套代码只是权重不一样。这个 README 里有啊
    csys
        18
    csys  
       2 天前 via Android   ❤️ 2
    上次 deepseek v3 出来的时候站里就已经闹过不少笑话了

    现在怎么还这样啥都不懂就信口开河,不长记性吗😅

    动动手问问 llm 也行啊
    AlohaV2
        19
    AlohaV2  
       2 天前   ❤️ 6
    SGL
        20
    SGL  
       2 天前   ❤️ 1
    这就说明搞算法的和搞开发的”隔行如隔山“了 。
    LnTrx
        21
    LnTrx  
       2 天前
    可以参考一下其他组织的复现尝试 https://github.com/huggingface/open-r1
    chesha1
        22
    chesha1  
       2 天前
    @dajj #10 大模型的训练代码是非常工程的,可能都还包含了一些公司内部基建的代码,这些是肯定不会开源的,训练一次要几千张卡,开源又怎么样,难不成还真能跑起来不成

    不过一般 LLM 开源,会同步放出模型结构、怎么推理、怎么微调的代码,如果非要较真这个,deepseek r1 确实少做了一点,不过目前开源的部分已经很够用了
    zeni123
        23
    zeni123  
       2 天前
    @dajj openAI 也叫 open 你告诉我 openAI open 在哪里
    ShadowPower
        24
    ShadowPower  
       1 天前
    训练代码其实都不会开源,很多公司“开源”出来的和他们实际使用的代码并不同。
    因为训练一个超大模型要考虑的事情非常多,例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码,如果完整开源出来,你甚至可以用来搭建一个阿里云、腾讯云……
    Yuanlaoer
        25
    Yuanlaoer  
       1 天前   ❤️ 3
    确实不太理解这种开“源”
    楼上列举的各种,那个算源么?你们自己去看看开源软件中的源是什么意思啊。
    如果展示其中的一部分代码就算是开源了,那我给你放个 https 的链接,算开源网页吗?
    楼上举 OpenAI 的例子更滑稽,啥时候人家自己说过自己是开源的啊?
    keakon
        26
    keakon  
       1 天前   ❤️ 1
    @dajj @Yuanlaoer 程序开源和模型开源本来就是不同的领域,为啥要一样?
    这个概念也不是国内发明的,OpenAI 的 GPT-3 之前的版本也是开源的,但只开放了权重。
    Meta 的 LLaMA 系列也是开源模型,同样不提供训练数据,但它进一步在论文中公开了一些训练细节,因此不妨碍它成为国内套壳模型的鼻祖。
    而 DeepSeek 在论文中公开的细节比 LLaMA 的论文更多,且不少是前人未走过的捷径,这足以让业界震撼了。
    superalsrk
        27
    superalsrk  
       1 天前
    deepseek 这次是开源的权重, 以及那个五十多页的技术报告, 实际上搞算法的有大量的代码是 dirty work , 就是各种数据处理技巧, 因为这次的技术报告非常详细,短短几天已经有好几家复现成功 R1 了, 比如 huggingface 的官方复刻版本。https://huggingface.co/open-r1
    kenvix
        28
    kenvix  
       1 天前 via iPhone
    推理代码和权重开源了,推理代码直接合并到了 VLLM 主线,权重在 HF
    kenvix
        29
    kenvix  
       1 天前 via iPhone
    另外具体的模型细节通过论文形式提供
    Yuanlaoer
        30
    Yuanlaoer  
       1 天前   ❤️ 1
    @keakon 那么我的问题很简单,“开源”的定义是什么呢?
    据我所知,开源二字是源于开源软件,open source software https://en.wikipedia.org/wiki/Open_source 这里的定义很清晰。
    “开放了权重”即为“开源”,这是那个组织定义的,我不知道,以及到底哪个协议里有提到过这一条呢?
    我从未听说过 OpenAI 是开源的,您可以提供一下相应的信息来源。你甚至可以问 chatgpt ,你是不是开源的。我相信 100 次的结果都是一样的。
    crackidz
        31
    crackidz  
       1 天前 via iPhone
    推理代码开源就不是开源了吗?🤣

    权重只是配置,配置怎么来的不是另外一个故事吗
    SenLief
        32
    SenLief  
       1 天前
    @Yuanlaoer 你连 openai 开源过模型都不知道,你还谈什么开源,按你自己理解就好了,没必要扣字眼。
    nightwitch
        33
    nightwitch  
       1 天前
    训练部分的代码目前没见过哪家开源过的。训练部分代码大量耦合自家公司的各种基建代码,没法开。
    courtier
        34
    courtier  
       1 天前
    对这个有纠结的话感觉可以看看国外其他的开源模型对比下
    WorseIsBetter
        35
    WorseIsBetter  
       1 天前
    大模型的「开源」确实不是传统意义上的「开源」。

    FSF 最近在推进这方面的建设: https://www.fsf.org/news/fsf-is-working-on-freedom-in-machine-learning-applications
    不过看样子会比较困难。尤其是训练数据,巨头们就算愿意,也不敢或者说无权「开源」。因为里面不可避免地存在着大量本来就涉嫌侵权的东西。
    yoghurtguy
        36
    yoghurtguy  
       1 天前 via iPhone
    模型重要的是架构设计,而不是功能差不多的训练和推理的具体代码。
    leetcode 看代码,没人注意你是怎么怎么 cin 和 cout 的,
    告诉你架构设计就能复现核心代码,告诉你是动态规划,你就能写个差不多了。
    我再给你模型参数就证明了我的算法不是吹的,这时你就是 oj 平台,你给个输入他给输出,发现他的算法还真是 O(1)的时间复杂度。
    LanhuaMa
        37
    LanhuaMa  
       1 天前   ❤️ 1
    @SenLief #32 GPT3 以前都是开源的,但是 OpenAI 没说自己非要开源。OpenAI 是一家商业公司,不是 NGO 。Open 也不是非要 Open Source, 可以是 Open Collaboration, Open Minded ,不是很理解为什么楼上那么多人举 Open AI 的例子。我寻思恁中华人民共和国既不中华也不人民甚至 12 之后已经不是共和国,也没人敢逼逼啊?
    SenLief
        38
    SenLief  
       1 天前
    @LanhuaMa 举 closeai 的例子不是说它也叫过开源,没说不让赚钱啊。
    crackidz
        39
    crackidz  
       22 小时 54 分钟前
    @LanhuaMa OpenAI 是 nonprofit organization ,只是前两天才改成商业公司的
    iv8d
        40
    iv8d  
       22 小时 9 分钟前 via Android
    人家说的开源模型,你要求的有点多啊
    keakon
        41
    keakon  
       21 小时 45 分钟前   ❤️ 4
    @Yuanlaoer 既然简单,你为何不自己查证呢?这些知识哪怕是 AI 界的初学者也是常识啊。

    GPT-3 之前的版本开源,你现在能访问到的都是闭源版本的,所以当然告诉你它是闭源的。在 GPT-2 的 wiki ( https://en.wikipedia.org/wiki/GPT-2 )中可以看到这样一句:It was superseded by the GPT-3 and GPT-4 models, which are no longer open source. 意思是 GPT-2 之后的版本「不再」是开源的。
    https://www.llama.com/ 第一句话就是:The open-source AI models you can fine-tune, distill and deploy anywhere.
    你找找看它们是否公布了训练代码和训练集?

    「 open-source AI model 」是外国公司在 5 年前就抢先定义了的,业界也早已认可了,不是 DeepSeek 临时炒作的概念。
    https://en.wikipedia.org/wiki/Open-source_artificial_intelligence 里也提到了「 The Open Source Initiative and others stated that Llama is not open-source despite Meta describing it as open-source, due to Llama's software license prohibiting it from being used for some purposes.」 Open Source Initiative 是最权威的开源协议组织了吧?它质疑 Llama 不开源也只针对了它不能用于某些用途,而不是没有开放训练代码和训练集。
    zhanying
        42
    zhanying  
       20 小时 19 分钟前 via Android
    @dajj 隔行如隔山,CRUD 民工就别拿自己的认知评价另一个领域了😇
    mauis
        43
    mauis  
       19 小时 51 分钟前
    没彻底开源,项目试图重复这个 参考 https://github.com/huggingface/open-r1?tab=readme-ov-file
    Yuanlaoer
        44
    Yuanlaoer  
       17 小时 54 分钟前   ❤️ 1
    @keakon 谢谢,我搜索的时候没有看到你提的。你引用的这个页面: `https://en.wikipedia.org/wiki/Open-source_artificial_intelligence`。这个确实是最权威的,但我看到里面的 1.0 版本也是 2024-11-14 这个时间才制作的。我确实没有这个 AI 界的常识。

    所以此处提到的开源、这个“开源”的在这里的全称是开源模型(open source model),也就是能够看到参数权重。
    学到了,谢谢。

    但对于这个开源模型或是开源 AI 与 开源软件 直接的巨大差异,我依然保留自己的一部分观点:现在的开源软件很重要的一点是:除了可以自由使用,修改等等以外,也提供源代码,即:我的制作过程从第一步开始展示给所有人,你可以从原材料都看得清清楚楚。而现在开源模型对于封装和使用来看,更像是我提供一个 .exe 或者 .app 文件,我也让你免费用,随便改,但是这个 .exe 文件是怎么制作出来的,抱歉,我没有义务告诉你。我认为这个差异是巨大的。无论是开源的源还是 open source 的 source ,语义上都是有差异的,因为根本没开放“源”。
    举一个不那么准确的例子,一个是从原料到制作工艺的标准都写的十分详细。可以得到:只要你用我说的原料和工艺,你就能生产出跟我一样的可口可乐。另一个是,我给你提供一模一样的可乐糖浆,我也告诉你配料表,我也允许你拿去研究,但是可乐糖浆是怎么制作的,抱歉,保密。
    crackidz
        45
    crackidz  
       16 小时 17 分钟前   ❤️ 2
    @Yuanlaoer 那么你的定义下确实世界上并不存在真正的开源模型了。但是在 OSI 的定义下,deepseek 就是开源模型。

    另外纠正一下,你看到的是收录时间,并不是发布时间。实际上的发布时间要更早一点。
    asuka02
        46
    asuka02  
       16 小时 15 分钟前 via Android
    @xycost233 在这很正常,都是意识形态为主
    Leon6868
        47
    Leon6868  
       14 小时 3 分钟前
    @nickchenyx #13 村通网
    Yuanlaoer
        48
    Yuanlaoer  
       13 小时 51 分钟前
    @crackidz 怎么叫我定义呢?我这里全都是引用的。

    如果叫 open model / 开放模型,是没有任何歧义的;甚至依照 free software 叫 free model 我觉得都完全合乎沿用规范。因为他开放的仅仅就是模型权重。

    我上一贴也讲过“source/源”了。source/源,无论你查中文和英文的字典,基本都是同一个意思。大家都认同叫开源那就开源吧,没打算纠正别人。我已经搞清楚了。

    谢谢你的纠正。
    Damn
        49
    Damn  
       13 小时 2 分钟前
    Yuanlaoer
        50
    Yuanlaoer  
       11 小时 59 分钟前
    多说两句:
    “free software/自由软件”在鄙人看来,是当时一个伟大的倡议。而 "open source software/开源软件"是在这个基础上的又一极大进步。
    这两个概念不是什么新鲜东西了,具体的定义很好查到。
    在回头看大模型中的开“源”概念,我很难得出其中的语义没有冲突的结论。我也相信未来在更大范围会形成更清晰的共识的。
    aldehyde
        51
    aldehyde  
       1 小时 20 分钟前
    个人认为这个楼里矛盾的点在于:
    大部分程序员都知道“开源”指的是什么,开放源代码供给用户使用,用户可以自行修改和建构
    而所谓的模型开源大部分是架构思路的分享,也就是楼上提到的论文,你可以尝试复现。这就像化学/生物的论文,给你实验过程你可以尝试复现,但是我并不会手把手教你怎么做,实验中的选材和环境可能有所保留。
    但是这里存在的一大问题是,很多的国内相关领域的宣传(特别是割韭菜的)都有意把这两个“开源”的概念混淆,导致大部分的人并不能明确理解这个意思,有一些即便只是提到模型开源的概念也在无意中推动了混淆的进度,没有人站出来澄清过。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   850 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 23:42 · PVG 07:42 · LAX 15:42 · JFK 18:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.