1
Suger828 3 天前
没有开源源代码 ,只有论文,你去复现吧
|
2
dajj 2 天前
好像是模型免费下载, 国产就是善于创造概念,这么算 gimmy 也是开源的
|
3
zenghx 2 天前 via iPhone
|
4
zlowly 2 天前
|
6
Felixchen1062 2 天前
感觉 LLM 模型之类的开源,不等同于工程项目的开源
好比我写了一篇文章,允许随意使用,但我也不需要提供字/词典吧,LLM/CV 模型训练更像是一个 cooking 的过程,食谱,食材都端上来了,毕竟它不像是一个工程项目。 至于楼上那位国产创造概念的观点,我不太清楚 llama 开源是不是也是这种形式,可以考证一下 |
7
CynicalRose 2 天前 1
llama3 的代码仓库: https://github.com/meta-llama/llama3 ,虽然我到现在都没跑起来
deepseek 的仓库没有代码的: https://github.com/deepseek-ai/DeepSeek-R1 ,v3 还没试: https://github.com/deepseek-ai/DeepSeek-V3 |
8
iorilu 2 天前
大部分模型所谓开源就是指训练好的模型权重开源, 反正你直接可以用
但不会告诉你怎么训练出来的, 更不会给你训练材料 |
9
CynicalRose 2 天前
@CynicalRose LLM 的开源多数只提供 inference 的代码,想训练只能自己尝试复现了。
|
11
yanggb 2 天前
@dajj LLM 领域目前是这样的,DeepSeek 以 MIT 协议开源了模型权重,附赠实现论文,已经让 AI 研究者激动,甚至有人已经复现了: https://github.com/hkust-nlp/simpleRL-reason/tree/main
|
12
c0nstantien 2 天前
@dajj 赢!
|
13
nickchenyx 2 天前 8
@dajj 我也是第一次听说 OpenAI 原来是 Close 的
|
14
visitantzj 2 天前 1
汗……还要人家把业务数据、代码都给你才行?要不要再免费搭上能跑得动的 vps
|
15
crackidz 2 天前 3
DeepSeek 是训练过程全写到论文里了,你可以根据论文直接复现。https://github.com/huggingface/open-r1
|
16
crackidz 2 天前 1
要不怎么说 DeepSeek 是大善人呢
|
17
crackidz 2 天前 3
@CynicalRose deepseek r1 的代码就是 v3 的仓库,是同一套代码只是权重不一样。这个 README 里有啊
|
18
csys 2 天前 via Android 2
上次 deepseek v3 出来的时候站里就已经闹过不少笑话了
现在怎么还这样啥都不懂就信口开河,不长记性吗😅 动动手问问 llm 也行啊 |
19
AlohaV2 2 天前 6
|
20
SGL 2 天前 1
这就说明搞算法的和搞开发的”隔行如隔山“了 。
|
21
LnTrx 2 天前
可以参考一下其他组织的复现尝试 https://github.com/huggingface/open-r1
|
22
chesha1 2 天前
@dajj #10 大模型的训练代码是非常工程的,可能都还包含了一些公司内部基建的代码,这些是肯定不会开源的,训练一次要几千张卡,开源又怎么样,难不成还真能跑起来不成
不过一般 LLM 开源,会同步放出模型结构、怎么推理、怎么微调的代码,如果非要较真这个,deepseek r1 确实少做了一点,不过目前开源的部分已经很够用了 |
24
ShadowPower 1 天前
训练代码其实都不会开源,很多公司“开源”出来的和他们实际使用的代码并不同。
因为训练一个超大模型要考虑的事情非常多,例如服务器硬件故障之后要怎么处理。有些代码会涉及到公司的云设施核心代码,如果完整开源出来,你甚至可以用来搭建一个阿里云、腾讯云…… |
25
Yuanlaoer 1 天前 3
确实不太理解这种开“源”
楼上列举的各种,那个算源么?你们自己去看看开源软件中的源是什么意思啊。 如果展示其中的一部分代码就算是开源了,那我给你放个 https 的链接,算开源网页吗? 楼上举 OpenAI 的例子更滑稽,啥时候人家自己说过自己是开源的啊? |
26
keakon 1 天前 1
|
27
superalsrk 1 天前
deepseek 这次是开源的权重, 以及那个五十多页的技术报告, 实际上搞算法的有大量的代码是 dirty work , 就是各种数据处理技巧, 因为这次的技术报告非常详细,短短几天已经有好几家复现成功 R1 了, 比如 huggingface 的官方复刻版本。https://huggingface.co/open-r1
|
28
kenvix 1 天前 via iPhone
推理代码和权重开源了,推理代码直接合并到了 VLLM 主线,权重在 HF
|
29
kenvix 1 天前 via iPhone
另外具体的模型细节通过论文形式提供
|
30
Yuanlaoer 1 天前 1
@keakon 那么我的问题很简单,“开源”的定义是什么呢?
据我所知,开源二字是源于开源软件,open source software https://en.wikipedia.org/wiki/Open_source 这里的定义很清晰。 “开放了权重”即为“开源”,这是那个组织定义的,我不知道,以及到底哪个协议里有提到过这一条呢? 我从未听说过 OpenAI 是开源的,您可以提供一下相应的信息来源。你甚至可以问 chatgpt ,你是不是开源的。我相信 100 次的结果都是一样的。 |
31
crackidz 1 天前 via iPhone
推理代码开源就不是开源了吗?🤣
权重只是配置,配置怎么来的不是另外一个故事吗 |
33
nightwitch 1 天前
训练部分的代码目前没见过哪家开源过的。训练部分代码大量耦合自家公司的各种基建代码,没法开。
|
34
courtier 1 天前
对这个有纠结的话感觉可以看看国外其他的开源模型对比下
|
35
WorseIsBetter 1 天前
大模型的「开源」确实不是传统意义上的「开源」。
FSF 最近在推进这方面的建设: https://www.fsf.org/news/fsf-is-working-on-freedom-in-machine-learning-applications 不过看样子会比较困难。尤其是训练数据,巨头们就算愿意,也不敢或者说无权「开源」。因为里面不可避免地存在着大量本来就涉嫌侵权的东西。 |
36
yoghurtguy 1 天前 via iPhone
模型重要的是架构设计,而不是功能差不多的训练和推理的具体代码。
leetcode 看代码,没人注意你是怎么怎么 cin 和 cout 的, 告诉你架构设计就能复现核心代码,告诉你是动态规划,你就能写个差不多了。 我再给你模型参数就证明了我的算法不是吹的,这时你就是 oj 平台,你给个输入他给输出,发现他的算法还真是 O(1)的时间复杂度。 |
37
LanhuaMa 1 天前 1
@SenLief #32 GPT3 以前都是开源的,但是 OpenAI 没说自己非要开源。OpenAI 是一家商业公司,不是 NGO 。Open 也不是非要 Open Source, 可以是 Open Collaboration, Open Minded ,不是很理解为什么楼上那么多人举 Open AI 的例子。我寻思恁中华人民共和国既不中华也不人民甚至 12 之后已经不是共和国,也没人敢逼逼啊?
|
40
iv8d 22 小时 9 分钟前 via Android
人家说的开源模型,你要求的有点多啊
|
41
keakon 21 小时 45 分钟前 4
@Yuanlaoer 既然简单,你为何不自己查证呢?这些知识哪怕是 AI 界的初学者也是常识啊。
GPT-3 之前的版本开源,你现在能访问到的都是闭源版本的,所以当然告诉你它是闭源的。在 GPT-2 的 wiki ( https://en.wikipedia.org/wiki/GPT-2 )中可以看到这样一句:It was superseded by the GPT-3 and GPT-4 models, which are no longer open source. 意思是 GPT-2 之后的版本「不再」是开源的。 https://www.llama.com/ 第一句话就是:The open-source AI models you can fine-tune, distill and deploy anywhere. 你找找看它们是否公布了训练代码和训练集? 「 open-source AI model 」是外国公司在 5 年前就抢先定义了的,业界也早已认可了,不是 DeepSeek 临时炒作的概念。 https://en.wikipedia.org/wiki/Open-source_artificial_intelligence 里也提到了「 The Open Source Initiative and others stated that Llama is not open-source despite Meta describing it as open-source, due to Llama's software license prohibiting it from being used for some purposes.」 Open Source Initiative 是最权威的开源协议组织了吧?它质疑 Llama 不开源也只针对了它不能用于某些用途,而不是没有开放训练代码和训练集。 |
43
mauis 19 小时 51 分钟前
没彻底开源,项目试图重复这个 参考 https://github.com/huggingface/open-r1?tab=readme-ov-file
|
44
Yuanlaoer 17 小时 54 分钟前 1
@keakon 谢谢,我搜索的时候没有看到你提的。你引用的这个页面: `https://en.wikipedia.org/wiki/Open-source_artificial_intelligence`。这个确实是最权威的,但我看到里面的 1.0 版本也是 2024-11-14 这个时间才制作的。我确实没有这个 AI 界的常识。
所以此处提到的开源、这个“开源”的在这里的全称是开源模型(open source model),也就是能够看到参数权重。 学到了,谢谢。 但对于这个开源模型或是开源 AI 与 开源软件 直接的巨大差异,我依然保留自己的一部分观点:现在的开源软件很重要的一点是:除了可以自由使用,修改等等以外,也提供源代码,即:我的制作过程从第一步开始展示给所有人,你可以从原材料都看得清清楚楚。而现在开源模型对于封装和使用来看,更像是我提供一个 .exe 或者 .app 文件,我也让你免费用,随便改,但是这个 .exe 文件是怎么制作出来的,抱歉,我没有义务告诉你。我认为这个差异是巨大的。无论是开源的源还是 open source 的 source ,语义上都是有差异的,因为根本没开放“源”。 举一个不那么准确的例子,一个是从原料到制作工艺的标准都写的十分详细。可以得到:只要你用我说的原料和工艺,你就能生产出跟我一样的可口可乐。另一个是,我给你提供一模一样的可乐糖浆,我也告诉你配料表,我也允许你拿去研究,但是可乐糖浆是怎么制作的,抱歉,保密。 |
45
crackidz 16 小时 17 分钟前 2
@Yuanlaoer 那么你的定义下确实世界上并不存在真正的开源模型了。但是在 OSI 的定义下,deepseek 就是开源模型。
另外纠正一下,你看到的是收录时间,并不是发布时间。实际上的发布时间要更早一点。 |
47
Leon6868 14 小时 3 分钟前
@nickchenyx #13 村通网
|
48
Yuanlaoer 13 小时 51 分钟前
@crackidz 怎么叫我定义呢?我这里全都是引用的。
如果叫 open model / 开放模型,是没有任何歧义的;甚至依照 free software 叫 free model 我觉得都完全合乎沿用规范。因为他开放的仅仅就是模型权重。 我上一贴也讲过“source/源”了。source/源,无论你查中文和英文的字典,基本都是同一个意思。大家都认同叫开源那就开源吧,没打算纠正别人。我已经搞清楚了。 谢谢你的纠正。 |
50
Yuanlaoer 11 小时 59 分钟前
多说两句:
“free software/自由软件”在鄙人看来,是当时一个伟大的倡议。而 "open source software/开源软件"是在这个基础上的又一极大进步。 这两个概念不是什么新鲜东西了,具体的定义很好查到。 在回头看大模型中的开“源”概念,我很难得出其中的语义没有冲突的结论。我也相信未来在更大范围会形成更清晰的共识的。 |
51
aldehyde 1 小时 20 分钟前
个人认为这个楼里矛盾的点在于:
大部分程序员都知道“开源”指的是什么,开放源代码供给用户使用,用户可以自行修改和建构 而所谓的模型开源大部分是架构思路的分享,也就是楼上提到的论文,你可以尝试复现。这就像化学/生物的论文,给你实验过程你可以尝试复现,但是我并不会手把手教你怎么做,实验中的选材和环境可能有所保留。 但是这里存在的一大问题是,很多的国内相关领域的宣传(特别是割韭菜的)都有意把这两个“开源”的概念混淆,导致大部分的人并不能明确理解这个意思,有一些即便只是提到模型开源的概念也在无意中推动了混淆的进度,没有人站出来澄清过。 |