Skip to content

Latest commit

 

History

History
1542 lines (983 loc) · 150 KB

commercialization.md

File metadata and controls

1542 lines (983 loc) · 150 KB
outline
deep

商业化篇

一. 概述

在过去两年的开源年度报告商业化篇中,介绍了开源软件商业化成功的底层驱动因素、开源软件公司可能的商业化路径、开源项目投资人判断标准以及案例分享。去年,结合当时市场环境下的一些趋势与变革,探讨了国内的开源项目探索全球化市场过程与商业化发展的驱动因素、挑战及实现路径,引发了许多开源伙伴的热烈讨论。

2022-2023 年,人工智能领域迎来了预训练大模型技术的大爆发,引发了全社会的广泛关注,并且可预见在未来将持续加深对生活、工作的影响。不难发现,在这次人工智能技术迭代的浪潮中,开源生态也为技术发展起了极大的推动作用,并且有不少开源模型以及开源项目在积极寻求商业化。但开源模型与传统的开源软件又有着众多差异。在这样的时代背景下,人工智能开源项目与开源模型的商业化发展,成为了值得深入研究与讨论的话题。

在商业化过程中,包括开源软件和开源模型在内的开源项目的安全可控性是企业用户非常关注的考量因素之一。结合当下技术发展趋势,对开源软件的安全,开源模型的可控,开源商业许可证的分析是值得关注的话题。

资本方是促进开源市场发展的重要参与方。对于投资机构来讲,在对一个开源项目进行判断时往往会综合考虑以下几点:在产品开发阶段,重点要看企业是否拥有代码所有权和控制权,以及是否具备国际竞争力;社区运营阶段,主要看企业是否具备足够强的运营能力;在商业化探索阶段,市场匹配能力与商业模式的成熟度会成为主要关注点。

作为领域内最早关注并持续耕耘开源的机构,云启资本曾在早期成功发掘并投资了 PingCAP、Zilliz、Jina AI、RisingWave Lab、TabbyML 等开源企业,并持续参与共建开源生态。

为了进一步丰富报告内容,今年非常荣幸联合开源社举办了系列闭门讨论 Meetup。我们和数十位行业嘉宾包括微软、谷歌、Apple、Meta、华为、百度等国内外大厂,斯坦福大学、上海交通大学、中科大、UCSD 等高校研究机构,以及国内外大量第一线的创业者们,共同围绕着开源商业化相关的 AI Infrastructure 的发展情况、开源大模型发展情况与数据安全进行深入探讨,部分精华交流收录进了本篇报告中。

本章内容由云启资本投资团队撰写,今年所探讨的话题都属于较为前沿的方向,讨论中不乏一些判断与预测,笔者结合工作中与从业者的探讨和展望,提出我们的看法,若有不周到之处或不同想法,欢迎和我们探讨交流。

主要内容包括:

开源生态助力 AI 快速发展

开源安全挑战

开源项目资本市场情况

二. 开源生态助力 AI 快速发展

2.1 预训练大模型迅速发展,开源功不可没

2.1.1 预训练大模型发展迅猛

在过去的几年中,预训练大模型的发展是突破性的,它们已成为人工智能领域的一个重要标志。这些模型,不仅在规模上日益庞大,而且在智能处理能力上也取得了巨大的飞跃。从处理语言的复杂性到解析图像的细腻度,再到执行高级数据分析的深度,这些模型展现了前所未有的能力和精度。特别是在自然语言处理(NLP)领域,如 GPT 系列的预训练大模型,通过学习大量的文本数据,已经能够模拟复杂的人类语言,进行高质量的文本生成、翻译和理解。这些模型不仅在语言的流畅性上有了显著提升,而且在理解语境、捕捉细微的语言差异方面也表现出越来越强的能力。

此外,这些大型模型在执行复杂数据分析方面的表现也极为出色。它们能够从庞大的数据集中提取出有意义的模式和关联,为科研、金融分析、市场预测等多个领域提供支持。值得一提的是,这些模型的发展并不仅仅局限于它们自身的提升。随着这些模型的普及和应用,它们正在推动整个行业和全社会的技术进步,促进新应用的产生,如智能助手、自动化写作工具、先进的诊断系统等等。它们的发展为未来人工智能的应用和研究开辟了更多新的发展方向,预示着新一轮的技术革新的到来。

广大用户对于 AI 的热情迅速攀升,相比于 TikTok 的 9 个月,ChatGPT 只用了 2 个月便达到一亿用户。这不仅是一个商业上的巨大成功,也是人工智能技术发展史上的一个重要里程碑。

image001
图 2.1 各大应用到达 1 亿用户所用的时间(月份数)

伴随着 AI 热度的不断增长,全球 AI 的市场规模也迅速增长,根据德勤的数据,在 2017-2022 年中,全球 AI 的市场规模年复合增长率达 23%,2025 年预计将达到七万亿美元的规模。

image002
图 2.2 全球 AI 市场规模(万亿美元)

2.1.2 开源力量助推 AI

预训练模型能取得如此巨大的进步,来自开源生态的力量发挥了重要作用。其中不但包括来自学术界的研究支持,也有来自产业界的助力,在开源生态的共同努力之下,开源基座大模型的性能快速发展,逐渐比肩闭源。

来自学术界的开源力量极大推动了 AI 技术的演进

自 2009 年普林斯顿大学发表 ImageNET 这一计算机视觉领域的里程碑论文后,AI 机器学习相关的论文开始逐渐增长,与之同时伴随着大量研究者们开源的算法不断被提出。2017 年,在 Arxiv 上 AI 机器学习论文已达 2.5 万余篇,伴随着横空出世的《Attention Is All You Need》提出了开源的 Transformer 模型,有关大模型的相关研究和论文进入了集中爆发的时间,自 2017 至 2023 的六年间,Arxiv 大模型相关的论文激增至 10 万余篇。这也极大带动了相关模型的开源进程,为之后的大模型技术爆发储备了理论基础。

image003
图 2.3 Arxiv 上 AI / 机器学习相关论文的累计发表数量

::: info 专家点评 姜宁:这一洞察还是挺振奋的, 学术开源扮演非常大的作用。 :::

产业界的开源力量助力大模型的快速发展

随着 ChatGPT 引爆大模型的热潮,越来越多技术人员投身至大模型的研究与开发。除了闭源产品外,也有着大量优秀的开源大模型引领着产业发展的潮流。2022 年的 Stable Diffusion 凭借其强大的文生图能力以及广大的社区力量,一经推出便迅速追赶上著名闭源文生图大模型 Midjourney,并且在某些层面已经呈现领先之势;以 Meta LLaMA 2 为代表的开源大语言模型强悍的能力,令谷歌研究人员感慨“我们没有护城河,OpenAI 也没有”;还有各个领域不断涌现出的开源佼佼者,如 Dolly、Falcon 等等。开源大模型以其强大的社区资源,更低廉的使用成本,迅速获得大量企业和个人用户的青睐,是推动大模型发展的不可或缺的力量。

image004
图 2.4 不断涌现的开源大模型

开源大模型的表现正在迅速追赶闭源

以 OpenAI ChatGPT4 为代表的闭源大模型起步较早,其参数量与各项性能指标在早期都呈现出优于开源模型的趋势。但是得益于开源模型广泛的社区贡献力量,以及开源公司本身强大的技术力量,开源大模型的性能正在迅速追赶上闭源大模型。如下图所示,最为成熟的 ChatGPT4 得分为 1,181,而推出不到 4 个月的 LLAMA2 模型也已经拿到了 1,051 的高分,二者仅有 11% 的差距(相较于 ChatGPT4)。同时令人欣喜的是,排名 4-9 位均为开源大模型。这说明开源大模型性能的快速发展并非个例,而是行业的趋势。相比于闭源大模型,开源大模型由于使用成本明显低于闭源模型 API,同时性能差距较小,因此开源大模型具有非常高的性价比,吸引着广大 B 端、C 端的用户,关于成本的讨论将在后文详细展开。

得益于开源模型的开源特性,使用者可以更方便地对大模型进行微调以适应不同的垂直应用场景。经过微调的大模型更加具有行业特性,相比于通用大模型也更加适合特定行业的应用,这是闭源模型所不具有的优点。

image005
图 2.5 ELO 基于用户反馈对于大模型的评级

2.1.3 大模型的三个层次

如下图所示,大模型的技术架构主要分为如下层次。其中开源已做出大量贡献的包括模型层、开发者工具(开发工具)层和应用层。每一层都有其独特的功能和重要性,共同构成了大型模型技术的完整架构,这将在后续的三个部分(2.2,2.3,2.4)详细讨论。

image006
图 2.6 大模型的技术层次
  • 模型层

模型层是整个架构的基础,包括了构成大模型的核心算法和计算框架,典型的模型如 GPT、Diffusion 等,是生成式 AI 的核心。这一层涉及到模型的训练,包括大量数据的预处理、特征提取、模型优化和参数调整等。模型层的关键是高效的算法设计和大规模的数据处理能力。

  • 开发工具层

开发工具层提供了必要的工具和平台,以支持大模型的开发和部署。包括各种机器学习框架(如 TensorFlow、PyTorch)和 API,这些工具简化了模型的构建、训练和测试过程。开发工具层还可能包括为模型训练和部署提供支持的云服务和计算资源。此外,这一层还负责模型的版本控制、测试、维护和更新等。

  • 应用层

应用层主要考虑如何将大模型能力接入实际应用中。在这一层,模型被集成到具体的业务场景中,如智能助理、自动化客服、个性化推荐系统等。应用层的关键在于如何将复杂的模型技术转化为用户友好、高效且有价值的应用,同时确保其良好的性能和可扩展性。

整体来看,这三个层次相互依赖,共同构成了大模型技术的完整架构,从模型的基本构建到具体应用的实现,每一层都扮演着各自重要的角色。接下来会详细讨论三层次各自对应的开源内容。

2.2 开源是助推基座模型发展的第二动力

2.2.1 供给侧:集中力量,促进研发

节省开发人员数量,集中研发能力

有底层基座模型研发能力的技术人员数量有限,开源才能促进更多上层功能的研发。根据工信部发布的相关数据,人工智能不同技术方向岗位的人才供需比均低于 0.4,我国 AI 人才还处于较为缺乏的状态。大模型由于相对前沿、技术难度大,要求开发人员对在底层算法、数据结构、算法优化等方面有较高的技术功底,因此相关人才更加缺乏,人员薪资要求较高。中小企业无力支撑模型自研团队,但同时又有部署大模型的需求,因此开源大模型有利于缓解中小企业的技术压力,使得更多的开发者和研究者能够直接访问到先进的 AI 技术,避免了从零开始构建模型的需要。这不仅节省了大量的开发时间,还降低了进入门槛,使得即使是资源有限的团队也能利用这些高级模型来开展研究和开发。

基于高效的预训练模型基座,开发者可以直接进行有针对性地创新和改进,而不是分散精力于基础架构的建设。这种集中精力于创新而非基础建设的做法,极大地推动了技术的快速进步和应用领域的扩展。同时,开源模型的共享也促进了知识和技术的传播,为全球的开发者提供了学习和合作的平台,这在推动全行业的整体进步方面起到了关键作用。

节省算力,避免重复造轮子

随着基座大模型性能的不断增强,其参数量也不断增大,相比于 5 年前暴涨 1,000 倍。根据测算,ChatGPT 芯片需求为 3 万多片英伟达 A100 GPU,对应初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。训练基座模型的算力需求越来越大,成本越来越高,因此重复造轮子是一件非常浪费资源的事情。再加上美国对英伟达 A100/H100 供给中国大陆的禁令,国内企业训练基座大模型愈发困难。此时开源预训练大模型便成为了非常好地选择,可以解决当下的窘境,让更多公司可以基于基座大模型进行二次开发。

大模型训练共需要四个步骤:预训练(pre-training),监督式微调(supervised fine tuning),奖励模型(reward modeling)和强化学习(reinforcement learning)。预训练的算力时长占据整个训练周期的 99% 以上,由此,开源模型可以帮助大模型平台开发者们直接跳过 99% 的成本步骤,从而将有限的资金、时间投入到更加有针对性的微调步骤中,这对于广大的应用层开发者是一个重大帮助。大量中小企业需要模型服务者为其量身定做模型,而开源生态恰恰可以为大模型的二次开发节省大量成本,因此可以推动大量初创公司的诞生。

image007
图 2.7 大模型参数量越来越大

开源可以探索更广泛的技术可能性

震惊世界的 Transformer 模型是否为最优解,目前没有答案;下一个更好的方向是否是 RNN(Recurrent Neural Network - 循环神经网络) 也依然存在疑问?但正是开源的生态,使得开发者可以在这棵 AI 大树的不同枝干上进行尝试,不同枝干都会凝聚着各种新生的开发力量,保证了技术发展的多样性,从而让人类对于大模型的探索不会拘泥于局部最优解,真正推动 AI 技术的向各个方向不断发展的可能性。

2.2.2 需求侧:降低门槛,抢占市场

开源模型显著降低模型使用者的成本

虽然部署开源模型需要一定的初始投入成本,但随着使用量的增加,部署开源模型呈现出规模效应,使用成本相对闭源更加经济和可控。对于日均请求频次低于一定水平的使用场景,直接调用 API 花费较低;但是对于较高请求频次,部署开源模型成本更低,用户应当根据实际的使用量选择合适的方式。

image008
图 2.8 调用 OpenAI API 和 AWS 云上部署开源模型的成本对比

以直接调用 OpenAI 的 API 和公有云上部署 Flan UL2 模型对比为例:

根据 OpenAI 官网最新数据,使用 ChatGPT4 模型,输入为 0.03 美元 / 1000 tokens,输出为 0.06 美元 / 1000 tokens。考虑输入与输出的关系,假定平均成本为 0.04 美元 / 1000 tokens。每个 token 约为一个英文单词的 3/4,一条请求内的 token 数量等于提示词 + 所生成的输出 token。假设一个文本块为 500 个单词,即约 670 个 token,那么一个文本块的成本为 670×0.004/1000=0.00268 美元。

而如果基于 AWS 云端部署开源模型,以 AWS 发布的相关教程中提到的 200 亿参数的 Flan UL2 模型为例,其成本共分为三个部分:

  • 使用 AWS SageMaker 将模型部署为端点的固定成本,每小时约 5-6 美元,一天约 150 美元
  • 将 SageMaker 端点接入 AWS Lambda:假定 5s 内向用户返回响应,使用 128MB 内存。每条请求的价格为:5000×0.0000000021(128MB 每毫秒单价)=0.00001 美元
  • 通过 API Gateway 将此 Lambda 函数开放为 API:Gateway 的价格约为 1 美元 / 100 万条请求,即 0.000001 美元 / 每条请求。

基于以上数据,可以计算出在一天之内,当请求数量为 56,200 条时,二者总成本相等。在请求数量达到 10 万条 / 天的时候,ChatGPT4 的使用成本约为 268 美元,而开源大模型的成本为 151 美元;在请求数量达到 100 万条 / 天时,ChatGPT4 的使用成本约为 2,680 美元,而开源大模型的成本为 161 美元。可以发现,随着请求量的增加,开源大模型对于成本的节约是显著的。

开源提高模型的可解释性和透明度,降低技术采纳的门槛

开源模型比封闭模型更容易评估。开源模型开源了其预训练结果,有些甚至开源了其训练的数据集、模型架构等,这都有利于研究人员和使用者对大模型进行深入分析,了解其优缺点。科学家和开发者遍布全球,他们可以相互审查、评估、探究并理解基础原理,进而增强安全性、可靠性、可解释性和信任感。此外,广泛地分享知识对于推动技术进步极为重要,同时也有助于降低技术被误用的可能性;闭源模型通常只能通过性能测试进行评估,本身是一个 “黑箱”,其优缺点、适用场景等不能被清晰地测评,本身可解释性与透明度显著低于开源模型。

同时闭源模型存在着被质疑原创性的风险。使用者不能确定闭源模型是否真正为原创,导致可能存在的版权、技术支持可持续性问题的担忧。开源模型由于代码可查,因此可以清晰判断其原创性,令使用者更加信服。根据 Hugging Face 技术人员评论,相比闭源大模型的黑箱,像 Llama2 这样的开源模型,公布了训练数据、方法、标注等细节,「透明化的文章都出来了,代码也发出来了,用起来你放心,知道里面有什么」。

更高的可解释性和透明度,有利于增强使用者尤其是 B 端用户对于大模型的信任。

企业用户可以通过开源基座模型实现特定需求

企业用户具有多种类的特定需求,如:行业特征微调、本地部署保证隐私等。

目前随着大模型参数量不断增加,训练成本不断攀升,一味地提高大模型参数量并不是提高性能的最优解;而针对于特定问题的微调,反而能迅速提高大模型的针对性性能,达到事半功倍的效果。例如微软基于 LLaMA2 微调出的数学开源大模型 WizardMath,其参数只有 700 亿,但是经过 GSM8k 数据集测试,WizardMath 数学能力直接击败了 ChatGPT、Claude Instant 1、PaLM 2-540B 等一众大模型,这充分说明了微调对于提升大模型专业解决能力的重要作用,也是开源大模型的一大优势。

image009
图 2.9 WizardMath 的性能排名

大量企业用户对数据隐私有极高要求,开源大模型本地部署的能力极大地保护了企业的隐私。企业在调用闭源大模型时,闭源模型始终部署在诸如 OpenAI 等公司服务器上,企业只能将自己的数据远程发送到大模型公司服务器,这对于企业的隐私保护非常不利,中国的企业还面临相关的合规问题。而开源大模型则可以实现本地部署,企业所有数据在公司内部处理,甚至可以离线处理,极大保护了企业的数据安全。

开源模型有利于客户的长久体验

对于企业,建立一个很好的数据集,可以应对开源模型不断的迭代。开源模型可以针对企业特定数据进行微调,微调的数据集质量要求很高。对于开源模型的使用企业,花费成本得到的一个数据集,可以用来微调很多模型,即发挥以逸待劳的作用:企业使用的大模型可以随着技术的发展不断更换,例如由 LLaMA1 提升至 LLaMA2,但其花费成本制作的数据集却不用再更换,这样从长远来看,可以保证企业以更小的成本,实现模型能力的不断提升。

开源模型的更新速度很快,满足用户变化的需求。在开源社区研发力量的加持下,开源大模型的欠缺被迅速补足。LLaMA2 本身欠缺中文语料,导致在中文理解方面令人不甚满意;但是仅在 LLaMA2 开源次日,社区就出现了首个能下载、能运行的开源中文 LLaMA2 模型 “Chinese LLaMA27B”。充足的社区力量支持,可以满足用户不同的需求,而闭源公司通常无法如此全面地照顾到各类用户的不同需求。

开源有助于抢占市场先机

开源模型由于进入门槛低的特点,用户更易接触,可以迅速拓展市场。Stable Diffusion,一款开源的图像生成模型,凭借其庞大的开发者社区和多元化的应用场景,已成为闭源文生图模型 MidJourney 的重要竞争对手。尽管在某些方面不及 MidJourney,但 Stable Diffusion 凭借其开源和免费的特点,在图像生成市场上占据了重要份额,成为领域内最受欢迎的模型之一。这一成功也为其背后的公司 RunwayML 和 Stability AI 带来了广泛的关注和投资。

2.2.3 生态侧:汇聚多元,长久增长

开源有利于大模型公司迅速抢占生态资源

开源模型的低门槛、易得性还会帮助模型迅速占领相关生态资源。Stable Diffusion 这个开源项目在全球范围内获得了众多自由开发者的积极响应和支持。其中,许多热心的程序员积极参与,为其打造了易于使用的图形用户界面(GUI)。大量的 LoRA 模块被开发出来,为 Stable Diffusion 提供加速出图、绘制更生动的图像等功能。大量相关应用软件也相继诞生,根据 Stable Diffusion 官方网站的数据显示,在 Stable Diffusion 2.0 版本发布一个月后,位于苹果应用商店前十名的应用中,就有四款是基于 Stable Diffusion 技术开发的人工智能绘画应用。繁荣的生态成为 Stable Diffusion 坚实的根基。

在开源大模型 LLaMA2 最初发布时,Github 上包含 “LLaMA” 关键词的项目有 5600 个,包含 “GPT4” 关键词的项目有 4100 个。经过两周,LLaMA 相关生态以明显更高的速度增长,其相关项目数量达到 6200 个,而 “GPT4” 相关项目为 4400 个。对于大模型公司,生态相当于市场、技术力量和发展的不竭动力。开源以其更低的门槛,能够比闭源模型更快地抢占生态资源。因此相关开源大模型公司应抓住这一优势,加强同社区开发者的沟通,为其提供足够的支持和帮助,促进相关模型生态的迅速发展。

开源有利于大模型厂商撬动市场,获取商业同盟

LLaMA2 商用开源后,Meta 迅速与微软、高通达成合作。作为 OpenAI 的大股东,微软选择与开源厂商 Meta 达成合作更意味着开源成为了不可忽视的一股力量。对于未来的合作,Meta 表示微软 Azure 云服务的用户,在云上就可以直接微调部署 Llama2,微软表示,Llama2 已经针对 Windows 进行优化,直接可以在 Windows 本地运行。

二者的结合充分彰显了开源大模型与云厂商具有天然的合作基础。无独有偶,国内的开源大模型也有类似的趋势:百度的文心千帆、阿里的通译千问均为开源大模型,虽然用户使用开源大模型通常不需要付费,但用户们需要百度云和阿里云作为算力平台,需要为算力付费。

Meta 与高通的合作也预示着其在手机领域的扩展。开源大模型由于其受众面广,可以本地部署等优势,手机成为未来便捷使用大模型的重要载体。这也吸引着手机芯片厂商与开源模型厂商进行合作。

综上所述,开源大模型以其广泛的触达作用,有利于背后公司寻找合作伙伴,撬动市场。

开源可以调集广大的社区力量,汇聚多元的开发力量

广大的社区力量一直是开源的重要优势。如下图所示,Github 上生成式 AI 项目在 2022 年实现快速增长,自 1.7 万飙升至 6 万,迅速增长的社区不仅可以迅速为开源大模型的开发公司提供大量的技术反馈,还可以充分提升开源大模型的末端触达力,通过微调将开源模型应用于各种垂直领域,为大模型带来更多用户。

image010
图 2.10 开源社区 Github 上生成式 AI 相关项目的数量变化(信息源:Github)

相比于闭源模型,开源大模型会收到来自不同地区、不同文化、不同技术背景开发者的贡献。如下图所示除了美国,来自中国、印度、日本、巴西等世界各地的贡献者,都为生成式 AI 的开源社区做出了巨大贡献。他们的加入将使得开源大模型更能适应于不同地区的风土人情:例如对应语言的微调、对应产业的微调、不同使用习惯的微调,从而提高了开源大模型的受众面。

image011
图 2.11 生成式 AI 贡献者的地域分布 TOP10(信息源:Github)

国内开源基座模型蓬勃发展,紧跟全球领先步伐

基于国内的科技企业生态,国内的开源预训练基座大模型也正蓬勃发展,紧跟全球领先步伐。

6 月清华系 ChatGLM 升级到第二代,当时在中文圈(中文 C-Eval 榜单)里拿下了 “榜首” 的好成绩,10 月推出的 ChatGLM3 不仅在多模态层面性能直逼 GPT-4V,也是国内首个具备代码交互能力的大模型产品(Code Interpreter)。

同在 10 月,悟道天鹰 Aquila 大语言模型系列已经全面升级到 Aquila2,并且再添了 340 亿参数的 Aquila2-34B,当时在代码生成、考试、理解、推理、语言四个维度的 22 个评测基准上,Aquila2-34B 强势霸占了多个榜单 TOP 1。

11 月 6 日, 李开复老师亲自带队的大模型创业公司零一万物,正式开源发布首款预训练大模型 Yi-34B,在包括 Hugging Face 的开源大模型排行榜(Open LLM Leaderboard)等多项排行榜中取得惊人成绩。

12 月,阿里云通义千问 720 亿参数的模型 Qwen-72B 力压 Llama 2 等国内外开源大模型,登顶全球最大模型社区 Hugging Face 的开源大模型排行榜(Open LLM Leaderboard)榜首。

国内的开源预训练基座大模型也远不止以上几个,蓬勃发展的开源预训练基座大模型生态令人可喜,其中不但有学术机构、互联网巨头,也有部分优秀的创业公司,报告末尾统计了目前已开源的模型的初创公司与模型情况。

2.2.4 开源大模型的商业化实现路径

当前,我们正处在开源大模型技术快速发展的时代,这一领域虽然前景广阔,但也面临着显著的商业模式探索的挑战。本段落基于与从业者的交流、案例调研,尝试归纳出现阶段的一些商业化探索方向。

提供支持服务

随着越来越多基础开源技术的出现,软件的复杂性和专业性都大幅度提高,用户对软件稳定性的需求也同步提升,需要专业的技术支持。此时便出现了以 Redhat 为代表的企业开始尝试基于开源软件实现商业化运营,主要的商业模式为 “Support 支持服务”模式,为使用开源软件的客户提供付费的技术支持与咨询服务。目前的基座模型整体复杂度、专业度较高,用户同样需要专业的技术支持。

在大模型领域,智谱 AI 的商业模式与 Redhat 较为相似。其为企业提供自研大模型 ChatGLM 的本地私有化部署服务,提供高效的数据处理、模型训练和部署服务。提供智谱大模型文件和相关的工具包,用户可以自行训练微调和部署推理服务,在此之上智谱会提供部署应用相关的技术支持和咨询,一级模型的更新。通过该方案,企业可以实现数据的完全掌控和模型的安全运行。

image012
图 2.12 智谱 AI 的私有化部署定价模式

提供云托管服务

自云计算技术发展以来,云增长持续超出预期。不断增长的对灵活和可扩展基础设施的需求推动了 IT 企业的云计算支出与全球范围内云渗透率的不断提高。在这样的技术背景下,用户对降低软件运维成本的需求不断增加。云托管服务是指通过 SaaS 使客户跳过内部部署直接将软件作为服务托管在云平台上。客户通过订阅 SaaS 服务,将前期高额的资本性支出转为小额的经常性支出,并在很大程度上缓解了运维压力。目前比较成功的开源软件公司包括 Databricks、HashiCorp 等。

在大模型领域,智谱 AI 直接提供基于 ChatGLM 的标准 API 产品,以便客户快速构建自己专属的大模型应用,按照模型实际处理文本的 token 数量计量计费。该服务适用于对知识量、推理能力、创造力要求较高的场景,比如广告文案、小说写作、知识类写作、代码生成等,定价为:0.005 元 / 千 tokens。

同时智谱 AI 还提供超拟人大模型(支持基于人设的角色扮演、超长多轮的记忆、千人千面的角色对话)、向量大模型(将输入的文本信息进行向量化表示,以便于结合向量数据库,为大模型提供外部知识库,提高大模型推理的准确性)等 API 接口。

Hugging Face 也提供了云托管的商业模式。Hugging Face 平台托管了大量的开源模型,还提供了基于云的解决方案, Hugging Face Inference API,允许用户通过 API 轻松地在云端部署和运行这些模型。这种模式结合了开源模型的可访问性和云托管的便利性,用户可以按需求使用,无需自行设置和管理庞大的基础设施。

image013
图 2.13 Hugging Face 云平台收费

基于基座模型开发商业应用

基于基座模型收取费用,指部分开源厂商本身的基座模型是免费开源的,但是厂商基于基座模型又开发出一系列商业应用,并针对商业应用进行收费的模式,典型案例如通义千问。

阿里云基于旗下的开源基座模型通义千问,开发出八大应用:通义听悟(语音识别)、通义晓蜜(提升客服效率)、通义智文(文字理解)、通义星尘(个性化角色)、通义灵码(辅助编程)、通义法睿(法律行业)、通义仁心(医药行业)、通义点金(金融行业)。这些应用都有对应的企业级付费模式。同时部分应用也包含个人端的收费模式,如通义听悟。,主要提供会议纪要等语音转文字的相关服务,其收费标准主要基于音频时长计算。

image014
图 2.14 通义听悟收费模式

“模型即服务” 的商业模式

模型即服务(英文简称:MaaS)最底层的含义是要把模型作为重要的生产元素,围绕模型的生命周期设计产品和技术,从模型的开发入手,包括数据处理、特征工程、模型的训练和调优、模型的服务等,提供各种各样的产品和技术。

阿里云发起的 “魔搭社区” 为 MaaS 的倡导者,为了实现 MaaS,阿里云进行了两方面的准备:一是提供模型仓库,收集模型,提供优质数据,还可针对业务场景调优。模型使用和算力需要结合在一起,以便提供快速体验模型,让广大开发者无需写代码就能快速体验模型的效果。二是提供抽象接口或 API 接口,以便开发者针对模型进行二次开发。在面对具体应用场景时,提供少样本或者零样本的方式,便于开发者对模型进行二次优化,真正让模型应用到不同的场景中。

image015
图 2.15 阿里云:模型即服务

大模型商业模式需要勇于探索与尝试

目前,开源大模型公司商业路径尚未获得市场验证,因此大量公司都在积极探索不同的商业模式,而不拘泥于单一的定价策略。但到目前为止,还没有找到有效的商业模式来覆盖其高昂的开发和运维成本,从而导致它们在经济上的可持续性存疑。这一情况在一定程度上反映了这个新兴行业的特性:虽然技术上取得了突破性进展,但如何将这些技术转化为经济效益,仍是一个待解的问题。

然而,值得注意的是,尽管面临这样的挑战,开源大模型的兴起和发展仍然标志着一个新的业态的诞生。这个业态具有其独特的价值和潜力,为各种行业提供了前所未有的技术支持和创新可能性。在这个过程中,各方参与者(包括研究机构、企业、开发者和用户)都在积极探索,试图找到能够平衡技术创新与经济回报的模式。

这种探索并非一蹴而就,它需要时间、实验以及对市场和技术趋势的深入理解。我们可能会看到各种创新的商业模式出现,如上文提到的技术支持服务、云托管、MaaS 等。尽管当前这些开源大模型的商业模式尚未成熟,但正是这种探索和实验,将推动整个大模型领域向前发展,最终找到可持续增长且有利润回报的商业路径。

2.3 AI 开发者工具开源已成为行业阶段性共识

2.3.1 开发者工具在 AI 产业链中发挥着重要作用

开发工具(Develop Tools)层,是 AI 大模型开发链条中重要的一环。如下图所示,开发工具层起到承上启下、链接中层的作用:

对于承接算力资源,开发工具层起到了类似 PaaS 的作用。基于云平台帮助大模型开发者更加简便地部署算力、开发环境、调用以及分配资源,让其能够专注于模型开发的逻辑和功能,实现本身的创新。

对于链接预训练模型,开发工具层提供一系列工具加速模型层的开发,包括数据集清洗、标注工具等。

image016
图 2.16 开发者工具在 AI 大模型产业链中的位置

对于推动 AI 应用开发,开发者工具层对企业、个人开发者最终产品的开发部署都起到重要帮助作用。对于企业开发者,开发者工具帮助实现行业大模型的部署、以及模型的监控,以保证企业模型的正常运行。还有其他相关功能,包括模型评估、模型运行过程数据库推理和补充等。对于个人开发者,开发者工具帮助他们简化部署步骤、降低开发成本,激励了更多针对特定功能的微调模型的诞生,例如 Hugging Face 推出的 Autotrain 可以帮助开发者只需要点几下鼠标就能基于私人数据对开源模型进行微调。同时开发者工具也帮助建立终端用户与大模型 APP 之间的连接,甚至大模型在终端用户设备的部署。

随着开发工具的日益成熟和进步,越来越多的开发者开始涉足大模型的相关开发。这些工具不仅提高了开发效率,还降低了进入门槛,使得更多具有创新思维的人才能够参与到这个领域。从数据处理、模型训练到性能优化,这些工具为开发者提供了全面的支持。因此,我们见证了一个多样化、活跃的大模型开发社区的诞生,其中不乏一些前沿的项目和创新的应用。

image017
图 2.17 越来越多的 AI 大模型开发者

目前的大模型开发工具百花齐放,这些工具涵盖了从数据准备、模型构建、到性能调优的各个环节,不断推动着人工智能技术的前沿发展。有的工具专注于数据标注和清洗,让开发者能够更轻易地获得高质量数据;有的工具致力于提高微调效率,使得大模型更符合定制化需求;还有的工具负责大模型的运行监控,以便及时反馈给开发者、使用者。这些多样化的工具不仅促进了技术创新,也为开发者提供了更多选择,共同构建了一个充满活力和创造力的大模型开发生态系统。其中不乏有大量开源的优秀项目,为使用者和开源公司都带来了较大的效益。

image018
图 2.18 大量开发工具覆盖大模型开发的不同层面

2.3.2 开发者工具开源有重要意义

供给侧效益

开源开发者工具有利于使产品在不同场景中经历打磨洗礼、升级换代,有助于产品的快速成熟。开源开发者工具的一个主要优势在于它们提供了一个广泛的测试和应用环境。由于开源工具可提供不同的用户和组织自由使用和修改,这些工具经常在多样化的实际场景中得到应用和测试,从而经受“实战”的考验。这种广泛的使用和反馈有助于产品更快地发现并修复潜在的缺陷,同时也促进了新功能的开发和现有功能的改进。尤其是对于初创开发者工具公司来说,这是最快和最经济获得产品反馈、促进产品改进的方式,有助于快速向市场推出较为成熟的商业化产品。

开发者工具类底层产品用户粘性高,开源有利于迅速铺开市场。前文提到,开发者工具包含大量大模型开发过程中不可缺少的组成部分。一旦开发者习惯了特定的工具,他们往往会持续使用这些工具,因为改变工具意味着需要重新学习和适应新工具的特性和用法。因此,这类产品自然具有较高的用户粘性。

image019
图 2.19 开源开发工具用户粘性高

图为各大SaaS产品净收入留存率,本质反映的是老客户的留存率,持续付费能力,和对产品的忠实度。开发者产品粘性普遍高于中位数,Snowflake174%位居榜首,Hashicorp、Gitlab、Confluent等也超过120%。

由此可见,在如此高粘性的背景下,越快的获客速率代表着未来更高的收入。当这些工具以开源形式提供时,它们可以更快速地被广泛采用,因为开源降低了尝试和采纳新工具的门槛。这种快速的市场扩张对于建立品牌知名度和用户基础至关重要。

需求侧效益

开源开发者工具减小了中小企业进入大模型市场的成本,方便他们把精力更多地集中在应用层的开发上。对于中小企业来说,进入大规模模型和复杂系统的开发市场往往需要巨大的技术投入和资金支持。开源开发者工具降低了这一门槛,因为它们通常免费、或整体价格较为低廉,并且包含了大量已经过验证的功能和组件。中小企业可以利用这些资源来开发和测试自己的产品,而无需从头开始开发所有基础组件。如此,它们可以将更多的资源和精力集中在应用层面的创新和特定业务需求的解决方案上,而不是在构建基础技术上耗费大量时间和资金。这不仅降低了进入市场的成本,而且加快了产品开发的速度,使中小企业能够更有效地与大公司竞争。

由于开源开发工具的生态效应,它们的技术迭代速度通常超过了闭源工具。在这样的开源生态中,实验室的最新研究成果能迅速被集成和共享,这样的机制保证了技术的快速更新和传播。开源社区的活跃参与促进了创新思想和技术的快速交流,使得最新的开发工具和技术成果能够即时地被广大开发者所了解和使用。这种开源文化的优势在于它的开放性和协作性,为开发者提供了一个接触和利用最先进工具的快捷方便途径。它不仅加速了技术的发展,也为个体开发者或小团队提供了与大型企业竞争的机会,从而推动了整个技术领域的健康发展和创新。

2.3.3 开发者工具开源需重视生态搭建

做好开发者工具开源需要维持社区生态稳定的技术支持

开源开发工具依赖于社区和合作伙伴提供的支持和维护。这一点对于确保工具的稳定性和可靠性至关重要。例如,一个开源数据库管理系统的成功不仅取决于其功能,还取决于社区能否及时响应用户报告的问题并提供修复。同时,合作伙伴和生态系统中的用户提供的市场反馈对于开源开发工具的优化至关重要。如果一款开源的代码分析工具在企业环境中广泛使用,那么这些企业用户的反馈将直接影响工具的未来发展方向。这种反馈可以帮助开发者了解哪些功能最受欢迎、哪些需要改进,从而使工具更贴合市场需求。

开源开发者工具需要与云厂商优势互补,扩大市场覆盖和用户基础

开发者工具本身要基于云厂商提供的平台进行部署,其优势在于专业性、技术实力强;而云厂商的优势则在于提供刚需的算力平台以及本身较为广泛的用户基础。二者合作开发者工具,开发商可以借助于云厂商提供更好的算力优惠吸引更多使用者,同时得益于云厂商本身的销售渠道,也能获得更强的终端触达力。这种良性循环有助于将开源开发工具推广到更广泛的用户群体。这不仅增加了工具的知名度,也为工具的实际应用和改进提供了更多的机会。更多的用户意味着更多的反馈,这反过来又促进了工具的持续优化和适应不断变化的市场需求。

以 MongoDB 为例,它很早便进行云转型,推出了 SaaS 服务 Atlas,尽管在 2017 年 MongoDB 上市时,Atlas 的收入只占总收入的 1%,在当时 MongoDB 已经打造基于 Open Core 模式的全部体系,但 MongoDB 依然花费大量资源打造 SaaS 相关产品和营销体系,之后 Atlas 的收入便以超过 40% 的年复合增长率飞快增长。相比之下其竞争对手 CouchBase 则过于依赖传统模式,花费很多精力做移动平台支持服务,该服务市场增长缓慢,将公司拖入了尾大不掉的泥潭。以 SaaS 服务为基础的产品体系对于当下的开发者工具厂商非常重要,需要重视与云厂商的合作。

image020
图 2.20 MongoDB 各产品销售收入

建立生态有利于构建开源行业标准

开发者工具作为底层工具层,其对上层模型开发的原理架构具有决定性作用。与云厂商、开源模型厂商等合作伙伴间的协作有助于形成共识,建立行业标准,这对于确保开发工具的互操作性、兼容性以及用户体验的一致性至关重要。标准化可以减少兼容性问题,使不同的产品和服务能够更容易地集成和使用。例如 MongoDB 借助社区力量形成了 NoSQL RDMS 的行业标准。这个活跃的社区不仅为 MongoDB 早期的商业版带来了高质低价的许可证,也成为日后 Atlas (managed service) 的基础。Milvus 基于开源社区协作,推出了 Vector DB Bench(可以通过测量关键指标来衡量向量数据库的性能,使得向量数据库发挥出最大的潜能),从而逐渐建立起向量数据库的行业标准,方便用户针对性地选择适合需求的向量数据库。

image021
图 2.21 向量数据库评价结果

2.3.4 开源开发者工具商业化路径探索

AI 开发者工具,与传统软件开发者工具在商业化维度上有可借鉴性,整体商业化还处于早期探索阶段,基于对目前已经尝试商业化的开发者工具开源项目的研究分析,发现目前有以下几种商业路径:

云上托管服务(Cloud Hosting Managed Service)- 按量计费

随着云计算的普及,已经有越来越多的开发者工具默认通过云上的托管资源,直接为用户提供服务。这样的云上托管服务即可以降低用户的使用门槛,也可以直接提供最新最专业的产品服务,在没有数据、安全、隐私的顾虑下,是不错的开发工具开源项目商业化的商业化选择。

在云上托管服务的商业模式下,越来越多的项目选择按量计费的商业模式(Consumption-Based Pricing)。按量计费通常也根据产品的不同,可以根据算力资源、数据量、请求数等等作为计费单位。

Hugging Face 推出的 AutoTrain 是一款可以根据用户提供数据集,自动选择适合模型并进行微调的平台,可选择模型类别包括:文本分类、文本回归、实体识别、摘要、问答、翻译和表格。为非研究人员提供了训练高性能 NLP 模型并快速有效地大规模部署的能力。AutoTrain 的计费规则未公开,而是基于训练数据和模型变体的数量,在训练前收取预估费用。

Scale AI 公司主要提供数据标注产品,定价模式较为简洁,Scale lmage 起价为每张图片 2 美分,每条标注 6 美分;Scale Video 起价为每帧视频 13 美分,每条标注 3 美分;Scale Text 起价为每项任务 5 美分,每条标注 3 美分;Scale Document Al 起价为每项任务 2 美分,每条标注 7 美分。除此之外,还有针对企业的收费方式,即根据具体的企业级项目的数据量及服务进行收费。

云上托管服务(Cloud Hosting Managed Service)- 分级订阅计费

有部分开发工具层项目,同样使用云上托管服务,但以按年或者按月的方式提供订阅服务。

image022
图 2.22 Dify.AI 订阅售价

订阅的商业模式下,为了根据用户的不同需求与付费意愿,可以采用不同的分级,以做到成本与价格的平衡。以上图 Dify.ai 公司为例,针对不同体量的用户分级售价:针对个人用户有免费版,但考虑到成本费用,设定了诸多限制;针对专业个人开发者与小型团队,以较低价格解锁了部分限制,但依然存在着使用上限;针对中型团队,以较高价格提供相对完整的服务。

但无论是按量计费还是分级订阅的托管云服务,都只能提供标准化的产品服务,并且数据需要流向公有云。在一些大型企业侧,这样的商业模式依然存在私有化、定制化的需求。

私有云 / 专有云 / 定制化部署

虽然越来越多的项目直接利用云上托管的服务,但当大型企业需要有更多私有化、定制化的需求时,云上托管服务就不再是可选项。

通常这样的商业模式下,项目也会为用户提供不同的选择。云上私有部署(Bring your own cloud)的模式在北美市场非常流行,而本地化部署(On-Premise)的场景更能满足对数据合规更敏感的场景。

开发工具层的开源项目商业化,经常出现提供包括以上三种商业模式在内的多种选择,这个可以理解为,这一层面的客户需求呈现出多样性与复杂性,并且在商业模式探索上,各个项目也在不同路径上同步尝试,未来的发展方向值得长期持续关注。

2.3.5 开发者工具侧开源的成功案例

Zilliz 是研发面向人工智能的新一代数据处理和分析平台,其主要是为应用型企业提供底层技术。Zilliz 研发的 GPU 加速的 AI 数据中台解决方案 Mega,其中包括数据 ETL 系统 MegaETL、数据库系统 MegaWise、面向 Hadoop 生态的模型训练系 MegaLearning 和特征向量检索系统 Milvus,可满足传统的加速数据 ETL、加速数据仓库和加速数据分析的场景和需求,面向各类新兴的 AI 应用场景,已被全球 1,000 多个企业使用,涵盖金融、电信、安防、智慧城市和电子商务等行业。

image023
图 2.23 Zilliz 全球用户(来源于公司官网)

Zilliz 的成功代表着基于 GPU 的大数据加速器为企业日益增长的数据分析需求提供了有效解决方案。Zilliz 的核心项目向量相似度搜索引擎 Milvus 是全球首款 GPU 加速海量特征向量匹配和检索引擎。Milvus 依托 GPU 加速,提供极速特征向量匹配以及多维度数据联合查询(特征、标签、图片、视频、文本和语音等联合查询)功能,并且支持自动分库分表和多副本,能对接 TensorFlow、PyTorch 和 MxNet 等 AI 模型,可实现百亿特征向量的秒级查询。Milvus 于 2019 年 10 月在 GitHub 上开源,Stars 数量持续高速增长,2023 年 12 月达到 25k+,拥有超过 200 位贡献者和 4000 + 用户的开发者社区。资本市场上,Zilliz 在 B 轮获 4,300 万美金,成为全球开源基础软件最大单笔 B 轮融资,表明了投资机构对 Zilliz 未来发展潜力的看好。

image024
图 2.24 Zilliz Github 社区运营情况

Zilliz 的主要产品是向量数据库,是开发者工具中的关键一环,这种专门用于存储、索引和查询嵌入向量的数据库系统,可以让大模型更高效率的存储和读取知识库,并且以更低的成本进行模型微调,还将进一步在 AI Native 应用的演进中扮演重要作用。

Zilliz 的商业化产品为 Zilliz Cloud,采用月度订阅模式,采用 SaaS 的部署方式,基于向量数量、向量维度、计算单元(CU) 类型、数据平均长度,来确定每月的订阅费用。Zilliz 同时也提供基于 PaaS 的专有部署服务,适用于高度注重数据隐私和合规的场景,这一部分为定制化计价。

image025
图 2.25 Zilliz 价格计算器示例 景,这一部分为定制化计价。

2.4 AI 应用层开源工具百花齐放

2.4.1 应用层开源工具百花齐放

应用层人工智能的发展正如百花齐放之景,展现了技术多样性和应用广泛性的壮观图景。当下,应用层 AI 的影响力不断扩大,它们有的面向 C 端用户,提供涵盖日常生活方方面面的服务,如娱乐、社交、音乐、个人健康助理等等;同时也在更专业 B 端领域发挥着重要作用,如市场分析、法务处理、智能设计等。这些应用展现了 AI 技术的深度和广度,不仅提高了效率和便利性,还在很大程度上推动了创新和科技进步。

image026
图 2.26 百花齐放的 AI 应用层产品(信息源:Sequoia)

大量开源应用层产品也随之诞生,这些应用层产品多是基于大模型底座、结合行业特定数据集进行微调得到。相比于通用大模型,针对行业定制的应用层工具具有更好的性能,开源的特性也有助于使用这些应用的 B 端、C 端用户进行进一步的定制化开发,以更加符合需求。

应用层的开源工具促进了跨学科和跨行业的融合。例如,医学、金融、教育和零售等行业都在利用开源 AI 工具来解决行业特有的问题,推动了技术在各个领域的应用。由于成本低和风险小,开源工具鼓励了实验和创新。开发者可以自由地试验新的想法和技术,这种实验精神极大地推动了应用层的繁荣。

image027
图 2.27 应用测开源工具图谱(仅以各领域部分产品举例)

2.4.2 应用层开源的驱动因素

开源应用层产品使用门槛低,更易被用户接受

应用层开源工具价格较低,更符合国内企业付费意愿低的特点。根据艾瑞咨询的数据,国内企业内部管理流程不够专业,对软件价值认可度低,更愿意为人力付费。厂商需要曲线教化企业,给企业接受产品的缓和期,逐步释放需求端。基于上述背景,开源工具以其低成本特性满足了这些市场的需求,使得企业更愿意尝试和采纳这些工具。对于预算有限的国内企业来说,低成本是一个显著的优势。低成本或无成本的特性使得这些企业能够在不增加财务负担的情况下访问和使用先进的技术工具。

同时开源工具的低成本特性鼓励企业进行长期投资。企业可以在不承担重大财务风险的情况下,逐步构建和扩展其技术基础设施。随着企业对于开源产品的理解加深、依赖程度加深,开源产品可以逐步考虑提供增值服务的内容,从而达到长期获客的目的。

同时开源产品有利于实现与其它系统的无缝集成,提升用户体验。开源应用层产品的一个显著特点是它们通常具有高度的灵活性和可定制性。允许用户根据自己的具体需求进行修改和调整。这意味着开源产品可以被定制,以更好地适应现有系统和工作流程,从而实现与其他系统的无缝集成。许多开源项目遵循行业标准,这有助于确保不同系统和组件之间的兼容性。标准化促进了不同软件产品之间的互操作性,简化了集成过程,从而提高了整体的用户体验。开源社区通常由来自全球的开发者和用户组成,他们共同努力改进产品并提供支持。这种协作精神不仅促进了产品的持续改进,也为解决集成过程中可能遇到的问题提供了资源。

开源应用层产品可获得来自社区的贡献,促进技术迭代、拓宽适用场景

应用层开源可以获得来自社区开发力量的大力支持。由于应用场景更加多样与分散,不同细分场景的需求差异性更大,对应场景的贡献者专业性要求更强。Stable Diffusion(SD)是一款开源的文生图应用,在社区力量的加持下,自发布以来其性能迅速追赶,并在某些方面超过闭源文生图应用 Midjourney。虽然使用 Stable Diffusion 时存在一些不便之处,但用户能够从社区获取成百上千的 LoRA、微调设置和文本嵌入。例如,用户在使用 Stable Diffusion 时发现它处理手部图像的能力有限。对此,社区迅速作出反应,在接下来的几周内就开发出了一个专门针对手部图像问题的 LoRA 修复。这种社区的及时和专业反馈极大地促进了应用层开源工具的快速进步和改进。

开源产品由于更低的使用门槛,一经发布,就可能被来自不同行业和背景的用户采用,应用于各种环境和情境。这些应用场景可能远远超出了开发者最初的设计和想象。当产品在这些多样化的场景中被使用时,它们可能展现出新的潜力或需求,揭示了之前未被注意到的使用情景。这可以为产品开发者提供宝贵的洞察,帮助他们理解产品在实际使用中的表现和潜在的改进空间。面对这些新发现的使用情景,开发者有机会进行创新和改进。他们可以根据用户在不同环境中的实际使用经验来增加新功能、优化现有功能或重新设计产品以更好地满足这些需求。这种基于实际使用情况的迭代,是开源产品不断进步的重要驱动力。

应用层开源产品具有的 Product-Led Growth(PLG)模型特征可以促进付费转化

PLG 模式主要通过自下而上的销售模式进行获客,产品是整个销售过程的核心。PLG 模式的增长飞轮有三个主要阶段:获客、转化、留存。在这三个阶段中,开源都有着区别于传统商业模式的优势。

在获客阶段,开源运营模式降低了获客成本,并且使获客流程更具针对性。开发人员的相互交流、GitHub 等平台带来的社区型协作,加速了传播获客。开源产品的初始客户定位通常为开源社区的参与者,他们往往是企业里的开发者或者 IT 人员。培育了这些优质潜在客户,也就具备了 “群众基础”。社区帮助打开企业的边界,让好的开源项目和产品的口碑传播得以可能。使用者为了解决自身问题和痛点,自发地进行下载使用。此时开源软件产品不仅仅是作为通过功能解决用户问题的一个方式,也可以成为帮助企业去传播和增长的一个载体。长期来看,就可以降低企业的获客成本,让自动化的获客越来越多,降低销售方面的费用支出。

在转化阶段,相比较传统商业软件,开源软件往往拥有更高的付费转化率。一方面,当用户使用过免费版的软件后,只要软件的功能可以很好的满足用户需求,就可以以较短周期的速度进行付费转化,并使其成为长期用户。另一方面,企业可以通过观察用户对免费版软件的使用行为,进行有针对性的转换跟进和追加销售,例如,向销售团队提供超出其使用限制并准备付款的客户列表。除了传统的销售转化,还可以通过自助购买路径进行转化(Self-service selling),这种转换路径很大程度上降低了销售成本。

在留存阶段,开源软件可以使用户规避供应商锁定风险,使其愿意进行长期使用。基于同一个开源项目,其下游可能会出现多个提供相似功能软件的供应商,并且可以以比较小的成本来改变供应商的选择,因此用户可以放心地选择长期使用软件。相反地,当顾客使用闭源产品时,如果在使用一段时间后想要转换使用另一个软件,就需要重新进行硬件、数据等的部署,造成不小的转移成本。因此当用户选择使用闭源软件时,可能会由于软件后期开发情况不满足需求或者转移成本过高,而放弃对软件的继续使用。

image028
图 2.28 应用层开源增长飞轮

2.4.3 大模型应用层开源的市场现状

互联网巨头与初创企业共同发力

在大模型应用层开源市场中,无论是互联网巨头还是初创企业,均有机会参与和竞争。这主要得益于以下几个因素:1)降低的技术门槛。模型层、开发者工具层的开源,降低了技术获取和应用的门槛。初创企业可以利用开源模型和工具,开发出符合特定需求的解决方案,而无需从头开始开发复杂的大模型算法。2)成本效益。开源模型通常无需高昂的许可或 API 费用,这对资金相对有限的中小企业尤其有利。3)创新与灵活性。初创企业通常能够更快速地适应市场变化,并针对特定的细分市场或应用场景进行创新。

目前互联网巨头主要以本身底座大模型为基础,在其上延伸出一系列垂类应用。例如阿里的通译千问,近期阿里发布通译千问 2.0,并在此基础之上引申出八大应用:通义听悟 (语音识别)、通义晓蜜(提升客服效率)、通义智文 (理解文本)、通义星尘(个性化角色)、通义灵码(辅助编程)、通义法睿(法律行业)、通义仁心 (医药行业)、通义点金(金融行业)。

初创企业主要选择某一细分行业进行深耕,如澜舟科技自研大模型聚焦于于营销、金融、文化创意等场景;XrayGPT 聚焦于医学放射图像分析;Finchat 聚焦于金融领域模型等等。云启在今年支持了两个开源的应用层初创项目,分别是辅助编程的工具 TabbyML 和可以实时定制 AI 个人助手的 Realchar,他们都快速地在 Github 上积累了大量用户。

B、C 端的竞争格局不同

在大模型应用层开源市场,面向企业 B 端和消费者 C 端的竞争格局存在显著差异:

  • B 端市场:面向企业的应用通常专注于提高效率、降低成本和增强决策能力。在这一领域,开源大模型可以被用于自动化流程、数据分析、客户服务优化等。这里的竞争更多地集中在技术的实用性和定制化能力上。
  • C 端市场:面向消费者的应用则更注重用户体验、交互性和易用性。这包括个性化推荐、虚拟助手、娱乐和社交媒体应用等。C 端市场的竞争更多地体现在创新的用户界面和吸引用户的新功能上。

大量子场景尚属于蓝海市场,未出现明显头部

随着技术的发展,市场对于 AI 应用的需求变得越来越细分。例如,在医疗、法律、金融、教育等行业中,每个领域都有其独特的需求和挑战。这些细分市场提供了大量的机遇,但同时也需要针对性的解决方案。目前在这些领域都有一些相关应用出现,但大部分都处于初创阶段,尚未产生头部应用。而且由于模型的细分行业众多,竞争不甚激烈,因此是一个较好的入局机会。在这些蓝海市场中,由于市场新颖且不断发展变化,尚未形成明显的市场龙头。这为新进入者和创新者提供了机会,他们可以通过独特的解决方案或创新的业务模式来占据市场份额。

基于大模型新的能力,期待创新性的应用出现

尽管大模型技术已经取得了显著进展,但其在特定应用领域的深度整合和创新应用还在初级阶段。这意味着在许多子场景中,还有大量的空间需要探索和实现新的应用方式。随着大型人工智能模型的快速发展,我们正迎来一个充满潜力和创新的新时代。这些模型不仅将优化和改进现有的技术应用,更重要的是,它们将成为引领全新市场和应用领域的先锋。在这个充满未知和惊喜的未来,我们可以期待出现种类繁多、功能强大的新应用,它们将以前所未有的方式融入我们的日常生活。这些新兴的市场和应用将打开一扇窗,让我们窥见前所未见的可能性,带来深远的社会和文化变革。它们将激发人类的创造力和想象力,推动我们突破现有的技术边界,探索更广阔的世界。

在这个充满活力和创新的时代,我们将见证技术与日常生活的无缝融合,体验到智能化带来的便捷和效率。人类与机器的协同合作,将打开新的合作和创新模式,引领我们走向一个更智能、更高效、更个性化的未来。这是一个充满期待的时刻,每一步技术的进步都在为我们打造一个更加精彩、丰富和多元的世界。在这个新时代,我们将共同见证和创造前所未有的奇迹,一起探索科技与人类共同发展的无限可能。

2.5 大模型开源商业化面临的挑战

2.5.1 技术高速发展,开源项目需要持续迭代以保持竞争力

在人工智能和大模型领域,技术的发展速度极快。,新的算法、数据处理技术、优化方法和计算架构不断涌现。对于开源项目而言,这意味着需要不断地更新和升级,以保持技术的先进性和有效性。这种持续更新的需求对资源和时间都是一种挑战。对于开源项目来说,特别是那些资金和人力资源相对有限的项目,要跟上这种快速的技术迭代步伐有一定挑战。这意味着他们不仅要与时间赛跑,还要面对来自商业公司和其他开源项目的激烈竞争。如果一个项目无法及时更新以反映最新的技术进展,它可能很快就会变得过时,从而失去用户和社区成员的兴趣和支持。

面对来自一些科技巨头如 OpenAI、阿里等有充足资金的公司,一些中小型公司花费大量成本开发的大模型可能会很快被超越,从而导致严重的资金缺口。对于大厂商可以采取 “烧钱” 的战略,而中小型公司则无力支撑,这有可能打击目前百花争鸣的大模型市场,降低其多元性。

2.5.2 抄袭 / 借鉴范围难以界定

开源大模型的初衷是让更多的用户接触和使用大模型,但是在使用过程中经常会就代码归属权、许可证等很多问题产生争议。由于大模型开源是一个较新的概念,相关法律法规制度不完善,很多还涉及跨国界的问题,因此关于大模型是抄袭还是借鉴,没有一个清晰的定义边界。近期零一万物有关 LLaMA 的 “套壳争议” 问题引发了广泛的关注。舆论持不同观点但没有最终的统一判断,其核心便在于抄袭 / 借鉴范围难以界定。

有些观点认为,零一万物的软件使用 Llama 的源代码却不标来源,让别人看起来这部分内容是他们自己开发的,确实涉嫌侵犯署名权,也就是涉嫌抄袭。但也有观点认为零一万物研发大模型的结构设计基于成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。

在大模型技术尚处于起步阶段,法律法规尚不完善的背景下,这种辨识变得更加复杂。我们应认识到,随着技术的不断演进和法律体系的完善,如何平衡保护创新与促进合作的关系,将是一个需要持续探讨和完善的过程。最终,这不仅是一个法律和技术的问题,更是关乎整个行业健康发展的伦理与道德议题。

2.5.3 社区参与者难以对模型迭代提供直接贡献

在构建和迭代大型人工智能模型的过程中,生态社区的参与者面临一个显著挑战:由于模型训练的复杂性,他们往往难以为模型的发展做出直接贡献。这些大模型,如 LLaMA 或其他先进的机器学习模型,通常需要高度专业的技术知识和资源,包括大规模的数据处理能力、深入的算法理解以及昂贵的硬件资源。对于普通社区成员来说,这些要求往往超出了他们的能力范围。

因此,尽管社区成员可能充满热情并愿意参与,但他们对模型进行实质性迭代方面的能力受到限制。这种专业能力的缺乏意味着,即使是最活跃的社区成员,也可能只能在模型的应用、反馈收集或初级调试等相对边缘的领域发挥作用。这种局限性不仅影响了社区对模型发展的贡献程度,也可能导致模型开发过程中社区参与感和归属感的减弱。因此,寻找合适的方式使更广泛的社区参与者能够有效地贡献其智慧和努力,是大模型发展中的一个重要课题。

2.5.4 开源技术发展快,后期更新成本高

开源软件的一个主要优势是降低了用户的初始成本。企业无需支付昂贵的许可费用就可以获得和使用开源大模型。这对于预算有限的小型企业或初创公司尤其有吸引力,因为它们可以利用先进的技术而无需承担重大的财务负担。虽然开源软件在初始阶段节省了成本,但在长期运营过程中,它们可能会带来更高的更新成本。

开源项目通常以其创新速度和社区驱动的动态性著称,这促使技术不断进步和演化。然而,随着技术的迅速更新和迭代,维护和升级现有系统的成本也随之增加。这种成本不仅包括直接的财务投入,比如硬件升级或购买新的服务,还包括间接成本,如培训员工以适应新技术,以及将现有系统迁移到更新版本的时间和劳力。特别是对于长期项目而言,持续跟进最新的开源技术变得尤为挑战。每一次重大更新或技术转型都可能涉及复杂的适配工作和兼容性测试,这需要大量的人力和技术资源。此外,频繁的更新可能导致系统稳定性和安全性问题,增加潜在的运营风险。

因此,尽管开源技术提供了创新和灵活性的巨大优势,但企业和开发者在采用和维护这些技术时,必须认真考虑到与之相关的更新成本,以及如何在持续创新和成本效益之间找到平衡点。

虽然开源大模型目前面临着众多挑战,如技术迭代的快速发展、抄袭风险、社区贡献的局限性以及维护成本的增加等,但其未来依然充满希望。开源大模型在推动技术创新、促进知识共享、加速研发流程等方面已经显示出巨大的潜力。为了实现这些潜力并克服当前的挑战,需要来自不同领域和背景的各方共同努力!

三. 开源安全挑战

安全问题是决定一款开源产品能否顺利商业化的重要因素。企业用户通常需要对使用产品进行全面的安全评估,以保证整体业务的安全可控,其中包括网络攻击安全、数据安全、商业许可证可控等。

根据 Synopsys 数据,截至 2022 年末,84% 的代码库包含至少一个已知的开源漏洞,48% 包含高风险漏洞,34% 的受访者还表示,他们在过去 12 个月内经历过 “利用开源软件已知漏洞发起的攻击。开源安全问题是一个需要高度关注的问题,它极大程度影响了客户对于开源软件的信任度,以及庞大的开源生态在未来能否行稳致远。只有做好安全保障,开源软件才能在商业化的道路上走得更远。

image029
图 3.1 开源代码库漏洞(数据源:Synopsys)

3.1 开源软件网络安全

3.1.1 开源软件安全漏洞会被利用造成严重后果

开源软件在推动技术创新和促进知识共享方面发挥了关键作用,但它们也固有地面临安全漏洞的风险。这些安全漏洞的根源通常在于开放性代码的管理和维护问题,例如编程错误、缺乏持续的安全审查,以及对更新和补丁的滞后应用。特别是在项目活跃度不足或缺乏有效监管的情况下,这些漏洞可能长时间未被识别或修复。历史上,由于开源软件的安全漏洞,已经发生了多起严重的安全事件,造成了敏感数据泄露和经济损失。

在 2014 年 4 月,被广泛使用的开源组件 OpenSSL 出现了一项重大安全漏洞,被称为心脏滴血(Heartbleed)。这个漏洞自 2012 年 5 月的版本开始就存在,使得攻击者能够获取包含证书私钥、用户名、密码、电子邮箱等敏感信息的数据。由于这个漏洞在长达近两年的时间内未被发现,其造成的影响极其广泛,几乎无法准确估量。再如,在 2021 年 12 月,另一款广泛使用的开源组件 Apache Log4j2 被发现存在一项严重的远程代码执行漏洞,称为 Log4Shell。这个漏洞由于 Apache Log4j2 的高性能和低利用门槛,迅速在全球范围内传播,影响了包括 Steam、Twitter、亚马逊等在内的多家知名公司和服务平台。

3.1.2 开源软件网络安全问题相对普遍

开源软件本身安全漏洞较多

根据 “2022 年奇安信开源项目检测计划” 结果显示,开源软件整体缺陷密度为 21.06 个 / 千行,高危缺陷密度为 1.29 个 / 千行。连续三年缺陷密度和高危缺陷密度数量不断增长,且有加速的趋势。开源软件十类典型缺陷的总体检出率为 72.3%,而这一数据两年前仅为 56.3%,检出率迅速增长,开源软件自身安全问题相当严峻。

image030
图 3.2 开源软件平均缺陷密度三年对比 (数据来源:2023 中国软件供应链安全分析报告)

从开源软件缺陷漏洞的绝对数量看,根据奇安信统计的数据,截至 2022 年底来自公开漏洞库中收录的开源软件相关漏洞达到 57,610 个,在 2022 年新增漏洞 7,682 个,增量约 15%,这一状况令人担忧。

::: info 专家点评 余杰:开源软件的安全问题亟待得到充分的重视,仅凭社区个体的力量显然不足以应对。如何构建有效的体系与制度来全面保障开源软件的安全,成为伴随其高速发展不可回避的重大课题。 :::

活跃度过低 / 过高的开源项目更易存在安全风险

开源软件如果活跃度过低,更新频率不足,则会导致不能及时修复出现的漏洞,从而增大软件的风险敞口;若活跃度过高,更新频率过快,也会导致使用者无法及时地相应更新,为安全运维带来较大压力。

根据奇安信的数据,若将超过一年未更新版本的开源项目视作不活跃项目,则 2022 年在主流开源软件包系统中不活跃的开源项目为 3,967,204 个,占比达 72.1%,而这一比例在 2021、2020 年分别为 69.9%、61.6%,说明开源作者整体维护积极性有所降低,对于开源软件生态安全的长期发展不利。

image031
图 3.3 不活跃开源项目统计

在普遍活跃度较低的背景下,也有部分开源软件活跃度过高,同样为使用者带来了很大的安全运维压力。根据奇安信,2022 年主流开源软件包生态系统中更新发布 100 个以上版本的开源项目有 22,403 个,这一数字在 2021、2020 年分别为 19,265、13,411 个。

image032
图 3.4 极度活跃的项目统计

活跃度过低、过高都给开源生态的使用者们带来较高的安全风险,迫切需要一个平衡点,以保证开源软件的健康和持续发展。需要建立更加科学的版本管理和发布机制,确保更新既能及时响应安全和功能需求,又不会过度频繁地打扰用户。对于活跃度不足的项目,可以通过增加社区参与、提供激励机制等方式来提升其活跃度。对于更新频繁的项目,应该更加注重与用户的沟通,提供清晰的更新日志和支持指南,帮助用户更好地理解和适应这些变化。

同时,也应该鼓励用户积极参与开源项目的反馈与贡献,形成良性互动。用户的实际使用体验和反馈是调整更新节奏、优化软件功能的重要参考。通过建立健康的用户 - 开发者互动机制,可以有效平衡活跃度和更新频率,确保软件的安全性和可用性。

部分用户使用过于老旧的软件,使用版本混乱

根据奇安信的数据,很多软件项目使用的开源软件版本非常老旧,甚至是 30 年前发布的版本,漏洞较多,风险敞口非常大。其中最早的一款软件是在 1995 年发布的 IJG JPEG 6,仍然被很多项目使用。老旧的版本往往伴随着老旧的漏洞,目前部分软件项目中仍然存在很老旧的开源漏洞。最古老的漏洞来自于 2002 年,距今已 21 年,11 个项目依然在使用。

image033
图 3.5 古老的开源漏洞及其使用情况

开源软件版本使用混乱的状况非常严重,并非都是最新版本。例如 Spring Framework,共有 181 个版本在使用。使用早期版本就会导致大量新版已经被修复的漏洞仍然可以被恶意利用,从而带来很大的安全风险。

3.1.3 开源软件漏洞风险的应对策略

定期的安全审计和代码检查

需要定义一个清晰的审计流程,包括对软件的整体架构、代码库以及依赖关系的全面审查。组建专门的安全团队来执行这些审计,或者利用第三方安全服务。这些团队或服务提供商应具备深入理解开源软件的能力。

同时定期举行代码审查会议,鼓励团队成员相互审查代码,这不仅有助于发现潜在的安全问题,还能提高团队的编程技能和代码质量。审计和代码审查应是一个持续的过程,不断地监控和更新代码库以响应新发现的漏洞和安全威胁。

使用 SCA(软件成分分析)工具

软件成分分析(SCA)是一种管理开源组件安全的方法,使开发团队能够迅速追踪和分析项目中使用的开源组件。SCA 工具能够识别所有相关的组件和支持库,以及它们之间的直接和间接的依赖关系。此外,它们还能检查软件许可证、识别已弃用的依赖项,并发现潜在的漏洞和威胁。通过 SCA 扫描,会产生一个包含项目软件资产完整清单的物料清单(SBOM)。

随着开源组件在软件开发中的广泛使用,SCA 逐渐成为应用安全的关键组成部分,尽管这一概念本身并不新颖。SCA 工具的数量随着其重要性的增加而增多。在包括 DevSecOps 在内的现代软件开发实践中,SCA 不仅需要为开发人员提供易用性,而且还需要在整个软件开发生命周期(SDLC)中引导和指导开发人员安全地开展工作。

在使用 SCA 处理开源安全问题时,应着重考虑以下几点:

  • 采用对开发者友好的 SCA 工具:开发人员通常忙于编写和优化代码,他们需要的是能够促进高效思考和快速迭代的工具。不友好的 SCA 工具可能会拖慢开发进程。易于使用的 SCA 工具能够简化设置和操作。这种工具应该能够轻松地与现有的开发工作流程和工具集成,并应尽早在软件开发生命周期(SDLC)中实施。重要的是要让开发人员理解 SCA 的重要性,并将其安全检查流程融入到他们的日常工作中,从而减少因安全问题导致的代码重写。
  • 将 SCA 集成到 CI/CD 流程中:使用 SCA 工具并不意味着会干扰开发、测试和生产流程。相反,企业应将 SCA 扫描集成到持续集成 / 持续部署(CI/CD)流程中,这样可以在软件开发和构建过程中作为一个功能部件,来识别和修复漏洞。这种做法也有助于开发人员将代码安全作为其日常工作流程的一部分。
  • 有效利用报告和物料清单:包括美国联邦政府在内的许多组织在购买软件时都要求提供软件物料清单(SBOM)。提供详细的物料清单意味着,企业认识到跟踪应用程序内每个组件的重要性。清晰的安全扫描和修复报告同样至关重要,它们提供了有关企业安全实践和修复漏洞数量的详细信息,展现了对软件安全的承诺和实际行动。

增强教育和培训

对开发人员进行定期的安全意识培训,以提高他们对安全威胁和最佳安全实践的认识,包括教育他们识别常见的安全漏洞和攻击手段。通过实战模拟练习和工作坊,让开发人员在安全的环境中学习如何处理安全事件。这些练习可以包括漏洞挖掘、代码修复和安全测试。

鉴于安全领域的快速变化,鼓励开发者持续学习和更新他们的知识,包括参与在线课程、研讨会和行业会议。建立一个平台,如内部论坛或定期会议,让开发人员分享他们在安全方面的知识和经验,以促进团队间的学习和合作。

3.2 开源许可证的可控

3.2.1 开源许可证是一种针对开源资源使用者的约束,类别丰富

开源许可证是一种针对开源资源(包括但不限于软件、代码、网页使用者)的约束。基于开源许可证,用户获得对开源资源进行使用、修改、共享等权利。如果软件没有许可证,就意味着保留版权,用户只能查看源码而不能进行使用。因此开源许可证本质上是一种法律许可,可以保护项目贡献者和开源资源用户,保证贡献者能以他们希望的方式开源所拥有的资源,也保证使用者以合理合法的方式使用资源而避免陷入知识产权争端,从而极大促进了开源社区的繁荣。

开源许可证根据授权的限制程度整体分为三类:Permissive、Weak Copyleft、Strong Copyleft

image034
图 3.6 开源许可证分类

Permissive 类别属于最为宽松的一类许可证,包括 BSD、MIT、Apache、ISC 等,这类许可证提供了极为宽松的授权条件,允许人们自由地使用、更改、复制及传播该软件。它们同样支持将软件用于商业或非商业用途。唯一的要求是,在软件的每份副本中都必须包含相应的许可证文本和版权信息。

Weak Copyleft 类别是相比于 Permissive 类更严格的许可证,包括 LGPL、MPL 等,这类许可证规定,任何对代码所作的修改都必须在相同的许可证下发布。同时,修改后的代码中必须包含原始代码的授权和版权信息。然而,它们并不强制要求整个项目必须使用相同的许可证进行发布。

Strong Copyleft 类别是相对更为严格的许可证,包括 GPL、AGPL、CPL 等,这种类型的许可证规定,整个项目必须在相同的许可证下发布,包括那些只使用了软件一部分的情况。此外,这些许可证还要求所有修改过的代码版本必须被公开发布。

在这些大类之下,具体的许可证和许可证族都会有独特的限制、权限,附加参数也会有具体差异,许可证整体的逻辑关系整理如下:

image035
图 3.7 许可证逻辑关系

开源社还提供了开源许可证选择器,为更快更好的了解最佳的许可证选择提供了很好的帮助,强烈推荐给有需求的同学:https://kaiyuanshe.cn/tool/license-filter

3.2.2 使用开源资源不遵守许可证会产生侵权风险

开源许可证侵权

“开源许可证侵权” 是指在使用开源软件时,未遵守与该软件相关联的开源许可证的条款和条件,从而违反了许可证规定的法律约束。这种行为可能导致一系列法律和道德上的问题。开源软件虽然是免费提供给公众使用和修改的,但这种使用和修改仍受到一定限制,这些限制由相应的开源许可证明确规定。

其具体情况包含但不限于以下几点:

版权声明和署名的忽略:许多开源许可证要求在复制、分发或修改软件时必须保留原有的版权声明和作者署名。忽视这一要求,如删除原作者的版权信息或未适当地署名,都被视为侵权行为。

源代码的不提供:某些许可证,如 GPL(通用公共许可证),要求在分发软件的同时提供源代码。如果一个基于此类许可证的软件被分发,但未同时提供源代码,这也构成侵权。

限制性的使用:一些许可证对软件的使用场景设有限制。例如,某些许可证可能禁止在特定类型的商业活动中使用软件。违反这些限制性条款也属于侵权行为。

分发和再授权的条件违反:如 GPL 等强制性开源许可证要求,任何基于 GPL 许可证软件的修改和衍生作品也必须以 GPL 许可证发布。违反这一规定,如私有化 GPL 代码或以非 GPL 许可证发布衍生作品,都会构成侵权。

特定条款的违反:除了上述常见情形,还有一些特定的许可证条款可能在特定情况下被违反。这取决于特定许可证的具体要求。

许可证互惠性要求导致开源版权问题范围扩大

所谓开源许可的 “互惠性要求” 即衍生作品是否要沿用原作品许可证是指,在软件开源的过程中,包括复制、修改、处理、再发布、展示等,开源许可的条款和条件往往会持续适用。这种许可证的权限和限制可以纵向地延伸到基于原始软件开发的衍生作品和修改版本,甚至横向影响到基于这些开源软件开发的其他软件部分。

在众多的开源许可证中,GPL 的互惠性要求最强,相关法律诉讼也最多。其主要原因是:任何基于 GPL 代码修改的衍生软件都需要开源。如果一个软件包含了 GPL 代码,即使只是一部分,这个软件整体通常也需要开源(除非符合特定的例外条款)。如果未将受 GPL 影响的专有软件部分开源,使用者可能会违反 GPL 许可证的义务,从而构成侵权。而且 GPL 的条款极为复杂,包含 17 个条款。它对用户的要求更为严格,一旦违反了这些要求,用户的授权协议即被终止,继续使用 GPL 授权的开源软件则可能构成侵权。

image036
图 3.8 GPL 许可证相关诉讼

开源许可证侵权可能会导致严重后果

开源许可证一旦侵权被定性,给被告企业、个人带来的损失远不止赔偿一方面,还包括声誉、合作伙伴关系等一系列问题:

法律诉讼和罚款:在 2017 年,Versata Software 起诉 Ameriprise Financial,称其违反了 Versata 的专利权。虽然这不是纯粹的开源许可证侵权案例,但它涉及到软件许可和版权问题。这起案件最终以和解告终,但涉及到的法律费用和时间成本非常高昂。

强制遵守许可证要求:一个著名的案例是 2015 年的 VMware 与 Hellwig 案件。Hellwig,一位 Linux 内核开发者,指控 VMware 在其 ESXi 产品中使用了基于 GPL 的 Linux 代码,但未遵循 GPL 许可证的开源要求。虽然最终法院没有做出对 Hellwig 有利的判决,但这起案件引发了关于 GPL 许可证义务和衍生作品的广泛讨论。

声誉损害:Red Hat 在 2004 年对 Speakeasy, Inc. 提起诉讼,指控其未遵守 GPL 许可证的要求。尽管案件和解,但 Speakeasy 的声誉受到了影响,特别是在开源社区中。

商业影响:Cisco 在 2008 年因为其 Linksys 产品违反 GPL 许可证而被 Free Software Foundation(FSF)起诉。Cisco 最终同意遵守 GPL 许可证的规定并支付未公开的金额作为捐赠。这起诉讼导致 Cisco 不得不重新考虑其产品的开源策略。

合作伙伴关系的破坏:一家公司被发现违反开源许可证,它的商业合作伙伴可能会重新评估与该公司的合作关系,特别是在合作项目涉及开源软件时。

3.2.3 开源大模型许可证很大程度上区别于传统许可证

由于开源大模型还在发展和迭代,本年度两个影响力极大的开源大模型:LLaMA2 和 Falcon,都因为开源许可证条款的调整而被人质疑是否是真正的 “开源”。二者均未使用市面上通用的许可证协议,而是分别自拟协议“LLAMA 2 COMMUNITY LICENSE AGREEMENT” 以及“TII Falcon LLM License”;同时二者都对其商业用途进行了额外约束。

LLaMA2 的开源许可证区别

关于 LLaMA2 违背开源准则的讨论,主要来自于其较为独特的条款:

  • Llama2 开源模型不得用于月活 MAU 大于 7 亿的产品或服务平台,除非获得 Meta 公司的批准和授权;
  • Llama2 开源模型不得以任何违反适用法律或法规(包括贸易合规法)的方式使用。同时不适用于除英语以外的语言中使用。
  • 其他大型语言模型(不包括 Llama2 或其衍生作品)

开源促进会 (Open Source Initiative) 曾发布有关开源的十条定义,是国际目前较为认同的定义,LLaMA2 协议与其中两条产生冲突

  • 不歧视个人或群体:Llama License 规定月活 7 亿以上的企业用户无法通过本 License 直接获取授权
  • 不歧视领域:许可证不得限制任何人在特定领域使用该程序。Llama License 禁止使用 LLaMA2 的输出结果去改善其他 AI 大模型,这就属于对使用领域的限制。同时 LLaMA2 对于语言的限制也导致了对中文使用领域的限制。

Falcon 的开源许可证区别

TII Falcon LLM License 在 Apache License 的基础上做出了一些关键性的修改。Apache License 是一种广受欢迎的开源许可证,它对商业用途具有友好性,允许用户在满足一定条件后,将其修改后的代码作为开源或商业产品发布或销售。

Falcon 的许可证与 Apache License 的共同之处在于,它同样提供了对许可作品进行使用、修改和分发的宽泛权限,同时要求在分发过程中包含许可证文本和进行适当归属,此外还包含责任限制和担保的免责声明。

然而,TII Falcon LLM License 引入了额外的商业使用条款,要求商业应用在年收入超过 100 万美元时支付 10% 的授权费用。此外,它对发布或分发作品的方式也设置了更多的限制,例如强调必须归属于 “Falcon LLM technology from the Technology Innovation Institute”。

开源大模型的开源目的与传统软件开源不同

以 LLaMA2 为例,其许可证本质上是一个指导框架,它主要面向那些打算在遵循 Meta 既定规范和标准的前提下,开发和部署 AI 系统的企业。此框架的目的是确保这些企业在开发和部署 AI 技术时,能够符合 Meta 设定的特定规则和标准。这样的做法有助于 Meta 管理其 AI 技术的应用范围和方式,进而维护其商业利益和品牌形象。

对于那些计划在 Meta 平台上进行 AI 开发的企业而言,LLaMa2 许可证可能构成了一项必须遵守的合规要求。这意味着这些企业在使用 Meta 提供的工具和资源来开发和部署 AI 模型时,必须遵循 Meta 的特定规范和要求。在此过程中,这些企业可能需要向 Meta 申请相应的授权,而 LLaMa2 许可证便是这种授权的一环。

3.2.4 保障许可证可控的方式

记录开源组件的使用情况

当企业或个人用户的软件达到一定规模后,对于内含的开源组件管理负担会变得较为沉重,从而引发由于不能及时管理而产生的侵权问题。根据 Synopsys,89% 的代码库包含至少已过期四年的开源代码,88% 的代码库包含在过去 2 年内未活动的组件,并且包含非最新版本的组件。很多情况下,开发者可能已经完全忘记了使用过哪些开源组件,在这些开源组件的许可证更新时无法及时做出反应,从而导致侵权问题的发生。因此,通过合理的方式对开源组件进行管理就成为非常必要的事情。

开发者可以在项目的文档中手动或自动维护一个详细的依赖清单,列出所有使用的开源组件及其版本信息。例如,在许多编程语言中,可以使用如 requirements.txt(Python)、package.json(Node.js)等文件来追踪依赖。

建立内部文档或知识库,记录关于使用的开源组件的所有相关信息,包括它们的来源、许可证信息以及使用方式,并且定时查看其许可证有无更新。在文档中详细追踪在何处使用了哪种开源组件,在代码对应位置添加注释以标明。在文档中添加对应许可证网站,定时查阅以及时发现许可证条款的变动。同时在编程中记录自己如何遵守了有效的许可条件。

对于较大体量的开发工作,手动记录的文本也许无法满足项目需求,此时可以使用相关工具,如代码成分分析(SCA)软件。这些工具可以自动识别和记录项目中使用的开源组件。它们通常能够提供详细的报告,包括组件的许可证信息、版本号以及可能的安全漏洞。

谨慎使用辅助编码工具

智能编程助手如 ChatGPT 和 GitHub Copilot 通过分析大量的代码库和文档,提供编程建议和代码片段。尽管这些工具在提高编程效率方面极具价值,但在使用它们生成的代码时,需要考虑以下几个关键点来避免潜在的开源许可证侵权问题:

  • 源代码的许可证问题:辅助编程软件可能会根据其训练集中的代码生成建议。这些训练集可能包含来自不同开源项目的代码,而这些项目可能有各种不同的许可证要求。通常辅助编程结果不会索引对应的许可证,如果生成的代码段过于接近原始代码,并且使用者直接复制,可能会涉及到版权问题。

  • 责任归属:使用由智能编程助手生成的代码时,需要明确,最终责任在于使用者。这意味着开发者应对生成的代码的合法性和适用性负责。因此,开发者定期进行代码审查,特别是对于使用辅助编程生成的部分,确保不违反任何开源许可证条款。

并购过程中进行充分的代码审计

在并购过程中进行充分的代码审计是至关重要的,特别是为了避免涉及开源许可证的侵权问题。并购活动通常涉及对目标公司的资产进行全面评估,其中技术资产,尤其是软件资产,占据了重要的位置。在并购审计中需要着重注意下列问题:

  • 识别开源组件:代码审计的一个重要任务是识别目标公司产品中使用的所有开源组件。这包括直接使用的开源库和框架,以及间接依赖的开源软件。了解这些组件及其版本对于评估相关的许可证要求至关重要。
  • 审查许可证合规性:确认开源组件之后,需要对其相应的许可证进行审查。这包括确定这些许可证的类型、限制和义务。特别需要注意的是,某些许可证可能对商业使用有特定限制或要求公开修改后的源代码。
  • 评估风险和责任:在审计过程中,应评估由于未遵守开源许可证可能带来的法律和财务风险。这包括潜在的侵权诉讼、罚款或需要重构依赖于特定开源组件的产品部分。
  • 整合后的合规策略:并购完成后,需要有一个明确的计划来整合目标公司的代码库,并确保继续遵守所有相关的开源许可证要求。这可能涉及到在整个组织内实施新的代码管理和合规性监控流程。
  • 专业法律咨询:由于开源许可证可能非常复杂,获取专业的法律意见是至关重要的。专业律师可以帮助正确解读许可证条款,并提供关于如何处理潜在的许可证冲突的建议。

3.3 开源 AI 安全

随着大模型的火热,在上文提到的大模型许可证问题外, 更多的 AI 安全可控问题也逐步进入人们的视野。由于技术较新,没有明确的定义和规范,因此本段基于案头研究列举了当下相关从业人员较为关心的话题,希望引发读者思考,欢迎探讨与反馈。

3.3.1 开源 AI 对数据安全提出新的要求

不同于传统数据安全,由于 AI 大模型的输出结果很大一部分取决于训练的数据集,因此数据集的质量、数据集是否包含恶意数据等问题对于 AI 大模型尤其是开源大模型尤为重要,因为开源大模型的数据集很多都是企业内部提供数据,清洗、监控、合规等无法做得像专业闭源大模型厂商那样专业。

训练数据集处理不恰当会引发一系列偏差

数据偏见发生在数据集中的某些元素被过分强调或未得到充分代表。当基于这种带有偏见的数据来训练人工智能或机器学习模型时,可能导致结果出现偏差、不公平和不准确性。

  • 选择性偏见:一些面部识别系统,主要基于白人图像训练,对不同种族的面部识别准确率相对较低;
  • 排除性偏见:这种偏见通常在数据预处理阶段出现,如果数据基于刻板印象或错误假设,那么无论采用哪种算法,结果都将产生偏差;
  • 观察者偏见:研究人员可能会有意无意地将个人观点带入研究项目中,从而影响研究结果;
  • 种族偏见:当数据集偏向某个特定群体时,就会产生种族偏见;
  • 测量偏见:当用于训练的数据与实际世界中的数据不一致,或者错误的测量方法导致数据失真时,就会产生这种偏差。

这些偏差一旦被恶意使用,可能会导致输出结果产生明显的政治、种族偏向,或者数据错误,从而极大影响大模型的性能和公信力。

选择开源底座大模型时应将训练数据源纳入考量范围

很多大模型训练数据源是直接从互联网上通过爬虫工具获得的,互联网上普遍存在着歧视性、仇恨和攻击性的言论和信息。在实际使用中,人们对负面信息的阅读、评论、点赞和传播远超过正面信息。因此,人类生成的信息源长期以来都处于一种较为混乱和不健康的状态。这种环境下,大型模型可能会因受到这些数据的影响,而助长种族歧视和虚假信息的传播。

一旦大模型底座的数据源遭到污染,即使企业本身微调使用的数据源很完美,也会导致最终输出的结果产生重大偏误。因此在选择底座大模型时,使用者不应只考虑大模型的性能,而应当将训练数据的来源也纳入考量。应当注重那些以负责任的方式从多元来源处选择标注数据集的大模型,同时将偏见最小化视为整个模型构建过程中甚至部署之后需要重点考虑的因素。

3.3.2 开源 AI 大模型的大量使用引发对于社会伦理的思考

大模型幻觉问题可能导致严重后果

目前的大模型存在一个尚未解决的问题——幻觉。根据哈工大赛尔实验室,幻觉指 “文本生成任务中,有时会生成不忠实或无意义的文本 "。虽然幻觉文本不忠实并且无意义,但是由于大模型强大的上下文生成能力,这些文本的可读性往往非常高,让读者以为它们是基于提供的上下文,尽管实际上很难找到或验证这种上下文真实存在。这种现象与难以与其他“真实”感知区分的心理幻觉类似,一眼看上去也很难捕捉到幻觉文本。

幻觉的种类有很多,并且随着大模型使用范围的扩大还在不断涌现。常见的幻觉主要有以下几种:

  • 逻辑错误:大模型在推理过程中出现了逻辑上的错误,从而导致输出的内容看似合理,但经不起推敲;
  • 捏造事实:大模型的数据库本身不支持其回答这个问题,但是由于大模型无法对自身的边界进行定义,因此会自信地断言一些根本不存在的事实;
  • 数据驱动偏见:正如上一部分所讲,由于某些数据的普遍存在,模型的输出可能会偏向某些方向,导致错误的结果。

大模型幻觉导致的错误输出,可能会使某些对其深信不疑的使用者受到伤害。在 2023 年 5 月 16 日,世界卫生组织发布了对使用大型人工智能语言模型工具的谨慎声明。他们指出,尽管这些工具在获取健康信息方面提供了便利,特别是在资源匮乏的地区可能增强诊断的效率,但使用它们时需要严格评估潜在风险。世界卫生组织进一步强调,如果匆忙使用未经充分测试的系统,可能导致医疗专业人员犯错误,给患者带来伤害,并减少人们对人工智能技术的信任,这可能会损害或推迟这类技术在全球范围内的潜在长期好处和应用。

image037
图 3.9 哈尔滨工业大学对于幻觉的分类

由于目前对于大模型尚未有明确的责任主体,对于开源大模型更是如此,因此一旦产生严重后果,受到损失的使用者将很难维权,其损失也很难被缓解。目前关于这方面有 2 个急需解决的问题:

  • 如何能更好地解决大模型的幻觉问题——技术层面
  • 如何更清晰地界定大模型的责任主体——法律层面

大模型的输出可能会输出违反道德法律的内容

目前部分大模型缺乏内容过滤机制,导致输出的内容存在违反当地法律法规、公序良俗的情况,主要包含以下几种情况:

版权问题:大型语言模型可能会生成包含或类似于受版权保护材料的内容。例如,模型可能会创建与已存在的文学作品、歌词、电影剧本等相似的文本。这样的生成物可能侵犯原始作者或版权持有者的权利,从而导致法律纠纷;

地域法规:不同国家和地区有其独特的法律体系。例如,某些国家对于互联网内容的审查更为严格,如对政治敏感内容、宗教信息或性别议题的特定表达有明确禁令。大模型在这些区域运行时,生成的内容必须遵守当地法律。例如,当有人向大型语言模型询问 “野生娃娃鱼的烹饪方法” 时,模型回答了“红烧”,甚至提供了详细步骤。这种回答可能会误导提问者。事实上,野生娃娃鱼是国家二级保护动物,不应被捕捉、杀害或食用。

诽谤和错误信息:如果模型生成的内容包含对个人或组织的错误指控或诽谤性言论,可能会导致法律诉讼。这对于确保内容的准确性和合法性提出了高要求。

为了确保符合各种法律要求,使用大型语言模型的组织可能需要建立监管机制,比如对生成的内容进行审核,确保其不违反任何法律规定。尤其是企业使用的开源模型,它们相对而言对于内容输出的审查更为宽松,企业需要额外注重相关问题,防止陷入法律纠纷而带来损失。在此同样可以归纳为 2 个问题:

  • 如何加强大模型的信息过滤机制——技术层面
  • 如何界定大模型输出内容是否侵权、违法——法律层面

大模型可能会加剧社会割裂

北京计算机学会数字经济专委会秘书长曾表示:对于那些缺乏批判性思考和分析能力、对付费知识和医疗服务了解不足的人群来说,大型语言模型(LLM)潜在的安全问题尤其引人关注。随着互联网用户数量的剧增和移动设备如手机的广泛使用,低教育和低收入人群越来越多地依赖这些途径来获取医疗、教育和日常生活咨询。然而,大型生成式语言模型可能会加剧对这些边缘化群体的歧视性描述和社会偏见,深化社会分裂,增加误导性、恶意信息的危害,并提高个人真实信息被泄露和滥用的风险。

大模型的使用就像一把双刃剑,一面可以重新整合网络资源,提高信息的收集效率;一面由于幻觉等问题可能会加剧信息壁垒,导致很多信息来源匮乏的人群受到误导。在这一点上有 2 个需要解决的问题:

  • 加强公众的教育,大模型并非万能,需审慎看待——社会宣传层面
  • 如何保证大模型训练数据集的质量,降低其偏见性——技术层面

四. 开源项目资本市场情况

4.1 全球市场状况

4.1.1 2023 全球 VC 投资规模减小,但 AIGC 是万众焦点

2023 年以来,由于不断增长的利率、严峻的经济形势、地缘冲突、对国际金融体系稳定性的担忧,全球金融市场波动加剧,这也导致全球 VC 资本市场情况不容乐观。据毕马威统计,截至 2023 年 Q3,全球风险投资活动已经连续下降了七个季度(见图 4.1)。

image038
图 4.1 全球风险投资活动(数据源:KPMG)

在股票市场下跌的背景下,处于保持投资组合比例的需求,基金经理们普遍降低对于私募股权资产的配置;同时由于风险资本本身较大的波动性以及未来全球经济形势的不明朗,2023 年风险资本的募资规模较往年降幅较大。相较于过去五年间(2018-2022)年均 2500 亿美元以上的规模,截至 2023Q3 风险资本承诺投资金额仅有 1106 亿美元(根据毕马威)。叠加连续下降七个季度的风险投资活动的趋势,2023Q4 及全年募资规模将大幅缩水。

image039
图 4.2 全球风险资本募资规模(数据源:KPMG)

在估值层面,投资者的谨慎情绪也逐渐增强。相比于 2021、2022 年,溢价融资比例减少约 10%,平价、折价融资的比例均上涨 5% 左右,这对于早期资本的退出造成了障碍。

image040
图 4.3 全球风险投资溢价、平价、跌价投资比例(数据源:KPMG)

然而,在大环境整体不乐观的背景下,AIGC 相关融资却成为全球焦点,相关融资规模大幅增长。在北美,2023 年的独角兽企业中 AI 相关公司最多,包括 AI Agent 初创公司 Imbue、AI + 生物技术公司 TrueBinding、生成式 AI 公司 Runway 以及自然语言处理公司 Cohere;在欧洲,尽管整体融资放缓,但是 AI 公司表现则格外突出,大量初创公司获得资金,例如法国 AI 平台公司 Poolside;亚洲投资人对于 AI 的兴趣也不断攀升,但相关国家监管机构对生成式 AI 的监管力度也在不断加大。

预计伴随着 AI 技术的快速迭代,大模型、AI Agent 等概念的不断火热,AI 领域相关投融资会较小受到全球风投规模收缩的影响。

4.1.2 全球开源融资情况

近年来,商业开源公司的发展速度令人瞩目,这些公司的总市值从 100 亿美元迅速增长,突破了 5,000 亿美元的大关。这一显著增长不仅展示了开源技术在商业领域的巨大潜力,也反映了投资者对于开源模式的高度认可和信任。根据 OSS Capital 的预测,商业开源公司的市值有望在未来达到惊人的 3 万亿美元。

在过去四年里,开源商业领域的发展表现出了稳健的增长。这一时期内,超过 400 家初创公司进行了大约 700 轮次的融资,总额达到了 290 亿美元。具体来看,年度融资规模从 2020 年的 2.7 亿美元增加到了 2023 年的 125 亿美元,年复合增长率为 255%。

尽管 2022 年融资规模呈现下降趋势,但这种趋势在 2023 年得到了缓解。从 2023 年 2 月开始,融资规模开始逐步回升。2023 年的前 11 个月,融资总额已经超过了 2022 年全年的数额。不过,受到地缘政治冲突和疫情后经济复苏的影响,全年融资规模的波动性有所增加。在 3 月、5 月和 9 月,融资额达到了峰值,约为 20 亿美元左右,而在 6 月和 8 月则低于平均水平。

即使在 2023 年融资规模最低的月份,月融资额 3.86 亿美元也超过了 2021 年最高月融资额,甚至超过了 2020 年全年的融资总额(2.72 亿美元)。这一趋势反映出资本市场对开源商业的持续关注和认可。这一明显的融资增长趋势表明,资本市场对开源商业的兴趣和信心不断增强。投资者们看重的不仅是开源模型的创新潜力和技术优势,还有其在市场上的可持续性和长期增长潜力。

image041
图 4.4 全球 VC 基金投资到商业化开源软件公司的资金量(数据源:OSS Capital)

从各轮次融资规模角度分析,资本更加青睐 B、C、D 等中期融资。这反映出商业开源公司的特征:早期技术细节尚不明确、商业模式不清晰;但当逐步跨越初创阶段后,商业开源公司将爆发出较为强劲的增长动力,吸引更多资本的进入;在后期商业模式逐渐成熟,开源产品打响知名度,产生稳定的现金流,对于融资的需求便有所降低。

image042
图 4.5 商业化开源软件公司融资轮次分布(百万美元)(数据源:OSS Capital)

在过去的 4 年中,共有 328 家商业开源公司获得了超过 1,000 万美元的融资。其中主要集中于 1,000-5,000 万美元间,在 1,000-2,000 万美元、2,000-5,000 万美元的融资共 210 轮次,占全部轮次的 64%。5,000 万 - 1 亿美元、1 亿 - 2 亿美元的轮次分别有 49、46 次,占全部轮次的 29%。共有 23 家公司获得 2 亿美元以上的融资,其中有 2 家甚至获得了超过 5 亿美元的单笔融资。

image043
图 4.6 商业化开源软件公司累计融资规模分布(数据源:OSS Capital)

4.2 中国市场状况

4.2.1 中国股权资本市场发展情况概括

新成立基金数量及规模有所下降,但整体趋势逐渐向好

在 2023 年上半年,(PE/VC)市场共成立了 3,930 支新基金,相较于去年同期的 4,456 支新成立基金,减少了 12%。在这一时期,新成立基金的总规模达到了 3,642 亿美元,与去年同比减少了 3%。尽管相比于去年规模和数量有所下降,但二季度的表现比一季度好,整体呈现好转的趋势:具体来看,第一季度新成立基金规模为 1,614 亿美元,同比下降近 20%;而第二季度则录得 2,028 亿美元,同比增长 16%。

image044
图 4.7 国内私募股权基金认缴规模与数量(数据源:投中网、KPMG)

人民币基金规模增加,外币基金规模显著减小

在 2023 年上半年,新成立的人民币基金数量为 3,840 支,与去年同期相比下降 13%。人民币基金的总规模达到了 3,395 亿美元,相较于去年同期实现了 13% 的增长。外币基金的规模为 247 亿美元,同比大幅下降 67%。尽管 2023 年外币基金的数量有所增加,但由于多数为小额基金,其对总规模的影响较小。

这一趋势表明,国内股权投资市场更倾向于人民币基金的投资风格:更加保守,且对被投企业的稳定性要求较高。对于国内的开源商业初创公司来说,仅仅追随市场热点已不足以吸引投资。技术实力和长期增长潜力成为评估是否进行进一步投资的关键因素。

image045
图 4.8 国内私募股权人民币基金规模及数量(数据源:KPMG)
image046
图 4.9 国内私募股权外币基金规模及数量(数据源:KPMG)

经济复苏不及预期,整体投资数量与规模下降

经济复苏根基不稳、整体需求放缓、外部市场不稳定等宏观背景下,2023 年 H1 股权市场总投资 3,750 笔,同比下降 31%;总投资金额供给 569 亿美元,较去年同期下降 6%,相比于融资侧新成立基金规模下降 3%,在投资侧显示出更强的收缩,进一步说明了投资人的谨慎情绪,这与国际市场所表现出的趋势一致。

image047
图 4.10 国内股权市场投资金额及数量(数据源:KPMG)

4.2.2 国内开源生态稳步发展

开源产业各方面生态逐渐完善,稳步发展

目前国内的开源产业正在经历顶层设计与产业进步并举,人才储备与技术创新并重的发展格局,从法律法规、政策支持、竞赛选拔、产业链各环节各方面共同进步。

在法律法规方面,2023 年 11 月 2 日上海对外经贸大学人工智能与变革管理研究院副院长、上海开源信息技术协会秘书长张国锋,在 2023 开源产业生态大会媒体沟通会上表示,上海开源产业的规划和政策在起草和推动中,上海一定要抓住历史性机遇,积极参与数字治理、数字公共产品国际合作(消息来自澎湃新闻);在政策支持角度,在 2023 全球开源技术峰会(GOTC)上,上海市开源产业服务平台正式宣布启动:上海浦东软件园与 Linux 基金会亚太区签约,正式落地 Linux 基金会亚太区开源社区服务中心,并与开源中国签订战略合作协议,共建上海开源生态(消息来自文汇报)。在竞赛选拔方面,我国已经有 “中国软件开源创新大赛”、“OpenHarmony 竞赛训练营” 等一系列开源竞赛,吸引了上海交通大学、复旦大学等国内诸多高校的学生参赛,在竞赛中涌现出大量创新亮点,充分体现了开源生态蓬勃共建的良好势头和巨大潜力。

开源产业链各环节都繁荣发展。在人工智能领域,众多公司开源了基座大模型,其中包括阿里巴巴开源了通义千文,幻方量化开源了 DeepSeek 等等。创业公司中百川智能、智谱 AI、零一万物等都分别发布了多款自己训练的基座大模型,值得一提的是,这些公司都被资本市场看好,分别在今年进行了一次或多次高额融资。在开发者工具层,不少已经深耕的创业项目外,也有新的玩家进入,并且已经有产品在做全球化尝试。可预见未来,在应用层,开源 AI 的应用也有机会迎来更多机会。

在底层操作系统领域,大型公司正推动操作系统的国产化进程,其中包括由阿里巴巴开发的 Anolis OS 龙操作系统开源社区和开放原子开源基金会支持的 openEuler 社区等。在云原生、大数据、人工智能、前端技术等多个关键领域,这些大型企业也有显著的开源项目布局。例如,蚂蚁集团的企业级 UI 设计工具 ant-design,百度的深度学习平台 PaddlePaddle,以及数据可视化图表库 Apache Echarts 等,其在 GitHub 社区都拥有广泛的影响力和庞大的用户基础。

在大数据和数据库行业中,针对国内外市场产生的庞大且多样化的数据,以及不断增长的数据处理需求,众多初创企业正在积极进行战略布局。例如,PingCAP 推出了分布式关系型数据库 TiDB 和分布式键值数据库 TiKV;涛思数据开发了时序数据库 TDengine;SphereEx 则推出了分布式数据库中间件 ShardingSphere 等。随着人工智能技术的发展,AI 领域也涌现出了创新性的产品,比如 Zilliz 面向 AI 应用开发的向量数据库,以及 Jina.ai 的神经搜索引擎,能够实现全类型内容的搜索。

image048
图 4.11 国内 AI 相关科技企业开源项目及开源企业图谱(部分)

魔搭已成国内大模型开源第一门户,标志着中国开源 AI 社区建设逐步成长

魔搭社区是阿里达摩院联手中国计算机学会(CCF)开源发展委员会推出的 AI 模型社区, 旨在打造下一代开源的模型即服务共享平台,致力降低 AI 应用门槛。自推出以来,规模迅速扩大:目前社区已有超过 2,300 个模型,开发者超过 280 万,模型下载次数超过 1 亿次。百川智能、智谱 AI、上海人工智能实验室、IDEA 研究院等头部大模型机构都将魔搭作为其开源模型首发平台。

魔搭社区秉持 “模型即服务” 理念,把 AI 模型当作生产的重要元素,从模型预训练到二次调优,最后到模型部署,围绕模型的生命周期来提供相应的服务。相比于国外社区 Hugging Face,魔搭更关注本土需求,提供大量中文模型,更能推动国内相关 AI 场景的落地应用。

image049
图 4.12 截至目前,魔搭社区已经拥有包含 LLM、零样本学习等 11 个模型大类

魔搭社区的成立与快速发展为中国开源社区文化树立了标杆,有利于进一步推动开源文化在国内的传播,吸引更多有创造力、有开源精神的技术创造者、技术使用者的加入,促进中国开源事业的进一步繁荣。

4.2.3 国内开源公司融资保持热度

2023 年市场热度保持,多起大额投资进行,部分初创公司一年内多次融资,反映出投资人的兴趣高涨。开源中国为一家开源社区平台公司,收录全球知名开源项目近 10 万款,旗下有开源社区 Landscape 以及日本老牌开源社区 OSDN,同时拥有代码托管平台 Gitee,为目前国内规模领先的代码托管服务平台,获得了 7.75 亿元的 B + 轮战略融资;飞轮科技研发和推广开源实时数据仓库 Apache Doris,为 Apache Doris 用户提供技术支持商业服务,获得新一轮数亿元融资,截至目前总融资规模已近 10 亿元;澜舟科技以 NLP 技术为基础,提供新一代认知智能平台,完成 Pre-A + 轮投资,在不到一年时间内,总融资规模达到数亿元。

目前中国开源生态发展仍处于较早期阶段,2023 年融资事件主要集中在 B 轮及以前,涉及人工智能、开源社区、数据仓库与大模型平台等领域,市场机会广阔。

表 4.1 国内开源软件初创公司投融资情况(右滑查看完整内容) (Github 数据统计截至 2023 年 12 月 7 日)
公司 开源项目 公司业务 最新一轮融资轮次 最新一轮融资金额 最新一轮融资时间 GitHub Star GitHub Fork
支流科技 Apache APISIX 微服务 API 网关 A + 轮 数百万美元 2021 年 6 月 10.8k 2k
白鲸开源 Apache DolphinScheduler 云原生 DataOps 平台 Pre-A 轮 数千万元 2022 年 7 月 9.4k 3.5k
飞轮科技 Apache Doris 云原生实时数仓 Pre-A 轮 数亿元 2023 年 6 月 6.5k 1.9k
偶数科技 Apache HAWQ Hadoop SQL 分析引擎 B + 轮 近 2 亿元 2021 年 8 月 672 324
天谋科技 Apache IoTDB 时序数据库系统 天使轮 近亿元 2022 年 6 月 2.8k 750
跬智信息技术 Apache Kylin 大数据联机分析处理引擎 D 轮 7000 万美元 2021 年 4 月 3.4k 1.5k
StreamNative Apache Pulsar 分布式消息队列 A + 轮 - 2023 年 12k 3.2k
SphereEx Apache ShardingSphere 分布式数据库可插拔生态 Pre-A 轮 近千万美元 2022 年 1 月 17.7k 6.1k
安托盟丘(AutoMQ) automq-for-rocketmq automq-for-kafka 流存储软件和消息队列 天使轮 + 数千万人民币 2023 年 11 月 195 34
智谱 AI ChatGLM 大预言模型 B++++ 12 亿人民币 2023 年 9 月 36.3k 4.9k
潞晨科技 Colossal-AI 高性能企业级 AI 解决方案 天使轮 600 万美元 2022 年 9 月 6.8k 637
Chatopera cskefu 多渠道智能客服系统 天使轮 数百万元 2018 年 8 月 2.2k 742
数变科技 Databend 云数仓 天使轮 数百万美元 2021 年 8 月 4.8k 500
Dify.AI Dify LLMOps 平台 出资设立 未披露 44986 11.8k 1596
映云科技 EMQX MQTT 消息中间件 B 轮 1.5 亿元 2020 年 12 月 10.8k 1.9k
TensorChord Envd MLOps 种子轮 数百万美元 2022 年 11 月 1.3k 102
燧炻科技 FydeOS 基于 Chromium 的操作系统 Pre-A 轮 数千万元 2022 年 2 月 1.5k 192
泛化智能 GAAS 无人机自主飞行方案 - 未披露 2018 年 10 月 1.7k 411
GeekCode Geekcode.cloud 云开发环境 种子轮 数百万人民币 2022 年 4 月 42 2
Gitee git Git 代码托管 B + 轮 7.75 亿 2023 年 7 月 - -
极狐 GitLab DevOps 工具平台 A++ 轮 数千万元 2022 年 9 月 - -
白海科技 IDP AI 数据开发平台 种子轮 数千万元 2021 年 12 月 17 3
艾拉云科 illa-builder 低代码开发平台 天使轮 数百万美元 2022 年 9 月 2.3k 126
极纳科技 Jina 多模态神经网络搜索框架 A 轮 3000 万美元 2021 年 11 月 16.8k 2k
Juicedata JuiceFS 分布式文件系统 天使轮 数百万元 2018 年 10 月 7.1k 605
谐云科技 Kingdling 容器云产品及解决方案 B + 轮 超亿元 2022 年 1 月 270 56
飞致云 JumpServer 云计算及 DevOps D + 轮 1 亿元 2022 年 4 月 19.5k 4.8k
才云科技 Kubernetes 容器云平台 并购 - 字节 未披露 2020 年 7 月 94.1k 34.5k
泽拓科技 Kunlun 分布式数据库 天使轮 数千万元 2021 年 8 月 112 15
深之度科技 LinuxDeepin Linux 操作系统 B 轮 数千万元 2015 年 4 月 413 70
矩阵起源 Matrixone 数据智能 天使 + 轮 数千万美元 2021 年 10 月 1.3k 212
澜舟科技 Mengzi 大语言模型 Pre-A+ 轮 数亿元人民币 2023 年 3 月 530 61
Zilliz milvus 向量搜索引擎 B + 轮 6000 万美元 2022 年 8 月 14.4k 1.9k
欧若数网 Nebula 分布式图数据库 Pre-A + 轮 近千万美元 2020 年 11 月 8.3k 926
悦数科技 NebulaGraph 分布式图数据库 A 轮 数千万美元 2022 年 9 月 9.7k 1.1k
一流科技 oneflow 深度学习框架 并购 - 美团 - 2023 年 4.1k 478
面壁智能 OpenBMB 大模型应用 种子轮 未披露 2021 年 8 月 359 49
易捷行云 OpenStack IaaS E 轮 未披露 2021 年 7 月 4.6k 1.6k
原语科技 PrimiHub 隐私计算 天使轮 + 千万级 2022 年 10 月 263 60
好雨科技 Rainbond 企业应用云操作系统 Pre-A 轮 数百万元 2016 年 8 月 3.6k 664
快用云科 QuickTable 无代码数据建模工具 - 未披露 2021 年 8 月 7 3
睿赛德科技 RT-Thread 物联网操作系统 - 未披露 2020 年 1 月 7.6k 4.2k
巨杉数据库 SequoiaDB 分布式关系型数据库 D 轮 数亿元 2020 年 10 月 305 115
边无际科技 Shifu 物联网软件开发框架 A 轮 未披露 2022 年 6 月 205 21
鼎石纵横 StarRocks MPP 分析型数据库 B 轮 未披露 2022 年 1 月 3.6k 793
石原子科技 StoneDB 实时 HTAP 数据库 天使轮 数千万元 2022 年 2 月 639 100
TabbyML TabbyML 开源 AI 编程助手 种子轮 未披露 45108 13.9k 515
太极图形 Taichi 数字内容创作基础设施 A 轮 5000 万美元 2022 年 2 月 21.7k 2.1k
钛铂数据 Tapdata 实时数据服务平台 Pre-A + 轮 数千万美元 2021 年 7 月 223 52
涛思数据 TDengine 时序空间大数据引擎 B 轮 4700 万美元 2021 年 5 月 20.1k 4.6k
PingCAP TiDB 分布式数据库 E 轮 未披露 2021 年 7 月 32.9k 5.3k
数字天堂 uni-app Vue 语法的统一前端框架 B + 轮 未披露 2018 年 9 月 37.4k 3.4k
灵奥科技 Vanus 大模型中间件 种子轮 数百万美元 45108 2.2k 110
未来速度 Xorbits 分布式数据科学计算框架 天使轮 数百万美元 44958 933 58
乐维软件 Zabbix IT 运维管理 A 轮 未披露 2022 年 11 月 2.6k 766
KodeRover Zadig 云原生软件交付云 Pre-A 轮 数千万元 2021 年 8 月 1.8k 636
易软天创 zentaopms Agile 项目管理 A 轮 数千万元 2021 年 10 月 946 275
云轴信息 ZStack IaaS - 未披露 2021 年 3 月 1.2k 380

表 4.2 国内开源大模型初创公司投融资情况(右滑查看完整内容) (Hugging Face 数据统计截至 2023 年 12 月 7 日)
公司名 最近融资轮次 最近融资时间 最近融资量 模型介绍 模型名 likes download
百川智能 A 轮 2023-10-17 00:00:00 3 亿美元 在知识问答、文本创作领域表现突出 Baichuan-7B 795 102k
Baichuan-13B-Chat 612 8.29k
Baichuan2-13B-Chat 321 133k
智谱 AI B+++++ 轮 2023-09-19 00:00:00 12 亿人民币 多模态理解、工具调用、代码解释、逻辑推理 ChatGLM-6B 2.67k 56.8k
ChatGLM2-6B 1.91k 97.7k
ChatGLM3-6B 501 104k
元语智能 出资设立 2022-11-24 00:00:00 功能型对话大模型 ChatYuan-large-v2 171 669
ChatYuan-large-v1 108 120
ChatYuan-7B 9 3
面壁智能 天使轮 2023-04-14 00:00:00 数千万人民币 大语言模型,包括包括文字填空、文本生成、问答 cpm-bee-10b 158 19
cpm-ant-10b 22 12.6k
cpm-bee-1b 12 7
澜舟科技 Pre-A + 轮 2023-03-14 00:00:00 数亿人民币 处理多语言、多模态数据,文本理解、文本生成 mengzi-t5-base 41 1.42k
mengzi-bert-base 32 1.46k
mengzi-t5-base-mt 17 44
虎博科技 A 轮 2019-03-01 00:00:00 3300 万美元 多语言任务大模型,覆盖生成、开放问答、编程、画图、翻译、头脑风暴等 15 大类能力 tigerbot-70b-chat-v2 40 1.68k
tigerbot-180b-research 33 12
tigerbot-70b-base-v1 15 3.25k
深势科技 C 轮 2023-08-18 00:00:00 超 7 亿人民币 高精度蛋白质结构预测模型 Uni-Fold-Data 6
三维分子预训练模型 Uni-Mol-Data 3
元象 XVERSE A + 轮 2022-03-11 00:00:00 1.2 亿美元 大语言模型,具备认知、规划、推理和记忆能力 XVERSE-13B 117 42
XVERSE-13B-Chat 42 412
XVERSE-65B 35 6.18k
零一万物 天使轮 2023-11-06 00:00:00 通用型 LLM,其次是图像、语音、视频等多模态能力。 Yi-34B 1.07k 109k
Yi-6B 303 26.7k
Yi-34B-200K 107 4.55k