Skip to content

Latest commit

 

History

History
85 lines (43 loc) · 5.53 KB

phi-2-small-lms-that-are-doing-big-things.md

File metadata and controls

85 lines (43 loc) · 5.53 KB

Phi-2: 小型语言模型正在做大事

原文:www.kdnuggets.com/phi-2-small-lms-that-are-doing-big-things

Phi-2: 小型语言模型正在做大事

作者提供的图片

在我们深入了解 Phi-2 的惊人之处之前。如果你还没有了解 phi-1.5,我建议你快速浏览一下微软几个月前的有效的小型语言模型:微软的 13 亿参数 phi-1.5。


我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT


现在你已经了解了基础,我们可以继续学习更多关于 Phi-2 的内容。微软一直在努力发布一系列名为“Phi”的小型语言模型(SLMs)。这系列模型已被证明能够取得显著的性能,就像大型语言模型一样。

微软的第一个模型是Phi-1,具有 13 亿参数,然后是Phi-1.5

我们已经看到了 Phi-1、Phi-1.5,现在我们有了Phi-2

什么是 Phi-2?

Phi-2 变得更大、更好。更大,更好。它是一个 27 亿参数的语言模型,已被证明在推理和语言理解能力上表现出色。

对于如此小的语言模型,这真是惊人,不是吗?

Phi-2 已被证明在性能上超越了大 25 倍的模型。这都归功于模型的扩展和训练数据的策划。小巧、紧凑且性能卓越。由于其规模,Phi-2 适用于研究人员探索解释能力、微调实验以及深入安全改进。它可以在 Azure AI Studio 模型目录中获得。

Phi-2 的创建

微软的训练数据是合成数据集的混合,这些数据集用于教授模型常识,例如一般知识、科学、心智理论和日常活动。

训练数据经过精心挑选,以确保其经过优质内容的筛选,并具有教育价值。凭借这种可扩展性,他们将 1.3 亿参数的 Phi-1.5 模型提升到了 2.7 亿参数的 Phi-2。

Phi-2: 小型语言模型正在做大事

图片来源:微软 Phi-2

微软对 Phi-2 进行了测试,因为他们意识到当前模型评估的挑战。他们在测试用例中将 Phi-2 与 Mistral 和 Llama-2 进行了比较。结果显示,Phi-2 在某些情况下超越了 Mistral-7B,而 70 亿参数的 Llama-2 模型在某些情况下超越了 Phi-2,如下所示:

Phi-2: 小型语言模型的巨大潜力

图片来源:微软 Phi-2

Phi-2 的局限性

不过,尽管如此,Phi-2 仍然有其局限性。例如:

  • 不准确性:该模型在生成错误代码和事实方面存在一些局限,用户应对此保持谨慎,将这些输出视为起点。

  • 限制的代码知识:Phi-2 的训练数据基于 Python 及常见包,因此生成其他语言和脚本的结果需要进行验证。

  • 指令:该模型尚未经过指令微调,因此可能难以真正理解用户提供的指令。

Phi-2 还有其他局限性,例如语言限制、社会偏见、毒性和冗长。

尽管如此,每个新产品或服务都有其局限性,而 Phi-2 仅发布了一周左右。因此,微软需要将 Phi-2 推广到公众手中,以帮助改进服务并克服当前的局限性。

总结

微软以一个小型语言模型结束了这一年,这个模型可能会成为 2024 年最受关注的模型。既然如此,我们应该对 2024 年的语言模型世界有什么期待呢?

Nisha Arya 是一位数据科学家、自由职业技术作家,以及 KDnuggets 的编辑和社区经理。她特别关注提供数据科学职业建议或教程,以及围绕数据科学的理论知识。Nisha 涵盖了广泛的话题,并希望探索人工智能如何有利于人类生命的长寿。作为一个热衷学习者,Nisha 寻求扩展她的技术知识和写作技能,同时帮助指导他人。

更多相关内容