Phi-2: 小型语言模型正在做大事

原文：www.kdnuggets.com/phi-2-small-lms-that-are-doing-big-things

作者提供的图片

在我们深入了解 Phi-2 的惊人之处之前。如果你还没有了解 phi-1.5，我建议你快速浏览一下微软几个月前的有效的小型语言模型：微软的 13 亿参数 phi-1.5。

我们的前三个课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT

现在你已经了解了基础，我们可以继续学习更多关于 Phi-2 的内容。微软一直在努力发布一系列名为“Phi”的小型语言模型（SLMs）。这系列模型已被证明能够取得显著的性能，就像大型语言模型一样。

微软的第一个模型是Phi-1，具有 13 亿参数，然后是Phi-1.5。

我们已经看到了 Phi-1、Phi-1.5，现在我们有了Phi-2。

什么是 Phi-2？

Phi-2 变得更大、更好。更大，更好。它是一个 27 亿参数的语言模型，已被证明在推理和语言理解能力上表现出色。

对于如此小的语言模型，这真是惊人，不是吗？

Phi-2 已被证明在性能上超越了大 25 倍的模型。这都归功于模型的扩展和训练数据的策划。小巧、紧凑且性能卓越。由于其规模，Phi-2 适用于研究人员探索解释能力、微调实验以及深入安全改进。它可以在 Azure AI Studio 模型目录中获得。

Phi-2 的创建

微软的训练数据是合成数据集的混合，这些数据集用于教授模型常识，例如一般知识、科学、心智理论和日常活动。

训练数据经过精心挑选，以确保其经过优质内容的筛选，并具有教育价值。凭借这种可扩展性，他们将 1.3 亿参数的 Phi-1.5 模型提升到了 2.7 亿参数的 Phi-2。

图片来源：微软 Phi-2

微软对 Phi-2 进行了测试，因为他们意识到当前模型评估的挑战。他们在测试用例中将 Phi-2 与 Mistral 和 Llama-2 进行了比较。结果显示，Phi-2 在某些情况下超越了 Mistral-7B，而 70 亿参数的 Llama-2 模型在某些情况下超越了 Phi-2，如下所示：

图片来源：微软 Phi-2

Phi-2 的局限性

不过，尽管如此，Phi-2 仍然有其局限性。例如：

不准确性：该模型在生成错误代码和事实方面存在一些局限，用户应对此保持谨慎，将这些输出视为起点。
限制的代码知识：Phi-2 的训练数据基于 Python 及常见包，因此生成其他语言和脚本的结果需要进行验证。
指令：该模型尚未经过指令微调，因此可能难以真正理解用户提供的指令。

Phi-2 还有其他局限性，例如语言限制、社会偏见、毒性和冗长。

尽管如此，每个新产品或服务都有其局限性，而 Phi-2 仅发布了一周左右。因此，微软需要将 Phi-2 推广到公众手中，以帮助改进服务并克服当前的局限性。

总结

微软以一个小型语言模型结束了这一年，这个模型可能会成为 2024 年最受关注的模型。既然如此，我们应该对 2024 年的语言模型世界有什么期待呢？

Nisha Arya 是一位数据科学家、自由职业技术作家，以及 KDnuggets 的编辑和社区经理。她特别关注提供数据科学职业建议或教程，以及围绕数据科学的理论知识。Nisha 涵盖了广泛的话题，并希望探索人工智能如何有利于人类生命的长寿。作为一个热衷学习者，Nisha 寻求扩展她的技术知识和写作技能，同时帮助指导他人。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

phi-2-small-lms-that-are-doing-big-things.md

phi-2-small-lms-that-are-doing-big-things.md

Phi-2: 小型语言模型正在做大事

我们的前三个课程推荐

什么是 Phi-2？

Phi-2 的创建

Phi-2 的局限性

总结

更多相关内容

Files

phi-2-small-lms-that-are-doing-big-things.md

Latest commit

History

phi-2-small-lms-that-are-doing-big-things.md

File metadata and controls

Phi-2: 小型语言模型正在做大事

我们的前三个课程推荐

什么是 Phi-2？

Phi-2 的创建

Phi-2 的局限性

总结

更多相关内容