作者提供的图片
TF-IDF。你可能在博客中见过这个词,或者你正在学习机器学习中的相关内容。本文概述了 TF-IDF 是什么。
1. Google Cybersecurity Certificate - 快速进入网络安全职业。
2. Google Data Analytics Professional Certificate - 提升你的数据分析技能
3. Google IT Support Professional Certificate - 支持你在 IT 领域的组织
TF-IDF 代表词频-逆文档频率。
TF-IDF 通常用于机器学习和信息检索领域。
TF-IDF 是一种数值统计,衡量在语料库(文档)中诸如单词、短语等字符串表示的重要性。
让我们拆解这个缩写,深入理解它。
在语言艺术或机器学习中的自然语言处理领域,语料库是一个组织成数据集的文本或音频集合。
Sarah Mae 通过 Unsplash
以这首诗的纸质图片为例。此诗的语料库以代码格式呈现如下:
corpus = [
"Little feet.",
"A tempered foot,",
"found new ground.",
"A future unravled,",
"in the gypsy's palm.",
"A blade of grass",
"reflected in a crystal ball,",
"somehow fit the mold.",
"This daughter was leaving home.",
"A dark hair twitched, upon the mole.",
"From maiden to mother to crone",
"the moon takes us,",
"each month",
"a new spell.",
"an untold dimension.",
"Flattery fell in the folding of wings,",
"an angel over a city,",
"an orb, over the sea.",
"somehow, Seattle spoke to me."
]
这是定义 TF-IDF 的数学公式:
-
t 代表术语
-
d 代表文档
-
D 代表文档集
TF 是词频。它精确地衡量特定术语的频率。特定术语在语料库中的出现次数可以帮助我们衡量该字符串的重要性。
你可以通过以下方式来测量频率:
-
原始计数 - 你可以通过手动计算词语在语料库中出现的次数来进行原始计数。
-
布尔频率 - 布尔数据类型有两个可能的值 - true/false,yes/no,0/1。若该术语出现,则用 1 表示;若该术语未出现,则用 0 表示。
-
对数刻度 - 通过在一系列值上使用和显示数值数据。
-
t 代表术语
-
f 代表频率
-
d 代表文档
IDF 是逆文档频率。这进一步探讨了一个词在语料库中出现的普遍程度——或者说一个词在语料库中出现的稀有程度。
IDF 是重要的。以英语为例,像“the”、“it”、“as”、“or”这些词在许多类型的文档中频繁出现。逆文档频率本质上是减少这些频繁出现的词的权重,把不那么频繁的词放在前面,以便产生更高的影响。
-
t 代表术语
-
d 代表文档
-
D 代表文档集合
对于 IDF,你可能会问这些问题:
这是因为我们希望给不常见的词赋予更高的值,以便与那些更常见的词进行比较。如果我们不取逆,像“the”这样的常见词会有更高的值,我们将无法真正找到语料库中重要的术语。
重要的是,我们不是关注一个术语在语料库中的出现频率,而是这个术语在语料库中的相关性和/或重要性。将词频加上本质上是一个子线性函数,因此使用对数尺度可以将这些术语与词频放在同一尺度或子线性函数中。
自然语言处理领域的技术在不断发展,尽管 TF-IDF 最早是在 1970 年代被认可的——它在 2022 年仍然具有相关性。
与今天使用的自然语言处理技术和工具相比,TF-IDF 看起来很简单。但正因为它简单,并不意味着它没有价值或达不到它的作用。TF-IDF 可以用于更好地理解和解释在 TF-IDF 之上使用的算法的输出。使用多种度量方法没有坏处。
TF-IDF 也被认为解决了流行语言处理技术(如词袋模型)的一些主要缺陷。
哦,还有一个原因:它快速、简单、易于访问。
TF-IDF 是语言处理任务的一个很好的起点,从构建搜索引擎到信息检索。尽管它是一个简单的度量,但它仍然保持了对词语在语料库中权重和相关性的直观衡量方法。
尼莎·阿里亚 是一名数据科学家和自由职业技术作家。她特别关注提供数据科学职业建议或教程,以及围绕数据科学的理论知识。她还希望探索人工智能如何能(或将能)提升人类寿命。作为一个热衷学习的人,她寻求拓宽自己的技术知识和写作技能,同时帮助指导他人。