原文:
www.kdnuggets.com/2018/01/automated-text-classification-machine-learning.html
由 Shashank Gupta 和 ParallelDots。
数字化改变了我们处理和分析信息的方式。在线信息的可用性呈指数级增长。从网页到电子邮件、科学期刊、电子书、学习内容、新闻和社交媒体都充满了文本数据。目标是快速创建、分析和报告信息。这时,自动化文本分类发挥了作用。
文本分类是将文本智能分类到不同类别中的过程。使用机器学习来自动化这些任务,只会使整个过程变得极快且高效。人工智能和机器学习可以说是近年来最具益处的技术,它们的应用无处不在。正如杰夫·贝索斯在他的年度股东信中所说,
过去几十年,计算机已经广泛地自动化了那些程序员可以用明确规则和算法描述的任务。现代机器学习技术现在使我们能够对描述精确规则更为困难的任务做同样的事情。
– 杰夫·贝索斯
具体谈到自动化文本分类,我们已经写过关于其背后的技术和应用的内容。我们现在正在更新我们的文本分类器。在这篇文章中,我们讨论了与我们自动化文本分类API相关的技术、应用、定制和分段。
文本数据的意图、情感和情绪分析是文本分类中最重要的部分之一。这些用例在机器智能爱好者中引起了重大关注。我们为每个这样的类别开发了独立的分类器,因为它们的研究本身是一个庞大的主题。文本分类器可以在各种文本数据集上运行。你可以用标记数据训练分类器,也可以在原始非结构化文本上操作。这两类都有各自众多的应用。
监督式文本分类
当您定义了分类类别时,进行文本的监督分类。它基于训练和测试原理。我们将标记的数据输入机器学习算法进行处理。算法在标记数据集上进行训练,并给出期望的输出(预定义的类别)。在测试阶段,算法接受未观察到的数据,并根据训练阶段的内容将其分类到各个类别中。
电子邮件的垃圾邮件过滤是监督分类的一个例子。来信根据其内容自动分类。语言检测、意图、情感和情绪分析都基于监督系统。它可以用于特殊情况,例如通过分析数百万条在线信息来识别紧急情况。这是一个“针在大海捞针”的问题。我们提出了一个智能公共交通系统来识别这种情况。为了在数百万条在线对话中识别紧急情况,分类器必须以高准确率进行训练。它需要特殊的损失函数、训练时的采样以及像构建多个分类器的堆栈这样的解决方法,每个分类器都细化前一个分类器的结果。
监督分类基本上是让计算机模仿人类。算法接受一组标记/分类文本(也称为训练集),基于这些文本生成 AI 模型,这些模型在进一步接收到新的未标记文本时,可以自动对其进行分类。我们的多个API是基于监督系统开发的。文本分类器目前针对 150 个通用类别进行了训练。
无监督文本分类
无监督分类是在不提供外部信息的情况下进行的。在这种情况下,算法尝试发现数据中的自然结构。请注意,自然结构可能不完全是人类认为的逻辑分割。算法在数据点中寻找相似的模式和结构,并将其分组为集群。数据的分类是基于形成的集群。以网页搜索为例。算法根据搜索词进行集群,并将其作为结果呈现给用户。
每个数据点被嵌入到超空间中,您可以在 TensorBoard 上可视化它们。下面的图像基于我们对印度电信公司 Reliance Jio 的 Twitter 研究。
数据探索的目的是基于文本相似性找到相似的数据点。这些相似的数据点形成一个最近邻的簇。下图展示了推文“reliance jio prime membership at rs 99 : here’s how to get rs 100 cashback…”的最近邻。
如你所见,附带的推文与标记的推文类似。这个簇是类似推文的一类。无监督分类在从文本数据中生成洞察时非常有用。由于不需要标记,它具有很高的可定制性。它可以在任何文本数据上运行,无需训练和标记。因此,无监督分类具有语言无关性。
自定义文本分类
很多时候,使用机器学习的最大障碍是数据集的缺乏。许多人想要使用 AI 进行数据分类,但这需要创建一个数据集,从而产生类似于鸡蛋-鸡的问题。自定义文本分类是构建自己文本分类器而不需要数据集的最佳方法之一。
在 ParallelDots 的最新研究工作中,我们提出了一种在文本上进行零样本学习的方法,其中在一个大型噪声数据集上训练的算法可以推广到新的类别甚至新的数据集。我们称这一范式为“训练一次,测试任何地方”。我们还提出了多种神经网络算法,这些算法可以利用这种训练方法,并在不同的数据集上获得良好结果。最佳方法使用 LSTM 模型来学习关系。我们的想法是,如果能够建模句子与类别之间的“归属感”概念,那么这些知识对于未见过的类别甚至未见过的数据集也很有用。
如何构建自定义文本分类器?
要构建自己的自定义文本分类器,你首先需要注册一个 ParallelDots 账户,并登录到你的仪表板。
你可以通过点击仪表板中的‘+’图标来创建你的第一个分类器。接下来,定义一些你希望将数据分类到的类别。请注意,为了获得最佳结果,请确保你的类别是相互排斥的。
你可以通过分析你的文本样本来检查分类的准确性,并在发布之前根据需要调整你的类别列表。一旦类别发布,你将获得一个应用程序 ID,这将允许你使用自定义分类器 API。
考虑到数据标注和准备可能是一个限制,自定义分类器可以是构建文本分类器的一个很好的工具,而不需要大量投资。我们还相信,这将降低构建实际机器学习模型的门槛,这些模型可以应用于各个行业,解决各种用例。
作为一个 AI 研究小组,我们不断开发前沿技术,以使过程更简单、更快捷。文本分类就是这样一种技术,在未来具有巨大的潜力。随着越来越多的信息被倾倒在互联网中,智能机器算法将负责使这些信息的分析和表示变得更容易。机器智能的未来无疑令人兴奋,订阅我们的新闻通讯,以便将更多这样的信息送到你的邮箱。
ParallelDots AI APIs,是由ParallelDots Inc提供的深度学习驱动的网络服务,能够理解大量非结构化的文本和视觉内容,从而增强你的产品。你可以查看我们的一些文本分析API,通过填写此表单这里联系我们,或者通过 [email protected] 给我们写邮件。
原文。经许可转载。
相关
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织 IT