人工智能的主动学习,不是父母的谆谆教

2024/8/30 来源:本站原创 浏览次数:

北京治疗白癜风需要多少费用 http://www.jk100f.com/m/

先一句话理解一下:主动学习就是一个帮我标注数据的“模型”。从主动学习的定义中我们可以看出这里也是主要运用了统计学的知识和运筹学的知识。(Activelearningsometimescalled“querylearning”or“optimalexperimentaldesign”inthestatisticsliterature))

虽然有很多可用数据,但其中大部分是未标记的,机器学习算法需要标记数据。有主动学习,就有被动学习。被动学习是传统方法。

收集从底层分布中随机抽样的大量数据,并使用这个大型数据集来训练可以执行某种预测的模型。你将把这种典型的方法称为被动学习。

用机器学习模型解决机器学习模型里的一个重要环节——数据标注。

从一个简单的例子开始,让您更好地理解主动学习的工作原理。

主动的学习(Activelearning)作为机器学习的一个分支其主要是针对数据标签较少或打标签“代价”较高这一场景而设计的。

主要目的即希望保留尽肯能“有价值”的样本。

在统计学中主动学习又被称为最优实验设计(optimalexperimetaldesign)。其主要方式是模型通过与用户或专家进行交互,抛出"query"(unlabeldata)让专家确定数据的标签,如此反复。

两个集群,一个是绿色的,一个是红色的。

高智商的读者会知道这是一个分类任务,想创建一个“决策边界”(在这种情况下,它只是一条线)来分隔绿色和红色形状。但是,您可以假设您不知道数据点的标签(红色或绿色),但尝试找到每个数据点的标签会非常昂贵。

因此,您可能希望对一小部分点进行采样并找到这些标签,并将这些带标签的数据点用作分类器的训练数据。

在中间图片中,逻辑回归用于通过首先随机抽样一小部分点并标记它们来对形状进行分类。但是,您会看到使用逻辑回归(蓝线)创建的决策边界不是最佳的。这条线明显偏离红色数据点并进入绿色形状区域。这意味着会有许多绿色数据点被错误地标记为红色。这种偏差是由于标签数据点选择不当造成的。

在最右边的图片中,再次使用了逻辑回归,但这一次,您使用主动学习查询方法选择了一小部分点。这个新的决策边界明显更好,因为它更好地区分了两种颜色。

被动学习中比较耗时的任务之一是收集标记数据。在许多情况下,可能存在阻碍收集大量标记数据的限制因素。

让我们以研究胰腺癌为例。你可能想预测一个病人是否会得胰腺癌,然而,医院里,接触的病例有限,可能只有机会给少数病人做进一步检查以收集特征。

简而言之,该策略是实现一个迭代循环,当您对最需要的数据变得更聪明时,将数据提供给您的模型。所以基本上它是关于不断变得更聪明并知道哪些数据最有价值标签。

主动学习是人工智能、机器学习和人工智能中的一种数据策略,它挑选数据进行标记,以便在任何给定时间获得最相关的数据。

这是一种主动的数据收集方法,与经典的机器学习数据收集相反,它建议随机数据收集以避免偏差。

(完)

转载请注明:
http://www.whyxqt.com/yxahl/115654.html
  • 上一篇文章:

  • 下一篇文章: 没有了
  • 网站首页 版权信息 发布优势 合作伙伴 隐私保护 服务条款 网站地图 网站简介
    医院地址: 健康热线:
    温馨提示:本站信息不能作为诊断和医疗依据
    版权所有 2014-2024
    今天是: