P10-Taming-Dataset-Bias-via-Domain-Adaptation---爱可可-爱生活---BV1jo4y1d7R6

news/2024/9/25 8:00:52

P10：Taming Dataset Bias via Domain Adaptation - 爱可可-爱生活 - BV1jo4y1d7R6

我很高兴今天在这里，和你们谈谈我非常兴奋和感兴趣的事情，因为这是我的研究领域，所以总是很有趣，讲一个关于自己的研究的话题，所以我的话题是驯服数据集，通过领域适应性um和我相信。

您已经在本课程中讨论了一些材料，偏见问题，也许是公平问题，所以这将与那漂亮的东西相吻合，嗯，我想，好吧，嗯，我大概不需要，告诉大家，或花很多时间看如何成功，深度学习已在这里用于各种应用。

我将主要专注于计算机视觉应用，因为那是我的主要研究领域，所以我们知道，在计算机视觉中，深度学习已达到我们可以检测到的程度，在各种场景中非常准确地区分不同的对象。

我们甚至可以检测到不是，真正的人，甚至是卡通人物，只要我们接受培训，数据，我们可以训练模型来做到这一点，我们可以做脸，识别和情感识别，所以有很多应用，深度学习非常成功，但也存在一些问题。

它和我想谈的那个，是数据集偏差，所以在数据集偏差中，您会发生什么，您有一些数据集，比如说您正在训练计算机视觉，模型来检测行人，您想将其放在自动驾驶汽车上，嗯，所以你去收集了一些数据。

您用边界框标记了行人，并训练了您的深处，神经网络，并且在您持有的测试集上效果很好，从相同的数据集中提取出来，但是现在，如果您使用相同的模型，在您的车上尝试识别不同环境中的行人，就像在新英格兰。

这是我现在和现在的位置，事实上，如果我看着我的窗户，那正是，好像下雪了，那种穿着厚外套的人，看起来与我的训练数据不同，我会说我是在加利福尼亚收集的，我们看不到很多，如此直观地下雪，我正在。

应该贴上我的模型的标签看起来与我的训练数据完全不同，所以，这就是我们所说的数据集偏移，它导致，在缺少检测方面存在问题，并且通常我们的准确性较低，正确的训练模型，所以它也被称为数据集偏差。

在主要区域中称为“域右移”，这里再次出现的问题是训练数据，嗯，看起来不错，我要说看起来与众不同，但我要定义更多，嗯，以后会以一种特定的方式具体化，这看起来与，目标测试数据。

数据集偏差何时发生得很好？一些不同的情况，我只在这里展示一些，它们实际上是，我会争辩说，您收集的每个数据集都会发生这种情况，但是，一个示例是您如上所述收集一个城市中的数据集，而您想在其他城市进行测试。

或者您可能是从，网络，然后您想将模型放在机器人上，从其环境中获取图像，该环境中的角度和背景以及，照明完全不同另一个非常普遍的问题是，然后我们要转移的模拟训练，到现实世界，所以这是对现实的模拟。

数据集移位在机器人技术中非常普遍，这是发生这种情况的另一种方式。

是如果您的训练数据集um主要是，某个特定人群的话说，如果我们与人打交道，那可能主要是，浅肤色的脸，然后在测试时，您会得到较黑的皮肤脸，您没有训练这类数据，因此再次出现数据集偏差，或您正在对婚礼进行分类。

但您的，训练数据来自西方文化中的婚礼图像，然后，测试时间，您有其他文化，因此您再次设置了数据，因此可以，发生我的观点是，它可能发生在许多，实际上，我相信无论如何，您收集的数据集无论如何都会有数据集偏差。

只是因为特别是在视觉上，域我们的视觉世界是如此复杂，只是，很难收集足够的品种以涵盖所有可能的情况。

因此，让我们更具体地讨论为什么这是一个问题，我会给你一个例子，我将在整个演讲中使用，只是为了在这个右边加上一些实数，我们可能现在都知道mnist数据集，因此。

这只是用于对神经网络进行基准测试的非常常见的手写数字，因此，如果我们在神经网络上训练神经网络，然后在，在mnist上的同一域中，我们知道我们将拥有非常好的性能，高达99的精度。

这或多或少是一个已解决的任务，但是如果我们在此街景房号数据集上训练我们的网络，嗯，同时也是10位数字吗？数字，但从视觉上看，这是与街景视图不同的域，现在，当我们在mnist数据集上测试该模型时。

该数据集，性能大幅下降这真的是很糟糕的表现，正确地执行10位数字的任务，实际上，即使我们以此进行训练，小得多的变化，所以这是从usps到，mnist在视觉上实际上看起来与人眼非常相似。

但是这两个数据集之间有一些小差异，仍然性能下降嗯几乎一样，呃像以前一样，如果我们交换，我们仍然有，在mnist上进行训练并在usps上进行测试时表现不佳，所以这仅仅是为了像这样输入一些数字。

我们应该很久以前就已经解决的非常简单的任务，在深度学习中，它是行不通的，所以如果我们有此数据集，转移，我们在新域上测试模型，几乎休息了，所以，好的，但这是一个非常学术的数据集，现实世界有什么意义。

数据集偏差的数据我们已经看到了数据集偏差的任何实际含义，在现实世界中，我会说是的，我们有，这是一个有几个研究的例子，人脸识别模型和性别识别模型的商业，在现实世界中为解决这些问题而部署的软件。

这些研究表明，人脸识别算法，在识别非裔美国人和亚洲人的面孔方面远不够准确，相较于高加索人的面孔和，数据集为何会因为培训而发生变化，这些模型使用的数据集偏向，高加索人的面孔。

所以我想另一个现实世界的例子，节目是一个非常可悲的例子，实际上前一阵子有一个，无人驾驶车祸实际上是第一次，机器人杀死一个人的时间，所以发生了事故，这对超级自动驾驶汽车是致命的，根据一些报道。

他们认为这辆车的原因，未能停止的原因在于其算法并非旨在检测行人，在人行横道之外，所以您实际上可以想到，如果您的训练数据仅包含一个数据集偏差问题，行人在人行横道上是合理的，假设是正确的。

因为大多数时间行人都遵循，规则，在人行横道上穿越，只有几次，他们你知道你可能会看到人们在拥挤的行走，你可能不会看到很多东西，数据集中的例子。

所以您可能想知道这一点，请稍等一下，我们是否能解决问题，通过收集更多数据来获得更多的问题，数据并很好地标记它是的，从理论上讲我们可以，但是它很快变得非常非常昂贵并需要说明，为什么让我们举这个例子。

这又是在自动驾驶领域，这是来自伯克利bdd数据集的图像，实际上已经有很多域，所以它有夜间，图像也有白天图像，这里的标签是语义，分割标签，以便每个像素都被标记，例如道路或行人，等等，如果我们想贴上标签。

um 1000个具有这些多边形的行人，成本约为一千，美元，这就是您所知道的标准市场价格，但是，如果我们现在想乘以该倍数，我们想要的姿势时间变化性别变化，时代种族服装风格的变化，所以，如此等等。

我们很快就会看到我们有多少数据，必须收集正确的东西，在那里我们也希望骑车的人，自行车，所以这变得非常炸毁。

很快变得非常昂贵，所以也许我们想要做的是，可以使用未标记数据而非标记数据的设计模型，我今天在谈论的数据，嗯，现在让我们考虑一下，是什么原因导致的，我们已经看到过的性能不佳，基本上有两个主要原因。

我认为第一个原因是培训和测试数据分布，是不同的，您可以在这张图片中看到，所以这里的蓝点是从中提取的特征向量，数位域mnist数位域使用经过训练的网络，数字域，所以我们训练网络，我们，倒数第二层激活。

然后使用t-sne嵌入对其进行绘制，以便我们可以在2d中对其进行绘制，这样您就可以，看到这些蓝点是训练的突出点，然后我们采用相同的网络并从目标域中提取特征，你可以在这里看到基本上是这个，但是。

与黑色和白色不同的颜色，所以这些是红点，您可以很清楚地看到，输入中的分布在，培训和测试领域，这是我们面临的一个问题，在蓝点上受过训练的分类器不会一概而论，到红点，因为这种分布转移了另一个。

问题实际上是有点微妙，但是如果您看一下如何更好地将蓝点聚集在一起，它们之间有空格，所以根据类别这些是群集，的数字，但红点散布得多，而不是，很好地分为几类，这是，因为该模型学习了源域的判别功能。

这些功能对目标人群的区别不大，域，因此测试目标点不在，使用这些功能分组到类中，因为，你知道他们只是模型需要的功能，不能从源域中学习，那么我们该怎么做呢？

好吧，我们实际上可以做很多事情，在这里，实际上是可以用来处理数据的方法列表，设置移位是相当简单的标准操作，例如，如果您只使用更好的，CNN的主干，例如resnet 18，而不是alexnet。

您会因域转移而导致较小的性能差距，每个域的批处理规范化是一个很好的技巧，嗯，您可以将它与实例规范化结合起来，当然可以，数据扩充使用半监督方法，像伪标签，然后我今天要谈的，可以使用域适应技术吗。

让我们定义域适应，好的，所以我们有一个包含很多未标记数据的源域，抱歉，其中有很多标记数据，所以我们有，在我们的源域中输入xi和yi标签，然后我们有一个包含未标记数据的目标域，所以没有标签只是输入。

我们的目标是学习一个分类器，在目标分配dt下实现了较低的预期损失，对，所以我们正在学习源标签，但我们希望，目标的绩效和领域中的关键假设，记住非常重要的适应，是在域适应中，我们假设我们，看到未标记的数据。

我们可以访问它，这很重要，我们没有标签，嗯，因为我们再次假设它非常昂贵，或者我们无法将其标记为，出于某些原因，但我们确实获得了未标记的数据。

好吧，我们该怎么办，嗯，这就是我剩下的谈话的概要。而且我敢肯定我会很快去的，我会尽力在最后抽出时间来提问，如果有的话请，问题把他们记下来了，所以我来谈谈，在这一点上非常非常标准的常规，对抗域对齐技术。

然后我将讨论一些已应用的最新技术，解决这个问题，然后我们将总结一下，好吧，让我们从对抗域对齐开始，好的，所以说我们的源域带有标签，我们正在尝试训练神经网络，在这里我将其拆分为。

编码器CNN是一个卷积神经网络，因为我们要处理图像，然后是分类器，网络的最后一层，我们可以对其进行培训，通常使用标准分类法，然后我们可以从编码器中提取特征以在此处进行绘制。

可视化这两个类别只是出于说明的目的，我正在展示，两个，然后我们也可以想象一些，分类器正在学习的类别之间的区分符概念，决策边界现在我们也有未标记的目标数据，它来自我们的目标域，我们没有任何标签。

但是我们可以，编码器并生成功能，正如我们已经看到的，我们将，看到源蓝色特征和目标之间的分布变化，橙色功能，因此，对抗域对齐的目标是，采取这两个分布并使它们对齐，因此更新编码器cnn。

以便将目标特征分布在，和来源一样，所以我们该怎么做，好吧，它涉及添加域识别符，将其视为，另一个需要采取的神经网络，我们从源域和目标域获得的功能，它将尝试预测域标签，因此其输出为二进制。

标记源或目标域可以，因此，此域区分符试图，区分蓝色点和橙色点，好的，所以我们只对域标签上的分类损失进行训练，然后这是我们的第一步，然后我们的第二步将是修复，域标识符，而是更新编码器，这样编码器。

导致域识别器准确性较差，因此它试图愚弄，通过生成特征来区分域，在源域和目标域之间基本上没有区别，好吧，这是一种对抗性的方法，因为这种对抗性，第四，我们训练域鉴别器，做好区分域名的工作，然后我们修复它们。

我们训练，编码器欺骗鉴别器，以便它可以，不再区分领域是否一切顺利，我们有一条线。

分布，那么这实际上有效吗，让我们来看看我们的，从前面的数字示例，所以我们在这里，还是两个数字域，您会在适应之前看到，红点和蓝点的分布非常不同，现在在对特征应用这种对抗域对齐之后。

我们可以看到事实上特征分布现在已经很好地对齐了，您或多或少无法分辨出分布的差异，可以在红色和蓝色点之间进行操作，并且，不仅可以使特征对齐，还可以改善功能。

我们训练的分类器的准确性，因为我们仍在这里训练，使用源域标签正确地分类，这实际上是，是什么阻止了我们的分歧，呃，您真的很傻，就像将所有内容映射到一个点，因为，我们仍然有必须满足的分类损失。

因此分类器也有所改善，让我们来看看有多少，所以在这里，我将展示我们的cdr17论文的结果，称为ada或对抗性区分域适应，因此，使用这种技术，我们可以在训练这些时提高准确性，域。

然后在这些目标域上进行大量测试，所以这是一个重大的改进，但并不是那么好，因为它有点困难，在svh端到端的转移，因为这是最难的，这些变化很大，所以到目前为止外卖，领域适应可以提高目标上分类器的准确性。

数据完全不需要标签，我们根本没有在这里标记目标域，使用未标记的数据进行交易，因此您可以将其视为一种形式，无监督微调的权利，所以微调是，我们经常做的事情，以改进某些目标任务的模型，但是它需要标签。

所以如果没有标签，这是我们可以做的，我们只有标签数据，我们可以进行这种无监督的微调。

太好了，到目前为止，我还谈到了域，在特征空间中对齐，因为我们接下来将更新特征。

想谈谈像素空间对齐，所以像素空间对齐的想法是，如果我们可以将图像本身作为源数据，该怎么办，像素，实际上只是使它们看起来像它们来自，目标域，我们实际上可以做到这一点，这要归功于，对抗生成模型的器官。

其工作方式与，我已经描述过了，但是他们的区别是，看整个图像不是功能，而是实际的图像，被产生，所以我们可以采用这个想法并将其应用，在这里再次训练，获取我们的源数据并在图像域中对其进行翻译，使其看起来像它。

实际上来自目标域，所以我们，可以执行此操作，因为我们有未标记的目标数据，并且有一个，几种方法，仅用于对此图像进行成像，翻译一个著名的被称为cyclogan，但基本上这些是有条件的。

使用某种损失来对齐两个域，在像素空间，所以如果我们现在有这个井的意义是什么，转换后的源数据，我们仍然有该数据的标签，但现在，看起来它来自目标域，所以，我们可以针对这个新的伪造目标进行训练。

例如带有标签和，希望它可以改善目标上的分类器错误，顺便说一句，我们仍然可以应用我们以前的，功能对齐，因此我们仍然可以在，功能就像我们之前所做的那样，串联在一起的两件事，它们实际上确实提高了性能。

当你在很多问题上都做的时候，好吧，让我给你看一个例子，这是一个，训练领域，这是呃，所以我们试图，做语义像素标记，所以我们的目标是，网络是将每个像素标记为道路或道路等几种类别之一，汽车或行人或天空。

我们想在这个gta域上进行训练，来自侠盗猎车手游戏，它是很好的数据来源，因为它，基本上是免费的，标签是免费的，我们只是得到它们，从游戏中，然后我们要对此进行测试，城市景观数据集是收集的真实世界数据集。

在德国的多个城市中，您可以看到它的外观，所以我将向您展示像素化的结果，这两个域之间的像素域对齐，所以你看到这里我们实际上是在，数据集并将其翻译为游戏，因此此处的原始视频来自，城市景观。

我们正在将其翻译为GTA游戏，好吧，如果我们应用这个会发生什么，域适应的想法，所以这里我们的源域是gta，这是改编后的源图像的示例，我们从gta提取并将其转化为真实的，域。

然后当我们在这些分类器上进行训练时，翻译的图像，我们的准确性从54提高到83。6，每个像素的精度，因此它在精度上确实有很大的提高，再次在目标域上不使用任何其他标签。

再回到数字问题，记住那真的很困难，从街景图像位数到mn位数的转变，现在，通过这种像素空间自适应，我们可以看到，我们可以，从街景域中获取这些源图像，然后，使它们看起来像mnist图像，所以这个中间。

情节中间，该图左侧显示了svhn的原始图像，将它们翻译为看起来像羊皮纸，所以如果我们现在就进行培训，我们可以，将我们在mnist上的准确度提高到90。4，如果我们将其与我们的比较。

仅使用特征空间对齐的先前结果，我们到了76，所以我们在这方面做了很多改进，所以这里的要点是无监督的图像到图像，翻译可以发现并对齐对应的，两个域中的结构，所以有相应的结构，正确，我们在两个域中都有数字。

并且它们具有相似的，结构以及此方法正在做什么，um通过发现这些结构并使它们对齐来对齐它们，彼此对应。

很好，所以接下来我想继续谈谈fu Shot像素对齐。

好的，到目前为止，我没有明确地告诉您，但是我们实际上认为，我们有很多未标记的目标数据，是的，因此在该游戏从游戏改编成，真实数据集，我们从真实图像中获取了很多图像，世界，他们没有标签，但我们有很多，他们。

所以我们就像我不知道成千上万，图片如果目标域中只有几张图片会发生什么，好吧，事实证明我谈论的这些方法并不能真正解决这个问题，他们需要更多图像的情况下，所以我们要做的是与我的研究生和我的合作者。

在nvidia，我们想出了一种可以，只翻译一个或几个，也许两个，或者，目标域中最多有三个或五个图像，所以假设我们有，我们的源域中，我们有很多被标记的图像，在这里，我们将看一个不同动物的例子，物种。

因此域将是物种，的动物，所以在这里我们有一个特殊的狗品种，现在我们想将此图像转换为其他域，这是另一种狗，但我们只有一个这样的例子，狗，所以我们的目标领域只给了我们，在一张图片中。

所以我们的目标是输出源代码的翻译版本，保留该源图像内容的图像，但添加了目标域图片的样式，所以这里的内容是动物的姿势和风格，是动物的种类，所以在这种情况下，它是狗的品种，您会看到我们实际上能够做到这一点。

相当成功，因为您可以看到，我们已经保留了狗的姿势，但是我们改变了，从目标图像到一只狗的品种，好的，所以这是一个非常酷的结果。

嗯，我们实现这一目标的方法是修改现有的模型，您基本上通过更新样式编码器在左侧看到的功能块，该模型的一部分，因此我们将其称为可可或内容，条件样式编码器，因此我们模型的工作方式就是这样。

拍摄内容图像和样式图像，它使用编码器对内容进行编码，这只是一个卷积网络，然后还需要样式和内容，将其编码为样式矢量，然后此图像解码器将，内容向量和样式向量相结合，它们一起生成最终的输出图像。

而且该图像上有甘色损失，确保我们生成的图像看起来像我们的目标，所以以前的工作之间的主要区别，单位和我们称为cocof单位的单位是此样式编码器的结构，不同的是，这取决于两个内容，图像和样式图像还可以。

因此，如果我们在，这个模型的引擎盖多了一些细节，再次是主要的区别，这是在样式编码器中，对，所以它需要样式图像um，用功能对其进行编码，并且还可以学习，一个单独的样式偏差向量，该向量与，图像编码。

这些是整个学习的参数，数据集，所以他们是恒定的，他们不相信他们不依赖，图像本质上是做什么的，它会有所帮助，模型类型学习如何解决姿势变化，因为在不同的图像中，有时姿势会发生非常剧烈的变化，一幅图像。

我们看到了动物的整个身体，然后我们，可能有非常被遮挡的动物，只是头部可见，在此示例中，然后内容编码为，结合这些样式编码以生成最终的，自适应实例中使用的样式代码，规范化框架（如果您不熟悉的话），不用担心。

只是将两者结合起来的一种方式。

向量来生成图像，所以这是我们的一些示例输出，最上面的模特，我们有一种风格，所以它是一个形象，从我们想要的动物身上看到的目标物种，喜欢，然后在下面是内容，是从本质上讲是来源的姿势，我们要保留。

然后在底部的底部，您会看到我们的模型生成的结果，生产的，所以你可以看到我们实际上是，能够保存，内容图像的姿势很好，但要结合风格或种类，对于目标样式图片感到遗憾，有时我们甚至知道，像猫的东西看起来更像狗。

因为，目标域是狗的品种，但姿势与原始猫相同，图片或最后一张图片实际上是，看起来像狗的熊，因此，如果我们将其与之前的方法进行比较，我之前提到的单位，我们看到我们的模型，比后代好多了，在这种情况下。

很多时候都无法产生，逼真的图像，只是不产生令人信服的图像或，真实感，所以在这里我要播放视频只是为了向您展示更多结果。

实际上，我们正在整个拍摄整个视频。

并将其翻译成一些目标域，这样您就可以在顶部看到各个域。

在这里，所以相同的输入视频将是。

转换为这些目标领域的每一个，每个目标域都有两张图片。

对，所以第一个实际上是狐狸，现在这里还有另一个例子。

与不同的鸟类，这样您就可以看到鸟的姿势保留了原来的姿势。

视频，但其种类已更改为目标。

因此，您知道那里的成功水平各不相同，但总的来说，它在做。

比以前的方法更好，这是这里的另一个最终示例，我们再次将内容图像与样式和，产生输出并不确定什么种类，这将是某种奇怪的新物种，好吧，总而言之，就是以内容为条件，和样式图像一起，我们可以改善样式的编码。

并在此视图案例中改进域翻译。

好的，所以我还有一点时间，我实际上有多少时间大约10分钟，是的，好的，所以在最后几分钟，我想，谈论我们已经完成的最新工作，超越了我之前谈论过的对齐技术，提高他们，第一个是自我监督。

学习这样一个假设，所有这些，我说过的制作方法是类别相同，在源头和目标上，如果，违反了假设，为什么我们会违反这个假设，因此，假设我们有一个对象的源域，并且我们想转移到，来自这个真实来源的目标领域。

例如图纸，领域，但在图纸领域，我们有一些，其中一些图像相同的图像，我们在源代码中具有的类别，但某些源类别是，在我们的目标域中缺失，好像我们没有杯子或大提琴，而且我们甚至可能有新的类别。

源中不存在的目标域中，好吧，这里是类别转换的案例，不只是功能转移，不仅是视觉域转移，而且实际上是类别，正在移动，因此这是域对齐的困难情况，因为，域对齐我们总是假设整个域都应该对齐，在一起。

如果我们尝试这样做，情况下，我们会有灾难性的适应结果，所以我们。

实际上可能比什么都不做更糟，没有适应性，所以在我们最近来自欧洲的论文中，在2020年，我们为此提出了一种解决方案，不使用域对齐，而是使用自我监督的学习，好吧，这样的想法是，假设我们有一些。

源数据被标记为蓝点这里我们有一些，未标记的目标，其中一些要点可能是，对未知的类，所以我们要做的第一件事就是发现，点对靠近的点对，我们以这样的方式训练特征提取器，嵌入在一起，所以我们基本上。

试图将相邻点聚拢在一起，同时将更远的点推得更远，之所以能够做到这一点，是因为我们从一个预先训练的模型开始，已经这么说了，我们说它已经在imagenet上进行了预训练，所以已经给了我们一个漂亮的。

良好的初始化，因此在此邻域聚类之后，这是无监督的损失，或者我们可以称其为自我监督，我们已经更好地将我们的功能进行了聚类，正在将来自已知类别的未标记目标点聚类，更接近已知类的源点，然后。

它将目标中的黄色未知类聚类成远离，那些已知的类现在我们要做什么，是增加了熵分离损失，这进一步鼓励了具有，对不起，我觉得um与，已知的类别，所以这本质上是一个离群的拒绝，正确的机制，所以。

如果我们看一个点，我们看到，它具有很高的熵，可能是离群值，所以我们想，拒绝它，并将其推到更远，所以最后，我们获得的是一个编码器，它使我们具有此功能，相同类别的点聚集的分布，接近源头。

但新颖类的要点聚集在远离。

来源，好吧，如果我们将其应用于称为“远景挑战”的数据集，正在训练合成图像并适应目标域，即，真实图像，但其中一些类别缺失，在目标中，我们又不知道，现实生活中，因为目标未标记，对，所以如果我们批准。

如果我们采用我刚刚描述的这种舞蹈方法，与最近的很多领域相比，可以提高性能，适应方法，并且与仅仅进行培训相比，源，所以如果我们，仅在源数据um上进行交易，然后如果我们在这个域上进行交易，在整个域上对齐。

这就是我们的da和n方法，实际上看到我们比不做任何事情都具有更差的准确性，而不是再次在源代码上进行培训，因为这是同一类别，这个问题违反了假设，但是使用我们的方法，我们实际上。

不仅可以做源代码培训，还可以做得更好，并提高准确性，好了，最后我想提一个很酷的功能，嗯，这个想法已经变得嗯，在半监督文学中最近更为流行，我们可以。

实际也将其应用到这里，所以在这里我们再次开始，在源域和目标域上进行自我监督的预训练，但是在这种情况下，我们要做的是不同的呃单元监督任务，而不是，此处的聚类点是我们预测图像的旋转，因此，我们可以旋转图像。

但我们确切知道图像的方向，但是，然后我们训练特征提取器来预测，例如，该方向是旋转90度还是零度，好的，但是这又是另一个自我监督的任务，它可以帮助我们，预训练更好的特征编码器。

对我们的源域和目标域更具歧视性，然后我们应用这种一致性损失，那么一致性损失是什么，所以在这里，我们将对未标记的图像进行一些数据增强，好的，我们将采用预先训练的模型，然后，使用该模型生成概率分布。

目标um的类别um在原始图片上以及在，增强的未标记图像，其中增强是，您知道裁切颜色转换会增加噪点并增加小，旋转之类的东西，就是这样，旨在保留对象的类别，但会更改图像，然后我们取这两个概率输出，我们。

添加一个损失以确保它们一致正确，所以我们告诉我们，模型的外观，如果您看到此的增强版本，图片您仍然应该预测相同的类别，对于该图像，我们不知道它是什么，因为该图像未标记，但是它，应该与原始图片相同。

因此有了这个主意，因此我们将。

此旋转预测预训练与，一致性培训，我们称此包为一小部分，品尝我们得到的结果只是因为我没有太多时间，但是，基本上在这里，我们再次从合成，拜访挑战中对真实图像的数据集。

但是现在我们假设在我们的目标域中标记了一些示例，我们实际上可以通过这种打包方法来改善，关于域对齐方法（称为mme）的内容很多，这就是我们的，在这种情况下的以前的工作，所以基本上我要你，摆脱这一点的是。

域对齐不是，唯一的方法，我们可以使用其他方法，例如，自我监督培训和一致性培训以提高。

目标数据的性能还不错，所以我在这里止步，只是总结一下我在说什么，我希望我已经说服了您，数据集偏差是一个主要问题，我已经讨论过如何使用领域自适应技术来解决它，尝试使用未标记的数据来传递知识。

我们可以认为这是无监督微调的一种形式，我谈论的技术包括对抗性对齐，还有一些其他依靠自我监督的技术，一致性培训，所以我希望你喜欢这个。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.ryyt.cn/news/64447.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！

P9-Deep-CPCFG-for-Information-Extraction---爱可可-爱生活---BV1jo4y1d7R6

P10-Taming-Dataset-Bias-via-Domain-Adaptation---爱可可-爱生活---BV1jo4y1d7R6

P10：Taming Dataset Bias via Domain Adaptation - 爱可可-爱生活 - BV1jo4y1d7R6

相关文章

P9-Deep-CPCFG-for-Information-Extraction---爱可可-爱生活---BV1jo4y1d7R6

读构建可扩展分布式系统：方法与实践14流处理系统

00 安装python解释器

01 配置环境变量

python--迭代器

御网杯 2024

Mysql调优实践1

924 pwn学习