作者归档：杨顺博

2025-04-17组会摘要01

今天将对我的新研究内容《基于强化学习自适应采样的扩散模型居民负荷生成加速方法》进行介绍。

科研背景

•为了构建新一代电力系统以实现碳中和目标，有必要全面提升电网的数字化和智能化水平。这不仅是应对全球气候变化的重要举措，也是满足未来能源需求、推动经济和社会可持续发展的关键途径。在此背景下，智能电表作为一种先进的计量基础设施，得到了广泛部署。智能电表通过实时监测和采集用电数据，不仅能够促进能源流与信息流的深度融合，还能为电力系统提供更加高效和可靠的支持。尤其在住宅用电负荷特征（residential load profile）方面，智能电表的应用为电网的调度和管理带来了显著的改进。

•

•智能电表能够精确记录每个家庭的用电情况，包括负荷波动、用电时间段等数据。这些数据帮助电力公司更准确地了解各类家庭的用电模式，从而为电网的负荷预测和优化调度提供依据。通过分析住宅负荷曲线，电力公司能够更好地识别电力需求的高峰和低谷，优化电力供应，减少能源浪费。此外，智能电表还为用户提供了详细的用电数据，帮助他们更好地管理家庭能源消费，推动节能减排。通过结合智能电表与先进的数据分析技术，电力系统可以实现更精确的负荷预测和实时的负荷调度，从而提高电网的效率和可靠性，支持可再生能源的集成，最终推动能源的绿色转型和碳中和目标的实现。

•在这个背景下，对电力供应商而言，依靠智能电表收集的大量高精度的居民负载数据，电力供应商可以给他们的客户提供个性化和高质量的服务，并降低他们的运营成本。

•

•另一方面，客户可以更加了解自己的用电特点(power consumption)，节约能源成本(save energy costs)，以及促进需求响应(demand response)。

科研问题

•构建有效的数据驱动模型，特别是深度学习模型，通常需要大量的训练数据。这些数据对于模型的准确性和泛化能力至关重要。然而，在实际应用中，尤其是针对电力系统等领域，获得大量高质量的训练数据是一项巨大的挑战。

•

•由于成本、监管和隐私方面的限制，电力公司在收集和使用这些数据时面临许多困难。尤其是在涉及客户隐私和敏感数据的场景下，客户获取训练数据的难度更大。这样一来，电力公司往往无法获得足够的训练数据来训练模型，从而影响了数据驱动方法在这些领域的有效性和广泛应用。

•合成数据成为了能够解决上述问题的一种关键方法，通过训练机器学习模型，从而生成大量的与原始数据分布相同的合成数据。这些合成数据不仅可以解决原始数据数据量不足的问题（data augmentation），与此同时还可以使用这些合成数据在直接训练机器学习模型从而执行下游的任务，从而满足对于隐私相关的需求（privacy preserving）。

•

•扩散模型（Denoising Diffusion Models）作为生成模型领域的新兴方法，在图像质量和模式覆盖方面相比GAN和VAE等传统方法具有明显优势：它们能够生成更高质量、更丰富多样化的样本，从而在一定程度上解决了GAN训练不稳定、VAE生成样本质量不高等问题。然而，扩散模型本身仍然存在一些不足之处，例如在采样速度方面还不够理想，仍需进一步的优化。然而目前通过step-skipping来对扩散模型sampling acceleration的方法大多是都是hand-crafted的方法，严重依赖历史经验的同时仅可按照固定的步骤（linear）进行跳步。

科研目的

1.提出一种基于强化学习的自适应采样方法，使得生成的过程可以选择最优路径进行时序数据的生成，加速扩散模型sampling的速度。

2.同时，我们在对sampling加速的同时考虑到了保证生成过程中的稳定性，时序数据的质量以及时序数据的时序特征。

2025-02-20组会摘要01

今天我将继续就《基于扩散模型的合成数据研究》进行介绍

科研背景

•

科研问题

1.提出了一种基于条件扩散模型（conditional diffusion models）的负载曲线合成方法。该方法能够根据用户的条件信息，实现高质量的负载曲线合成。

2.同时，我们设计了一种新的网络结构使sampling的过程更加高效（fast sampling）。

2025-01-09-组会摘要01

今天我将针对我的《基于扩散模型的合成数据研究》进行汇报。

科研背景

•

科研问题

•

科研目的

1.提出了一种基于条件扩散模型（conditional diffusion models）的定制负载曲线合成方法。该方法能够根据每位用户的连续条件信息，实现专属的、高质量的负载曲线合成。

2.同时，我们设计了一种新的网络结构使训练过程更加高效（fast sampling）。

2024-11-07-组会摘要01

今天主要针对我的《合成数据评估研究》进行介绍。

背景

在许多行业和领域中，数据被视为推动科学研究、技术创新和机器学习发展的关键资源。然而，现实中许多真实数据涉及敏感的隐私信息，尤其是在医疗、金融、政府和教育等行业。随着个人隐私保护意识的提升，全球范围内的法律法规也不断加强，对数据共享和公开的限制日益严格。例如，欧洲的GDPR（通用数据保护条例）和美国的HIPAA（健康保险携带与责任法案）等法律明确规定了数据的使用、存储和共享的严格要求。这些法律的实施有效保障了个体隐私权利，但同时也造成了数据的封闭性，限制了新技术的应用，尤其是对科学研究和机器学习算法的开发和验证造成了阻碍。

在此背景下，生成模型（如生成对抗网络GANs、变分自编码器VAEs等）作为一种新兴的技术，提供了一个潜在的解决方案。生成模型能够通过学习真实数据的统计分布，生成与真实数据相似的合成数据。与真实数据相比，合成数据不包含具体的个人信息，因此不会违反隐私保护规定，但它仍然能够保留真实数据的大部分分布信息。这意味着，研究人员可以使用这些合成数据进行科学实验、模型训练和算法验证，从而避免了隐私泄露的风险，并且仍能进行高质量的研究和分析。

•在这个背景下，合成数据（synthetic data）的评估显得尤为重要。尽管生成模型为解决隐私问题提供了一个潜在的解决方案，但合成数据的质量和有效性直接影响到科学研究和机器学习应用的可靠性。如果合成数据无法充分反映真实数据的特征和分布，或存在系统性偏差，它可能导致模型训练和结果分析的偏差。因此，如何准确评估合成数据的质量成为了确保其广泛应用的关键。

当前合成数据的评估维度主要包括：

•Fidelity: 生成的样本应当与真实数据集 𝑃𝑟 中的真实样本相似。一个高忠实度的合成数据集应包含“realistic”的样本，例如视觉上真实的图像。

•

•Usefulness: 使用真实数据训练的模型在进行下游的ML任务时的效果，应该与使用合成数据或合成数据混合真实数据的训练集在进行下游的ML任务时的效果相近。

•

•Diversity: 生成的样本应足够多样化，以覆盖真实数据的变异性。也就是说，模型应能够生成多种高质量的样本。

•

•Generalization: 生成的样本不应仅仅是训练数据中（真实）样本的简单复制，即对真实数据 𝐷𝑟𝑒𝑎𝑙过拟合的模型并不是真正的“生成性”模型。

研究问题

•不同类型的数据（tabular data, time series data等）需要使用不同的evaluation的方法来进行评估 [8]。

•

•比起先前仅使用likelihood来对合成数据进行评估的方法，现在更加趋近于使用维度的方法来对合成数据进行评估[9]。

•

•合成数据直接copy原始数据的问题（overfitting problem）[1][10]。

研究目的

1.针对现有的评测维度，提出一个新的evaluation的维度，结合现有的维度，组成全新的评测框架

2.在现有的evaluation的维度中提出全新的方法来对合成数据的质量进行评估。

2024-09-19-组会摘要01

今天我报告的内容为《合成数据下的不确定性量化(Uncertainty Quantification)研究》。

科研背景

近年来，通过生成模型生成合成数据在机器学习（ML）社区及其他领域越来越受到关注，合成数据既可以与真实数据共同使用来增强数据(data augmentation)，又可以使用合成数据代替原始数据来进行下游的机器学习任务。然而，合成数据通常并不完美，可能导致下游任务中出现潜在错误。下图的结果表明，简单地将合成数据视为真实数据的方法会导致下游模型和分析在实际数据上泛化能力不佳。

科研问题

1.将合成数据代替原始数据来进行下游的ML任务，会导致任务性能不佳的问题，包括模型泛化、评估和不确定性量化等方面，这些问题源于合成数据生成过程中存在的错误。

2.虽然目前有很多研究在研究ML/DL下的不确定性量化，但是目前较少的研究在关注合成数据对于下游机器学习任务所带来的不确定性。

科研目的

为了解决这些挑战，我们提出了一种框架。旨在近似生成模型参数的不确定性，并改进下游模型的训练、评估和不确定性量化，特别是在合成数据容易出现不准确的低密度区域。

2024-07-04-组会摘要01

今天主要针对我的《AC-WTGAN: An Improved Generative Adversarial Network Framework for Residential Load Profile Generation》的实验结果进行展示。

科研背景

随着能源领域的快速发展，先进计量基础设施（Advanced Metering Infrastructure, AMI）已成为智能电网的关键组成部分。AMI集成了智能电表和强大的通信网络，促进了电力公司(utility companies)与消费者之间实时、双向的数据交换。这项技术不仅改变了传统的电力计量和管理方法，还为数据驱动的能源应用奠定了坚实的基础。作为AMI的核心元素，智能电表实时测量消费者的能源使用情况，并将这些数据传输给电力公司。为了分析住宅用电量数据及相应的社会人口统计信息，机器学习在需求预测、优化电力分配以及检测窃电等任务上取得了巨大成功。

科研问题

然而，完成上述任务的关键挑战之一是居民用电数据的敏感性以及隐私法规（如欧盟的《通用数据保护条例》（GDPR）和美国的《美国数据隐私与保护法案》（ADPPA））限制了个人信息的共享。这一限制使得下游电力供应商难以利用大规模数据集开发多种用途的机器学习算法。

此外，现有的家庭用电数据集往往存在数据不平衡的问题。因为在现实世界中，一些基于社会人口学数据的家庭类型通常样本稀疏，导致现有的各种居民能源消耗数据集在数量和质量上都不平衡。高度不平衡数据样本的存在会在分类器中引入标记偏差，即分类器的决策边界易受来自多数类(majority class)的数据的影响。因此，来自少数类别(minority class)的数据实例可能会被选择性忽略，从而影响下游机器学习分类器的准确性。

为了解决这些问题，生成对抗网络（GANs）作为一种先进的时间序列生成模型备受关注。特别是GANs 可以在训练过程中从真实数据中学习复杂的分布，并生成具有类似特征的合成数据。因此，对于居民负荷的隐私问题，GANs 可以保留关键的统计模式，包括居民用电的动态和随机特征，同时对敏感信息进行匿名处理，以确保用户隐私。

针对不平衡数据的挑战，GANs 可用于生成具有相应社会人口数据的居民负荷数据从而平衡数据集，使电力公司(utility companies)能够使用大规模数据集预测需求和管理配电。

科研问题

作为原始 GAN 的改进模型，TimeGAN 专为生成时间序列数据而设计，TimeGAN 的所有网络都由循环神经网络（RNN）组成，如长短时记忆（LSTM）和门控循环单元（GRU）。虽然基于 TimeGAN 的时间序列数据生成方法取得了一些进展，但仍有一些局限性有待解决。具体来说，TimeGAN 忽略了复杂网络训练的稳定性。特别是，在生成带有社会人口学特征的居民用电数据时，TimeGAN 的不稳定性训练过程是主要由三方面造成，分别来自于 Jensen-Shannon 散度作为损失韩式的不足、带有社会人口信息的居民负荷曲线数据的内在复杂性以及长时间序列数据的长期依赖性。

此外，目前许多评估生成样本的方法主要依赖于目测(Visual Inspection, VI)，而忽略了系统的评估方法，以及在训练下游机器学习模型时评估其替代真实数据的有效性，而训练数据的质量极大地影响了监督网络模型的性能。

科研目的

本文提出了TimeGAN的改进版架构，AC-WTGAN（Auxiliary Classifier Wasserstein TimeGAN），以更稳定地生成居民用电数据。

同时，我们将合成数据的评价方法系统地（systematically）分为相似性评价和可用性评价，以全面评价生成数据的质量。

研究框架

2024-05-23-组会摘要01

今天主要从写作行文的角度来对我的研究《AC-WTGAN: An Improved Generative Adversarial Network Framework for Residential Load Profile Generation》进行介绍。

科研背景

科研问题

此外，现有的家庭用电数据集往往存在数据不平衡的问题。因为在现实世界中，一些基于社会人口学数据的家庭类型通常样本稀疏，导致现有的各种居民能源消耗数据集在数量和质量上都不平衡。高度不平衡数据样本的存在会在训练有素的分类器中引入标记偏差，即分类器的决策边界倾向于主要受来自多数类的大量数据的影响。因此，来自少数类别的数据实例可能会被选择性忽略，从而影响下游机器学习分类器的准确性。

作为原始 GAN 的改进模型，TimeGAN 专为生成时间序列数据而设计，TimeGAN 的所有网络都由循环神经网络（RNN）组成，如长短时记忆（LSTM）和门控循环单元（GRU）。虽然基于 TimeGAN 的时间序列数据生成方法取得了一些进展，但仍有一些局限性有待解决。具体来说，TimeGAN 忽略了复杂网络训练所产生的稳定性。特别是，在生成带有社会人口学特征的居民用电数据时，TimeGAN 的不稳定性训练过程是主要由三方面造成，分别来自于 Jensen-Shannon 散度的不足、带有相应社会人口信息的居民负荷曲线数据的内在复杂性以及长时间序列数据的长期依赖性。

科研目的

本文提出了TimeGAN的改进版架构，AC-WTGAN（Auxiliary Classifier Wasserstein TimeGAN），以更稳定地生成居民用电数据。

同时，我们将评价方法系统地（systematically）分为相似性评价和可用性评价，以全面评价生成数据的质量和数量。

2024.03.28-组会摘要01

今天主要对我的研究基于AC-TimeGAN模型的电力时序数据生成研究进行汇报

科研背景

随着先进计量基础设施(Advanced Metering Infrastructure, AMI)的出现使得人们能够以细粒度的时间分辨率分析住宅负荷特性，这种数字化计量基础设施通常被视为能源转型的一个推动者。在用电测，它不仅仅简化了电能的计量，更重要的是为住宅用户提供了便利，通过数据的精准采集和实时监控，居民能够更清晰地了解自己的能源使用情况，从而做出更加节能的决策。

科研问题

因此，在电力行业中，智能电表的广泛部署使得使用人工智能技术来细致分析用户的用电数据变得可行。然而，这些技术为了高效训练通常需要大量有代表性的数据集。因此带来了下面的挑战：

•收集这些数据面临着显著的安全和隐私挑战

•高质量的公开数据集也相对稀缺

为了解决上述的挑战，使用合成数据（Synthetic Data）代替原始数据来进行下游的机器学习训练成为了一种可行的方案。在时间序列领域，时间序列生成对抗网络（Time-series Generative Adversarial Networks，TimeGAN）这一GAN的变种进一步扩展了这一领域，为电力时间序列数据的生成提供了创新的解决方案。

家庭智能电表的时间序列数据通常包含丰富的信息，如能源消耗模式、峰值使用时段等。这些数据通常与社会人口统计数据（如家庭大小、位置、收入水平）有关联，使得数据的特征非常复杂和多变。尽管TimeGAN是一种有效的时序数据生成模型，但其在处理具有丰富特征和复杂关联的真实世界数据时仍然可能无法生成稳定且高质量的数据。

科研目的

提出了时间序列生成模型Auxiliary Classifier Wasserstein TimeGAN with Gradient Penalty（AC-TimeGAN），在保护用户隐私的同时，实现数据价值属性的流通。相比于传统的TimeGAN模型，本文提出的模型同时通过引入Wasserstein距离和辅助分类器，提高了模型的稳定性和生成数据的质量，从而能够更好地处理和生成复杂的时间序列数据。

这种改进的模型可以更有效地处理复杂的真实世界时间序列数据。在家庭智能电表数据中，AC-TimeGAN能够模拟和生成符合实际社会人口统计特征的高质量合成数据，从而在能源需求预测、用户行为分析等方面提供洞察。

2023-12-21 组会报告摘要-01

本次组会将会继续针对我上次汇报的内容《基于AC-TimeGAN-GP模型的电力时序数据生成研究》进行汇报。

科研背景

随着新一轮能源技术革命的兴起，我国提出以碳达峰、碳中和为目标的能源战略，建立清洁、低碳、安全、高效的能源体系。对于这些目标，电力行业正在经历着多维度的转型，在用电侧，消费者的消费方式也朝着数字化、个性化、便捷化、开放化的方向转变。

2020年，我国首次将数据纳入五大生产要素之一，数据作为战略性和基础性资源的价值已经得到社会的广泛认可。无论是数据收集、分析还是使用，都已经成为现在社会各行各业的核心工作，其中电力行业也不例外。截至到2022年底，我国已经部署了7亿个智能电表。因此，使用人工智能技术对细粒度的用户用电数据进行分析，可以为消费者提供更多个性化的能源使用服务，帮助电力供应商训练更加准确的负荷预测模型，制定更加高效的电力调度决策，提高新能源的消纳量。

科研问题

因此，在电力行业中，智能电表的广泛部署使得使用人工智能技术来细致分析用户的用电数据变得可行。这种分析尤其在处理短期电力负载变化时显得至关重要。这不仅帮助消费者获得更加个性化的能源使用服务，而且还能帮助电力供应商更准确地预测电力负荷，从而制定出更有效的电力调度策略，并提高新能源的利用效率。然而，这些技术为了高效训练通常需要大量有代表性的数据集。然而，收集这些数据面临着显著的安全和隐私挑战，同时，高质量的公开数据集也相对稀缺。

因此，为了解决上述的矛盾，使用合成数据（Synthetic Data）代替原始数据来训练训练机器学习算法成为了一种可行的方案。而生成式对抗网络（Generative Adversarial Networks, GANs）身为目前最好的合成数据解决方案，展现出了其独特的优势。继GAN之后，时间序列生成对抗网络（Time-series Generative Adversarial Networks，TimeGAN）这一GAN的变种进一步扩展了这一领域，为时间序列数据的合成提供了创新的解决方案。

家庭智能电表的时间序列数据通常包含丰富的信息，如能源消耗模式、峰值使用时段等。这些数据通常与社会人口统计数据（如家庭大小、位置、收入水平）有关联，使得数据的特征非常复杂和多变。尽管TimeGAN是一种有效的时间序列数据生成模型，但其在处理具有丰富特征和复杂关联的真实世界数据时仍然存在局限性。例如，它无法充分捕捉到社会人口统计特征与能源消耗之间的关系。

科研目的

提出了时间序列生成模型Auxiliary Classifier Wasserstein TimeGAN with Gradient Penalty（AC-TimeGAN-GP），在保护用户隐私的同时，实现数据价值属性的流通。相比于传统的TimeGAN模型，本文提出的模型同时通过引入Wasserstein距离和ACGAN的辅助分类器，提高模型的稳定性和数据的质量，从而能够更好地处理和生成复杂的时间序列数据。

这种改进的模型可以更有效地处理复杂的真实世界时间序列数据。在家庭智能电表数据中，AC-WGAN-GP能够模拟和生成符合实际社会人口统计特征的能源使用模式的高质量合成数据，从而在能源需求预测、用户行为分析等方面提供洞察。

研究内容

2023-11-02 组会报告摘要-01

本次组会将会对上次组会所介绍的《基于TIME-ACGAN模型的电力时序数据生成研究》的技术线路进行介绍。

科研背景

科研问题

然而，当前用户数据在流通与使用中不断创造价值的同时，用户个人信息面临着严重的隐私泄露挑战。在智能电网领域，电力用户需要面对智能电表等监测设备给个人带来的隐私风险。

这一矛盾中的一个潜在解决方案是使用GAN网络来生成用户用电时序数据，这样可以在不暴露用户真实数据的前提下，释放数据的价值属性。但vanilla GAN网络在生成电力时序数据时，存在训练不稳定、无法准确捕捉时序特征、无辅助标签进行训练等问题。

科研目的

提出一种基于生成对抗网络（Generative Adversarial Network，GAN）的时间序列生成模型，在保护用户隐私的同时，实现数据价值属性的流通。相比于传统的GAN模型，本文提出的模型能够更好的控制生成的数据类别，更好的提取电力时序数据的时序特征（temporal dynamics）。

研究内容

提出的Time-ACGAN的结构如图所示，其组成部分结构等将在组会中进行详细介绍。

评估方法

评估方法如下图所示，具体内容将在组会中进行介绍。