2024-12-05 组会摘要01

模型的解释分事前解释和事后解释,之前的方法基于事前的解释性。我们希望能理解的性能最高的模型通常可能不是具备内在可解释架构的。在这种情况下,我们必须依赖事后可解释性方法。介绍了两种事后可解释性方法,并列举了一些关于机制可解释性和基于概念的可解释性的经典论文。