论文笔记：Blue Elephants Inspecting Pandas: Inspection and Execution of Machine Learning Pipelines in SQL[EDBT2022]

这篇工作是对MLinspect的拓展。主要思路也是对于数据预处理过程中的分布偏移进行检测，不过与MLinspect不同的是，这篇工作把原来由pandas和sklearn执行的预处理算子转换为sql语句，利用数据库的性能优化这些操作的执行时间。具体实现思路是通过python的monkey patch把pipeline中的每一算子转换为sql中的一个视图或cte，然后下放到数据库中去执行，算子执行前后的偏移检测也翻译成sql语句。目前实现支持转化为sql语句的预处理算子有大部分pandas中的关系代数算子以及sklearn中的SimpleImputer，One-Hot-Encoder，Standard Scaler，KBins Discretizer，Binarize等。实验结果表示在数据集较小的时候sql执行是不如python执行的，但当数据集tuples超过10000时sql执行要显著优于python。