论文笔记:Blue Elephants Inspecting Pandas: Inspection and Execution of Machine Learning Pipelines in SQL[EDBT2022]
这篇工作是对MLinspect的拓展。主要思路也是对于数据预处理过程中的分布偏移进行检测,不过与MLinspect不同的是,这篇工作把原来由pandas和sklearn执行的预处理算子转换为sql语句,利用数据库的性能优化这些操作的执行时间。具体实现思路是通过python的monkey patch把pipeline中的每一算子转换为sql中的一个视图或cte,然后下放到数据库中去执行,算子执行前后的偏移检测也翻译成sql语句。目前实现支持转化为sql语句的预处理算子有大部分pandas中的关系代数算子以及sklearn中的SimpleImputer,One-Hot-Encoder,Standard Scaler,KBins Discretizer,Binarize等。实验结果表示在数据集较小的时候sql执行是不如python执行的,但当数据集tuples超过10000时sql执行要显著优于python。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 摆烂仙人!