论文笔记:Magpie: Python at Speed and Scale using Cloud Backends[CIDR2021]
这篇工作主要关于如何在拥有同时拥有多个数据库执行引擎的云场景中优化执行pandas操作。他把pandas急切执行操作转化为懒执行操作,然后将其分析转化成统一中间表示的逻辑查询语法树,把整个计划转化成查询语句下推到数据库中执行,而对于那些不能在数据库中实现的操作算子,就将其转化成python udf。考虑到优化是在拥有多种引擎的云场景中进行的,他还训练了一个决策树模型用于辅助判断对于不同类型的数据集和操作该选择哪种引擎去执行,并且将中间结果数据集利用apache arrow格式表示,以统一不同引擎的执行结果。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 摆烂仙人!