主要思路是把ML pipeline转化为SQL,下推到数据库中直接执行,但是目前只实现了部分预处理算子和模型(线性模型和树模型)。主要的处理思路也是对pipeline的DAG进行分析,提取出其中每个操作算子的参数,然后以此将操作算子转化为对应的sql语句,具体实现利用了select和case语句的嵌套查询。

但是与之前相关工作不同的是,作者提出了一个新的场景:如果特征化操作产生了大量的特征列,此时已经超过了数据库表的列的上限。对此,作者的解决方案将特征列存入(identifier, attribute_name, attribute_value)的三元组表,即将列数转化为行数,从而解决了列数的限制。在实验部分,作者也得出一些结论,比如文本特征提取和神经网络模型并不适合转化为sql执行,线性模型比树模型更适合转化为sql执行等。