研发多个针对表数据的自动机器学习算法并产品化,显著提升了自动机器学习建模效果;参与设计开发了第四范式独有的大规模分布式机器学习框架。参与举办了 KDD Cup 2019 和世界人工智能大会 AutoNLP 赛题。多次获得数据挖掘竞赛第一名,是国内首届迁移学习算法大赛冠军。在 KDD/ACL/EMNLP 上发表文章,并申请十几项国内外专利。
研发多个针对表数据的自动机器学习算法并产品化,显著提升了自动机器学习建模效果;参与设计开发了第四范式独有的大规模分布式机器学习框架。参与举办了 KDD Cup 2019 和世界人工智能大会 AutoNLP 赛题。多次获得数据挖掘竞赛第一名,是国内首届迁移学习算法大赛冠军。在 KDD/ACL/EMNLP 上发表文章,并申请十几项国内外专利。
在诸如推荐系统,在线广告,金融反欺诈等机器学习应用中,数据集可以跨越多个相关表来显示事件的时间安排。而传统方法则需要专家们通过繁琐的手法来获取有意义的特征。我们提出基于多表自动机器学习算法,能够自动发现表间关系来自动进行特征合成。在没有域信息的情况下,多表自动机器学习算法,能够自动生成有用的时序特征和跨表格有效拼接与聚合特征。并且在规定时限和资源消耗下,自动选择最佳的机器学习模型。凭借创新性的多表 AutoML 技术,我们能够产生更加高效的、实用的、端到端的自动机器学习方案。
演讲提纲:
听众受益点: