1、训练节点自适应调度
大规模分布式机器学习的生产环境具有高度异构性,为实现效率最大化,需从系统吞吐量和算法收敛性两个方向优化。然而两个方向间的关系难以建模且需要动态权衡以取得最优,故需结合分布式系统与网络通信设计匹配机器学习特性的动态自适应调度协议。
2、参数传输动态聚合
随着算力的提升和数据量增大,大规模分布式机器学习系统内的参数模型通信逐渐成为瓶颈。为解决高维度、大数据的挑战,通过可编程交换机和智能网卡在网络传输中间层进行数据聚合压缩等预处理,将部分计算卸载到网络中,以减少数据通信压力和节点计算负载从而提高整体系统吞吐量。
3、在线订单分配
网约车在线订单派发问题存在诸多值得研究的优化点:从平台收益角度出发,需要最大化司机和平台收益;从用户体验角度出发,需要最小化接驾距离;而同时考虑两者就需要一个合理的权衡。基于网约车平台历史数据,我们可以挖掘历史数据订单分布规律,在线优化订单分配问题。
4、双十一消息分配
在双十一购物节前夕每家店铺对用户进行广告宣传,主要宣传方式之一是通过淘宝上的专属客服有针对性地对淘宝用户发送用户可能产生兴趣并转化为购买欲望的推送消息。对于消息推送问题存在诸多值得研究的优化点:从店家推送消息角度出发,推送出去的消息尽量发送给目标用户群体,且推送的消息越多越好;从消费者角度出发,推送到的购物消息应该是自己感兴趣的,且如果接受到的推送消息过多容易引起反感。因此大规模在线消息分配算法至关重要,我们致力于研究和改进费用缩放阻塞流算法解决问题。