揭秘腾讯大数据平台与推荐应用架构

jopen 10年前

内容简介:

  • 腾讯的月活跃用户8.3亿
  • 微信月活跃用户4.4亿
  • QQ空间月活跃用户6.5亿
  • 游戏月活跃用户过亿

如今腾讯的数据分析已经能做到始终“不落地”,即全部的实时处理。腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和 Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实时计算,TPR负责精准推荐,TDBank则作为统一的数据采集入口,而底层的 Gaia则负责整个集群的资源调度和管理。李勇还特别强调了数据平台体系化是应用基础,数据应用商业化是价值导向。

数据平台体系化是应用基础,数据应用商业化是价值导向。

腾讯深度学习平台的挑战

深度神经网络模型复杂,训练数据多,计算量大

  • 模型复杂:人脑有100多亿个神经细胞,因此DNN的神经元和权重多
  • 训练数据多:大量训练数据才能训练出复杂模型
  •  微信语音识别:数万个神经元,超过50,000,000参数,超过4,000,000,000样本,单机训练耗时以年计,流行的GPU卡需数周

深度神经网络需要支持大模型

  •  更深更宽的网络能获得更好的结果
  •  以图像识别为例,增加卷积层的filter数量,加大模型深度等,可获得更好的模型质量

 深度神经网络训练中超参数多,需要反复多次实验

  •  非线性模型:代价函数非凸,容易收敛到局部最优解
  •  敏感的超参数:模型结构、输入数据处理方式、权重初始化方案、参数配置、激活函数选择、权重优化方法等
  • 数学基础研究稍显不足,倚重技巧和经验

腾讯深度学习平台Mariana

 腾讯有广泛的深度学习应用需求,其挑战如下

  •  模型复杂,训练数据多,计算量大
  •  需要支持大模型
  • 训练中超参数多,需要反复多次实验

 Mariana腾讯深度学习平台提供三个框架解决上述问题

  •  Mariana DNN: 深度神经网络的GPU数据并行框架
  •  Mariana CNN: 深度卷积神经网络的GPU数据并行和模型并行框架
  • Mariana Cluster: 深度神经网络的CPU集群框架

 Mariana已支持了训练加速、大模型和方便的训练作业

  •  微信语音识别6 GPU做到4.6倍加速比
  • 微信图像识别4 GPU做到2.5倍加速比,并支持大模型

 Mariana已成功应用到微信语音识别和微信图像识别,并在广点通广告推荐的点击率预估中积极尝试

揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构

揭秘腾讯大数据平台与推荐应用架构

揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构 揭秘腾讯大数据平台与推荐应用架构

演讲视频查看>>>


来自36大数据(36dsj.com):36大数据