0推荐
34K 浏览

开源:XXL-JOB-分布式任务调度平台

XXL-JOB是一个轻量级分布式任务调度框架,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。
0推荐
13K 浏览

用大白话聊聊分布式系统

一提起“分布式系统”,大家的第一感觉就是好高大上啊,深不可测,看各类大牛关于分布式系统的演讲或者书籍,也大多是一脸懵逼。本文期望用浅显易懂的大白话来就什么是分布式系统、分布式系统有哪些优势、分布...
0推荐
20K 浏览

基于Pandas+ECharts的金融大数据可视化实现方案

最近无意中看到一篇文章,介绍的是在IPython Notebook里实现ECharts的可视化效果。我个人对ECharts一直是推崇有加,是baidu发布的开源项目中我比较喜欢的一个,绝对是良心...
0推荐
18K 浏览

30分钟概览Spark分布式计算引擎

本文主要帮助初学者快速了解Spark,不会面面俱到,但核心一定点到。
0推荐
11K 浏览

图数据库——大数据时代的高铁

众多不同的数据模型里,关系数据模型自20世纪80年代就处于统治地位,而且出现了不少巨头,如Oracle、MySQL和MSSQL,它们也被称为关系数据库管理系统(RDBMS)。然而,随着关系数据库...
0推荐
16K 浏览

Dubbo的一次体验与分析

Dubbo是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,以及SOA服务治理方案;
0推荐
17K 浏览

扛住 100 亿次请求?我们来试一试

扛住100亿次请求?我们来试一试 1. 前言 前几天,偶然看到了 《扛住100亿次请求——如何做一个“有把握”的春晚红包系统”》( url )一文,看完以后,感慨良多,收益很多。正所谓他山之石,...
0推荐
7K 浏览

坑:缓存 + 哈希 = 高并发?

当前互联网时代,怎么少的了 高并发 呢? 高并发 和 高可用 一样, 已经变成各个系统的标配了,如果你的系统QPS没有个大几千上万,都不好意思跟人打招呼,虽然可能每天的调用量不超过100。
0推荐
8K 浏览

大数据技术文章合集

【数据虫巢】大数据技术文章合集 一、挖掘机系列 要说起雾霾,那到底是不是北京的醇厚? 2016-12-21 用数据挖一挖豆瓣5.3的《长城》,水军力量到底有多强大 2016-12-19 数据化政...
0推荐
13K 浏览

Facebook官方详解:使用Apache Spark进行大型语言模型训练

Apache Spark 是用于大规模数据处理的快速和通用引擎,它运行在 Hadoop,Mesos,可以离线或云端运行,具有高速、可扩展等特点。近年来,在 IBM 等大公司和众多社区贡献者的推动...
0推荐
12K 浏览

英特尔推出用于Apache Spark的深度学习库

英特尔今天宣布推出开源 BigDL,一个用于 Apache Spark 开源集群计算框架的分布式深度学习库。
0推荐
9K 浏览

Reddit如何使用Memcached来存储3TB的缓存数据

Reddit 是著名的社交新闻网站,光是在2012年,它的独立访客就达到了4000万,页面浏览量达到了370亿次。几年过去了,网站用户有增无减,而随着用户的增多,网站的响应速度却一直在改进。这要...
0推荐
21K 浏览

Apache Beam:一个开源的统一的分布式数据处理编程库

Apache Beam是一个开源的数据处理编程库,由Google共享给Apache的项目,前不久刚刚成为Apache TLP项目。它提供了一个高级的、统一的编程模型,允许我们通过构建Pipeli...
0推荐
12K 浏览

Apache Flink 容错机制

Apache Flink 提供了可以恢复数据流应用到一致状态的容错机制。确保在发生故障时,程序的每条记录只会作用于状态一次(exactly-once),当然也可以降级为至少一次(at-least-once)。
0推荐
32K 浏览

大数据挖掘更多时间都在于清洗数据

很多初学的朋友对大数据挖掘第一直观的印象,都只是业务模型,以及组成模型背后的各种算法原理。往往忽视了整个业务场景建模过程中,看似最普通,却又最精髓的特征数据清洗。可谓是平平无奇,却又一掌定乾坤,...
0推荐
12K 浏览

Fregata: Spark上支持万亿维机器学习模型

大规模机器学习工程上最大的挑战是模型的规模。在计算广告,推荐系统的场景下,运用Logistic Regression算法时常需要做特征交叉。原来两组,三组特征的数量可能并不是太大,但是通过交叉后...
0推荐
14K 浏览

秒杀抢购思路以及高并发下数据安全

我们通常衡量一个Web系统的吞吐率的指标是QPS(Query Per Second,每秒处理请求数),解决每秒数万次的高并发场景,这个指标非常关键。举个例子,我们假设处理一个业务请求平均响应时间...
0推荐
8K 浏览

微信PaxosStore内存篇:十亿Paxos/分钟的挑战

微信存储QuorumKV是一个分布式的存储系统,覆盖但不限于微信后台核心业务:账号/用户信息/关系链/朋友圈,等等。
0推荐
8K 浏览

SyncSpout:用来构造可交互的、同步的 Storm 拓扑的组件

SyncSpout是上海华瑞银行(SHRB)大数据团队开发的,用来构造可交互的、同步的Storm拓扑的组件。我们在做实时推荐系统中,希望将Storm的并发性和分布式计算能力应用到“请求-响应”范...
0推荐
10K 浏览

SyncSpout:用来构造可交互的、同步的 Storm 拓扑的组件

SyncSpout是上海华瑞银行(SHRB)大数据团队开发的,用来构造可交互的、同步的Storm拓扑的组件。我们在做实时推荐系统中,希望将Storm的并发性和分布式计算能力应用到“请求-响应”范...
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档