[原]基于RStudio Webinars的R语言教程汇总
来自: https://segmentfault.com/a/1190000004506149
概述
本文根据 Rstudio Webinars 的教程资源对Rstudio流的R语言教程做一个汇总,可以看到Rstudio对统计报告的Web化和工程化做了大量贡献。感谢Rstudio的众多工程师在开源的道路上的贡献!
谢溢辉:LaTex/Word的统计报告大逃亡之Rmarkdown生态
在可交互、可复用的统计报告中,谢溢辉将介绍一众R包,包括 knitr、rmarkdown、htmlwidgets、DT、leaflet以及shiny。
快速标准的论文书写
# $something$ 或者 $$something$$ 可以解决数学公式的问题 # 利用 bib 文件和[@something] 可以解决引用的问题 # 同样的,你也可以根据一些机构要求引入标准的模板。
屏蔽源码
# ```{r echo=F}屏蔽源代码 # ```{r, fig.width=5, fig.height=4} 设置配图大小 # 脚注
代码段内存共享
-
利用 cache 选项复用代码和数据
Sys.sleep(5) rnorm(1)
输出其他语言代码
-
利用 engine 选项选择代码引擎,驱动python、R、scala、Rcpp、bash、perl、node等
x = 'hello, python world!' print(x) print(x.split(' '))
交互式文档
-
利用 yaml 配置中的 runtime 选项
--- author: Harry Zhu output: html_document runtime: shiny ---
同理,你也可以选择输出slide、pdf或者word,你甚至可以给html定制一个css皮肤。
Hadley Wickham:R与大数据共舞
R是一门为小数据探索和开发设计的语言,但在生产中R和大数据在一起还能发挥作用吗? 我们定义数据量大于单机内存的数据为大数据。让我们对比一下大数据与小数据的生命周期。
一个小数据分析项目的生命周期:
-
阐明:熟悉数据、模板解决方案
-
开发:创建有效模型
-
产品化:自动化与集成
-
发布:社会化
一个大数据分析项目的生命周期:
-
切片:抽取部分数据
-
阐明:熟悉数据、模板解决方案
-
开发:创建有效模型
-
扩展:使用到整个数据集
-
产品化:自动化与集成
-
发布:社会化
dplyr与数据读取
Package | DBMS | |
---|---|---|
src_sqlite() | SQLite | |
src_mysql | MySQL | |
src_postgres | PostgreSQL | |
library(bigquery) src_bigquery() | Google BigQuery |
显示SQL
show_query(clean)
中间缓存
collapse() 返回正在处理的结果
# 抽取 1% 的训练数据 random <- clean %>% mutate(x = random()) %>% collapse() %>% filter(x <= 0.01) %>% select(-x) %>% collect()
数据存储
copy_to() 根据本地的data frame 在数据库创建一个表
# air为connection名称,query5为data frame,"gains"为表名 copy_to(air, query5, name = "gains") # 关闭连接 rm(air) # 垃圾收集器 gc()
Hadley Wickham:ETL
本节将讨论一个有效的数据分析/数据科学问题框架,包括:
-
数据读取 readr / httr / DBI
-
数据清洗 tidyr / jsonlite
-
数据处理 dplyr / rlist
-
数据可视化 ggplot2 / ggvis
-
数据建模 broom
broom:快速分析
install.packages("broom") # 查看相关例子 browseVignettes(package="broom")
Hadley Wickham是RStudio的首席科学家,并兼任统计莱斯大学的兼职教授。他将一一介绍他认为你应该知道的各种R包,并概述大数据和R,但主要是解释为什么他相信你不应该担心大数据的问题。
garrettgman:packrat与虚拟化技术
你是否有过这样与人合作开发的经历:在自己机器上运行完美的R代码,复制到另外一台同事的机器上运行就有很多R包需要重新安装,有的R包甚至依赖于不同的版本?现在,在不使用Docker或Vagrant等全局虚拟化技术的条件下,只需要运用packrat包,就可以保证你的R项目的依赖问题被很好的解决,一次运行,到处运行。
if(!require(packrat)){install.packages("packrat")} getOption("repos") # 显示代码镜像源 packrat:: bundle() # 打包当前环境并虚拟化 packrat:: unbundle(bundle="xxx.tar.gz",where=".") # 加载已经打包过的环境 packrat::opts$local.repos("~/R") # 设置本地repos为路径 packrat::install_local("pryr") # 从本地安装
Hadley Wickham:Git与团队协作
团队协作:利用Git 和 GitHub,你可以很轻松的与人协作,你不再需要用邮件附件来备份文档,或者在Dropbox上为争夺编辑权限而争吵。相反,你可以独立工作,最后只需要合并你们的成果就可以。
版本控制: Git 在我们制造重大错误时都允许我们回滚到之前的任意时间点。我们也可以回顾我们之前所做的一起历史记录,跟踪bug的形成过程。
</div>