用Python做机器学习不得不收藏的重要库
jopen 6年前
<p style="text-align: center;"><a href="/misc/goto?guid=4958532088171536400" title="Python"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/b83ea5eff6a00f09590e11f864f980a7.gif" /></a></p> <p style="text-align: center;"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/c6e372c8e64f30d92ec55bbd637f67ee.jpg" /></p> <p>Python 通常被应用统计技术或者数据分析人员当做工作中的首选语言。数据科学家也会用 python 作为连接自身工作与 WEB 应用程序/生产环境集成中。</p> <p>Python 在机器学习领域非常出色。它具有一致的语法、更短的开发时间和灵活性,非常适合开发能够直接插入生产系统的复杂模型和预测引擎。</p> <p>Python 的一个最大的资产是其广泛的库。</p> <p>库是一组用给定语言编写的程序和功能的集合。一组健壮的库可以使开发人员更容易执行复杂的任务,而无需重写许多代码。</p> <p>机器学习很大程度上是基于数学。具体来说就是数学优化、统计和概率。Python 库帮助那些不具备开发人员知识的研究人员/数学家轻松地“进行机器学习”。</p> <p>以下是机器学习中最常用的一些库:</p> <p><strong><strong>Scikit-learn 经典的 ML 算法</strong></strong></p> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/89a6dee40425172b94d20af66e5c5085.png" /></p> <p>Scikit-learn 是最流行的 ML 库之一,他支持很多监督学习和非监督学习算法。例如:线性回归,逻辑回归,决策树,聚类 ,k-means 等。</p> <p>他基于两个 python 库:Numpy 和 Scipy 。 他为常见的机器学习和数据挖掘提供了一组算法:聚类,回归和分类。甚至像数据转换,特征选择,集成学习这样的任务也可与通过简短几行代码实现。</p> <p>对于机器学习的新手来说,Scikit-learn 是一个够用的工具,直到你自己开始实现更复杂的算法。</p> <p><strong><strong>Tensorflow for Deep Learning 深度学习</strong></strong></p> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/23ff477c70bbb89d11827fbd7585e090.png" /></p> <p>如果你在机器学习的世界里,你可能听过,尝试过或者实现过某种形式的深度学习的算法。但是他们是必要的吗?回答可能是不必要。但是完成他们后感觉很酷对吗? 回答是:对的!酷毙了。</p> <p>Tensorflow 有趣的地方在于,当你使用 python 编写代码,你可以编译和运行在你的 CPU 或者 GPU 上,而且你不需要写 c++ 或者 CUDA 的代码,就可以运行在 GPUs 集群上。</p> <p>他使用一个多层节点的系统,允许你快速的简历,训练,部署具有大量数据集的人工神经网络。这让谷歌能够识别照片中的物体,通过语音识别程序理解在口语中的单词。</p> <p><strong><strong>Theano is also for Deep Learning</strong></strong></p> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/adf9eec34f4377fc9456f772b68897c9.png" /></p> <p>Theano 是另一个用于数值计算的优秀类库,有点类似于 Numpy。Theano 允许你高效的定义,优化和评估涉及多维数组的数学表达式。</p> <p>使 Theano 与众不同的是它利用了计算机的 GPU。这使得它能够比单独在 CPU 上运行时快 100 倍进行数据密集型计算。Theano 的速度使得它对于深度学习和其他复杂的计算任务特别有价值。</p> <p>Theano 库的最终发布是在去年——2017 年,版本 1.0.0 包含了许多新特性、界面更改和改进。</p> <p><strong><strong>Pandas 数据提取与预处理</strong></strong></p> <p>panda 是一个非常流行的库,它提供了简单易用且直观的高级数据结构。</p> <p>它有许多内建的方法来分组、组合数据和过滤以及执行时间序列分析。</p> <p>panda 可以轻松地从 SQL 数据库、CSV、Excel、JSON 文件等不同来源获取数据,并对数据进行操作。图书馆有两个主要结构:</p> <ul> <li> <p>Series“级数”---- 一维 。</p> </li> </ul> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/a893fb4594b452529e137368d9ccbb21.png" /></p> <ul> <li> <p>Data Frames“数据帧”---- 二维。</p> </li> </ul> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/31f6f73bb674c9a361c1389b02b13ca5.png" /></p> <p>如果想得知关于如何使用序列和数据看框架的更多细节,请查看的我的其他文章。</p> <p><strong>Matplotlib 用于数据可视化</strong></p> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/7c7c1e79320a6e3ab6ab48eada036a6e.jpg" /></p> <p>如果你不能很好的与其他人交流,那么最好的,最复杂的机器学习就显得没有意义。</p> <p>那么如何从这些数据中转换出价值呢?你如何激励你的业务分析师,告诉他们充满“洞察力”的“故事”?</p> <p>这就是 Matplotlib 发挥作用的地方。它是每个数据科学家用于创建 2D 图形和图形的标准 Python 库。它是命令行简单,这意味着它需要更多的命令来生成好看的图形和数字,而不是使用一些高级库。</p> <p>然而,这也带来了灵活性。有了足够的命令,您可以使用 Matplotlib 制作任何您想要的图形。您可以构建不同的图表,从直方图和散点图到非笛卡尔坐标图。</p> <p>它支持所有操作系统上的不同 GUI 后端,还可以将图形导出到通用矢量和图形格式,如 PDF、SVG、JPG、PNG、BMP、GIF 等。</p> <p><strong><strong>Seaborn 是另一个数据可视化库</strong></strong></p> <p style="text-align:center"><img alt="用Python做机器学习不得不收藏的重要库" src="https://simg.open-open.com/show/01c997aa7bac1013ab1e74de6eaff248.jpg" /></p> <p>Seaborn 是一个流行的可视化库,它建立在 Matplotlib 的基础之上。它是一个高级库,这意味着更容易生成某些类型的图,包括热图、时间序列和小提琴图。</p> <p><strong><strong>最后</strong></strong></p> <p>这是机器学习中最重要的 Python 库的集合。如果您打算使用 Python 和数据科学,那么这些库是值得一看的,同时也值得您熟悉。</p> <p>我是否错过了任何重要的 Python ML 库?如果是,请务必在下面的评论中提到它。尽管我试图介绍最有用的库,但可能仍然没有介绍其他一些值得研究的库。</p> <p>问题或建议吗?我很想听听你的意见——请随意留言。</p> <p>来自: <a href="/misc/goto?guid=5047997864662702361" id="link_source2">雷锋网</a></p>