如果您想要掌握,甚至只是使用数据分析,那么Python就是最合适的。Python很容易学习,有巨大的深度支持,而且大多数数据科学库和机器学习框架都有Python接口。
在过去的几个月里,一些Python的数据科学项目发布了带有主要功能更新的新版本。有些是关于实际的数字运算;另一些则使Pythonistas更容易编写针对这些工作的快速代码。
数据科学的基本Python工具:SciPy1.0
▏SciPy是什么
想要一个快速而强大的数学库的Python用户可以使用NumPy,但是NumPy本身并不是很专注于任务。SciPy使用NumPy为普通的数学和面向科学的编程任务提供库,从线性代数到统计工作到信号处理。
▏SciPy 1.0如何帮助数据科学
SciPy长期以来一直用于提供方便和广泛使用的工具,用于处理数学和统计数据。但在最长的时间里,它没有适当的1.0版本,尽管它在版本上有很强的向后兼容性。
根据核心开发人员RalfGommers的说法,将SciPy项目引入1.0版本的触发器主要是整合了该项目是如何管理和管理的。但它还包括一个持续集成MacOS和Windows构建的过程,以及对预构建的Windows二进制文件的适当支持。这最后一个功能意味着Windows用户现在可以使用SciPy,而不必跳过额外的障碍。
▏在哪里下载SciPy
SciPy二进制文件可以从Python包索引中下载,或者通过输入pip安装SciPy。源代码在GitHub上可用。
数据科学的基本Python工具:Dask0.15.4
▏什么是Dask
处理能力比以往任何时候都要便宜,但要以最强大的方式来利用它是很困难的——通过在多个CPU核心、物理处理器或计算节点上执行任务。
Dask接受Python作业,并在多个系统中高效地安排它。Dask最有效的方法是,用于启动Dask作业的语法与在Python中使用的语法几乎是一样的,因此它不需要对现有的代码进行再工作。
▏Dask如何帮助数据科学
Dask为许多流行的机器学习和Python的科学计算库提供了它自己的一些接口版本。它的DataFrame对象与熊猫图书馆中的一样;同样,它的数组对象也和NumPy一样有效。通过这种方式,您可以通过只更改几行代码来快速地将现有代码并行化。
Dask还可以用于并行化纯Python编写的作业,并有适合于优化这些类型的作业的对象类型(例如包)。
▏在哪里下载Dask
Dask在Python包索引上可用,可以通过pip安装Dask安装。它也可以通过Python的Anaconda分布提供,通过输入conda安装dask。源代码在GitHub上可用。
数据科学的基本Python工具:Numba0.35.0
▏什么是Numba
Numba允许Python函数或模块通过LLVM编译器框架编译成汇编语言。当Python程序运行时,或者在时间之前,您可以在飞行中执行此操作。从这个意义上讲,Numba就像Cython,但是Numba通常更方便使用,尽管使用Cython加速代码更容易分发给第三方。
▏Numba是如何帮助数据科学的
Numba帮助数据科学家的最明显的方法是使用Python编写的超速操作。您可以在纯Python中原型化项目,然后用Numba对它们进行注释,以足够快地用于生产。
Numba还可以提供在为机器学习和数据科学应用程序构建的硬件上运行更快的速度。Numba的早期版本支持编译为cuda-加速代码,但最近的版本使用了一种新的、更高效的GPU代码简化算法,以更快地编译。
Numba还利用英特尔的贡献,通过并行加速器项目,通过自动将其并行化来加速某些操作。警告:平行加速器的添加仍然是实验性的,所以他们不应该在生产中使用。
▏在哪里下载Numba
Numba在Python包索引上可用,可以通过从命令行中输入pip安装Numba来安装。预构建的二进制文件适用于Windows、MacOS和通用Linux。它也可以作为AnacondaPython发行版的一部分,在那里可以通过输入conda安装numba来安装。源代码在GitHub上可用。
数据科学的基本Python工具:Cython0.27
▏Cython是什么
Cython将现有的Python代码转换为C代码,这些代码的运行速度可以更快。这种转换在最方便的代码中非常有用,或者是在紧凑的循环中运行,在Python程序中,您可以看到很多编写用于工程、科学和机器学习的程序。
▏Cython 0.27如何帮助数据科学
最新版本的Cython扩展了对IPython/Jupyter笔记本的集成支持。Cython编译的代码可以通过内联注释在Jupyter笔记本上使用,就好像Cython代码是其他Python代码一样。
使用Cython0.27,您现在可以通过启用文件引导的优化编译Jupyter的Cythonmodiles。基于此选项构建的模块是基于为它们生成的分析信息而编译和优化的,因此它们运行得更快。请注意,此选项仅适用于与GCC编译器一起使用的Cython;MSVC的支持还没有实现。
▏到哪里去寻Cython
Cython可以在Python包索引上使用,它可以安装在从命令行安装Cython的pip上。32位和64位Windows、通用Linux和MacOS的二进制版本包括在内。源代码在GitHub上。
数据科学的基本Python工具:HPAT
▏什么是HPAT
英特尔的高性能分析工具包(HPAT)是加速数据分析和机器学习的一个实验性项目。它将Python的一个子集编译成代码,使用OpenMPI项目的mpirun实用程序自动地跨集群并行化。
▏HPAT如何帮助数据科学
HPAT使用Numba,但不像那个项目和Cython,它不像那样编译Python。相反,它只需要Python语言的一个受限子集——主要是NumPy数组和熊猫数据——并优化它们在多个节点上运行。
和Numba一样,HPAT也有@jit decorator,可以将特定的功能转换为优化的对应函数。它还包括一个本地I/ O模块,用于读取和写入HDF5(不是HDFS)文件。
在哪里下载HPAT
HPAT只能在GitHub上提供源格式。二进制文件不提供。
原文来自:云技术实践
声明:所有来源为“聚合数据”的内容信息,未经本网许可,不得转载!如对内容有异议或投诉,请与我们联系。邮箱:marketing@think-land.com
支持全球约2.4万个城市地区天气查询,如:天气实况、逐日天气预报、24小时历史天气等
支持识别各类商场、超市及药店的购物小票,包括店名、单号、总金额、消费时间、明细商品名称、单价、数量、金额等信息,可用于商品售卖信息统计、购物中心用户积分兑换及企业内部报销等场景
涉农贷款地址识别,支持对私和对公两种方式。输入地址的行政区划越完整,识别准确度越高。
根据给定的手机号、姓名、身份证、人像图片核验是否一致
通过企业关键词查询企业涉讼详情,如裁判文书、开庭公告、执行公告、失信公告、案件流程等等。