888840金光佛论坛
干货Spark大数据分析(一):Spark大数据基础
发表时间:2019-10-16

  【摘要】随着移动互联网的发展,互联所产生的数据也在爆发式地增长,而这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,Spark大数据基础,在移动互联网时代很重要,这种个体之间的关系也必然成为很重要一部分。我们来讲讲Spark大数据基础。

  Spark是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark扩展了广泛使用的MapReduce 计算模型,而且高效地支持更多计算模 式,包括交互式查询和流处理。

  总的来说,Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、 迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析 过程中是很有意义的。

  不仅如此,镇平ZBA篮球赛暨首届体育摄影展在龙源社区篮球,Spark 的这种特性还大大减轻了原先需要对各种平台分 别管理的负担。

  Spark 所提供的接口非常丰富。除了提供基于 Python、Java、Scala 和 SQL 的简单易用的 API 以及内建的丰富的程序库以外,Spark 还能和其他大数据工具密切配合使用。例如,Spark 可以运行在 Hadoop 集群上,访问包括 Cassandra 在内的任意 Hadoop 数据源。

  Spark 项目包含多个紧密集成的组件。Spark 的核心是一个对由很多计算任务组成的、运行 在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。由于 Spark 的核心引擎有着速度快和通用的特点,因此 Spark 还支持为各种不同应用场景专门 设计的高级组件,比如 SQL 和机器学习等。卓越万科翡翠山晓这个楼盘怎么样2019-10-14,这些组件关系密切并且可以相互调用,这样你 就可以像在平常软件项目中使用程序库那样,组合使用这些的组件。

  Spark SQL:提供SQL处理能力,便于熟悉关系型数据库操作的工程师进行交互查询。

  MLlib:提供机器学习相关的统计、分类、回归、聚类等领域的多种算法实现。



友情链接:
Copyright 2018-2021 金光佛论坛111153 版权所有,未经授权,禁止转载。