在百度，Spark，Hadoop，Hive ，哪个更好？

编辑：005 时间：2020-09-10

众所周知，大数据开发和分析、机器学习、数据挖掘中，都离不开各种开源分布式系统。最常见的就是 Hadoop、Hive、Spark这三个框架了。最近不少朋友有问到关于这些的问题：

大厂里还有在用 Hadoop 吗？感觉都在用 Spark，有些慌！

SQL boy 大厂面试都问什么？Hadoop、Spark、Flink 都搞过！

听说百度只用 Hadoop，为什么不用业界都在用的 Spark !

为什么百度不用SQL支持数据处理，还在写一堆 Hadoop 脚本！

Java 开发需要对大数据了解多少，Hbase、Hive、Spark 这些吗？

不同的业务场景决定了不同的系统架构选型。Hadoop 用于分布式存储和 Map-Reduce 计算，Spark 用于分布式机器学习，Hive 则是分布式数据库。Hive 和 Spark 是大数据领域内为不同目的而构建的不同产品。二者都有不可替代的优势。Hive 是一个基于Hadoop 的分布式数据库，Spark 则是一个用于数据分析的框架。

这就要求技术人不得不掌握各种开源的技术框架。这就会造成顾此失彼，学完易忘、易混淆的情况。为了解决这个问题，这里推荐给大家一个高效学习和开发的宝藏：一份大数据/分布式开发速查表。内容涵盖：Spark、Hadoop 及 Hive 等日常工作中几乎所有的技术知识点。

对比详细却冗长的技术文档，速查表要显得更加便捷与直观。可以帮大家很轻松的从上面找到具体某项技术的快捷命令与语法，相信能大幅提升开发效率，同时，一些遗忘的知识点也都能通过速查表来快速获取。

由于篇幅原因，下面只展示了速查表的部分内容。无论你是学习进阶，还是日后温习，这套速查表资料都值得好好珍藏。

1.大数据内存计算框架之

Spark 必知必会

学习 Spark ，从大方向说，算子大致可以分为以下两类：
（1）Transformation 变换 / 转换算子：这种变换并不触发提交作业，这种算子是延迟执行的，也就是说从一个 RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发。
（2）Action 行动算子：这类算子会触发 SparkContext 提交 job 作业，并将数据输出到 Spark 系统。

Spark 必知必会：Transformation 算子

Spark 必知必会：Action算子

2.大数据分布式文件系统之

Hadoop 必知必会

内容包括：Hadoop Shell ，HDFS 命令有 hadoop fs 和 hdfs dfs 两种风格，都可使用，效果相同。

Hadoop 必知必会：Hadoop Shell

3.大数据分布式数据库之

Hive 必知必会

Hive 的本质是将 SQL 语句转换为 MapReduce 或者 spark 等任务执行，并可以针对数据仓库进行分布式交互查询。内容包括：Hive 内置函数速查表，具体有关系、数学及逻辑运算符、数值计算、日期函数、条件函数、字符串函数、聚合函数、高级函数及窗口函数等。

Hive 必知必会：关系运算符

Hive 必知必会：数值计算

Hive 必知必会：字符串函数

本内容属于网络转载，文中涉及图片等内容如有侵权，请联系编辑删除

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

上一篇：为什么MySQL不推荐使用uuid或者雪花id作为主键？

回复列表

在百度，Spark，Hadoop，Hive ，哪个更好？

400-692-8081