hive on spark

news/2024/9/23 17:14:36

1 Hive的执行引擎

Hive:专业的数仓软件,可以高效的读写和管理数据集。  

Hive的运行原理:

  ① hive主要是写HQL的 (类SQL,相似度90%,剩下的10%就是HQL里面一些独有的语法)

  ② 写的HQL会根据不同的计算引擎翻译成不同的代码

 

2 数仓搭建技术选型

Spark On Hive:基于Hive的Spark (spark里面内置hive)【效率高一点点 1.5倍】

Hive On Spark:基于Spark的Hive (用的软件是Hive,相当于Spark是Hive运行的必要条件) 【主流】

两者的执行效率还是有区别的

 

3 Hive On Spark原理

Hive安装到哪?

Hive是客户端

  只要机器上有Hadoop的客户端,就可以在上面装Hive

  因为它要用到Hadoop的一些命令

 

Spark也是客户端

  Spark需要追随Hive,所以它们两要安装在同一台机器上

 

Hive通过spark的环境变量SPARK_HOME去找到SparkJarS配置文件

  SPARK_HOME需要只想spark当前所安装的目录

 

如果提交程序到yarn,但是yarn是分布式运算,executor可能分配到yarn上任意一台机器

如果分配到102上,但是我们spark安装在103上,这时候102是没有jar包的

所以就需要配置变量 spark.yarn.jars,这个变量需要指向HDFS的目录

  这个目录里面需要放spark里面的所有jar包(放入到HDFS上)

这是yarn上的app会自动读取这个变量,找到HDFS,将jar包下载下来

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/31168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

Windows computer File share Settings

1. Search for "Manage advanced sharing settings" in the Windows lower left corner and click the result. As shown below ①, ② 2.Then select the two items in the pop-up page, as shown in the figure ③ 3.Then search for "Turn Windows feature…

2024 AI中转计费平台系统源码

简介:2024 AI中转计费平台系统源码 图片: 点击下载

使用joinjs绘制流程图(八)-实战-绘制流程图+节点路径自定义

效果图代码 <template><div class="app"><div ref="myholder" id="paper"></div></div> </template><script> import * as joint from @joint/core import $ from jquery export default {data() {re…

什么是数据中心?有哪些类型?如何工作?

数据中心是一种物理设施,提供操作程序的计算能力,处理信息的存储,以及将人们连接到执行任务和支持企业运营所需的资源的网络。一、什么是数据中心? 数据中心是一个房间、一座建筑物或一组建筑物,用于容纳后端计算机系统,设有用户界面和冷却能力、物理安全、网络设备等支持…

万事通,专精部分领域的多功能 Transformer 智能体

介绍 我们很高兴分享“万事通”(Jack of All Trades,简称 JAT) 项目,该项目旨在朝着通用智能体的方向发展。该项目最初是作为对 Gato (Reed 等,2022 年) 工作的公开复现启动的,Gato 提出训练一种能够执行视觉与语言以及决策任务的 Transformer。于是我们首先构建了 Gato 数…

WSL常用命令

WSL常用命令 WSL重启WSL中reboot和shutdown都无法使用, 我直接使用win下的WSL命令来实现重启的.wsl --shutdown # 关闭所有wsl wsl -l -v # 检查是否关闭关闭后再启动wsl即可. GUI程序中文字体显示为方块问题错误如下:检查已安装的字体$ fc-list # 若没有此命令,需先安装…

root用户远程登录云服务器失败 No supported authentication methods available (server sent: publickey)

1、平台:亚马逊AWS云、腾讯云服务器、MobaXterm2、问题:云服务器实例远程登录失败,显示:“No supported authentication methods available (server sent: publickey)”翻译:不支持可用的身份验证方法(服务器发送:publickey) 3、解决过程:初步判断:服务器远程登录配置文…

项目冲刺——第七篇Scrum冲刺博客

作业所属课程 所属课程作业要求 作业要求作业目标 总结第六天的敏捷开发,安排好第七天敏捷开发冲刺一、站立式会议 1、会议图片2、昨天已完成的内容成员 任务肖杨、梁丽贤 修改登陆模块的bug黄诃华、欧文杰 完成跨域支持的功能姚佳如、李慧娣 细化测试计划廖莹 协调团队、编写…