1.你真的底层底层了解Lateral View explode吗?--源码复盘
2.深入源码分析下 HIVE JDBC 的超时机制及其如何配置 socketTimeOut
3.hive.groupby.skewindata及数据倾斜优化
4.mimikatz源码分析-lsadump模块(注册表)
5.Flink深入浅出:JDBC Connector源码分析
6.大数据笔试真题集锦---第五章:Hive面试题
你真的了解Lateral View explode吗?--源码复盘
深入剖析 Lateral View explode,揭开其神秘面纱 长时间与 Lateral View explode 相伴,源码原理却发现对它的底层底层了解尚浅,不禁自问,源码原理是底层底层否真的理解它的全貌? Lateral View 与 UDTF 函数携手,通过 UDTF 对每条输入行产生零到多条输出行,源码原理redis源码 dictLateral View 则在基表的底层底层每条输入行应用 UDTF 后,通过连接结果输出行与输入行生成具有指定表别名的源码原理虚拟表。 在 Hive 源码中,底层底层UDTF 函数继承自 GenericUDTF.java,源码原理共包含八种,底层底层其中最常用的源码原理便是 explode。在面试场合,底层底层如果被问及 Lateral View explode 会不会产生 shuffle,源码原理你是底层底层否能毫不犹豫、确信无疑地给出答案? 让我们一同探讨 Lateral View explode 的底层逻辑。 首先,观察如下 SQL 语句,不需赘述,其目的清晰明了,接下来,我们探视其执行计划。 执行计划揭示了 SQL 经历的两条路径,它们分别是:TableScanOperator:常规读取表操作
LateralViewForwardOperator:处理 Lateral View 的核心步骤,其功能为告知:左侧 SelectOperator 筛选出非 explode 的列(id,sq);右侧 SelectOperator 筛选出 explode 的列(split(sq, ','));右侧 UDTFOperator 负责复杂逻辑,代码内隐含着秘密。
在 GenericUDTFExplode.java 类中,我们能轻易理解 Lateral View explode 的实现原理:输出行中来自 UDTF 的列被设置为 NULL 的情况通过 outer 关键字处理。 为何引入 outer 关键字?当 UDTF 不生成任何行时,如输入列为空,LATERALVIEW 将不产生任何输出行,进而原有行无法出现在结果中。outer 关键字能防止这种情况发生,确保输出行得到正确处理。 通过观察结果,我们能直观理解 LATERALVIEW 如何处理空值情况:当没有值时,返回,不会转发,不进行转发则数据无法传递至下一个算子,因而无法输出。 那么,outer 是如何处理的?UDTF 利用 UDTFCollector 展开结果,并进行转发。 在 LateralViewJoinOperator 中,翼课源码处理逻辑简洁明了,这里的 join 操作实质上是两份数据的连接,并非真正的 join。 在日常工作与 Lateral View explode 相关时,要注意 outer 与不使用 outer 的区别,切勿因小失大,导致数据丢失。 我们不禁思考,为何 hive 设计 Lateral View explode 这样复杂?答案在于解耦,UDTF 可单独使用,也可与 Lateral View 结合,用户甚至可以定制自己的 UDTF。这一切得益于 Hive 灵活的设计理念。 探索 Lateral View explode 的过程,是对自我的一次深刻反思与学习,我们在此道路上不断前行,期待与你共同成长。深入源码分析下 HIVE JDBC 的超时机制及其如何配置 socketTimeOut
深入源码分析下HIVE JDBC的超时机制及其配置方法,首先,从一个常见的问题出发,即当HIVE JDBC连接在操作过程中遇到SocketTimeoutException时,这通常意味着操作超时。接下来,让我们回顾JDBC超时机制的相关参数和接口。
在JDBC中,超时机制主要通过setStatementTimeout和setConnectionTimeout这两个方法实现。setStatementTimeout用于设置SQL语句的超时时间,而setConnectionTimeout用于设置整个连接的超时时间。它们的单位都是毫秒。
在HIVE JDBC中,由于其基于Thrift进行通信,因此对socket级别的超时管理更为复杂。HiveStatement中的thrift socket timeout是通过配置实现的,通过深入源码分析,可以发现thrift socket timeout的值被赋值给HiveStatement实例。当应用程序直接创建和管理HIVE JDBC连接时,需要在创建HiveStatement实例时设置这个属性,以确保socket级别操作的超时时间得到正确配置。
如果应用程序通过数据库连接池进行连接管理,那么配置HiveStatement中的thrift socket timeout的过程会更复杂。通常,需要在连接池的配置中,为HIVE JDBC连接指定socket级别的圈子应用源码超时属性,然后在使用连接时确保HiveStatement实例正确引用了这些配置。
通过以上分析,我们可以总结出在不同场景下配置HIVE JDBC socket级别的超时机制的方法。对于直接管理连接的应用程序,需要在创建HiveStatement实例时直接设置socket timeout属性。而对于使用数据库连接池的应用程序,则需要在连接池的配置阶段为HIVE JDBC连接指定socket级别的超时属性,然后确保在使用连接时HiveStatement实例正确引用了这些配置。
总之,HIVE JDBC的超时机制及其配置方法涉及到多个层面的参数和接口,理解并正确配置它们对于确保应用程序的稳定性和响应速度至关重要。通过源码分析和实践操作,可以实现对HIVE JDBC socket级别的超时管理,从而优化应用程序性能。
hive.groupby.skewindata及数据倾斜优化
一、hive.groupby.skewindata
当数据倾斜出现时,hive.groupby.skewindata功能介入均衡负载。此设置为true时,生成的查询计划包含两个MapReduce任务。第一个任务中,Map端输出结果集合随机分发给Reduce,每个Reduce执行部分聚合操作并输出结果。这样处理后,相同的GroupBy Key可能被分发到不同的Reduce中,实现负载均衡。紧接着的第二个任务,根据预处理数据结果按照GroupBy Key分布到Reduce,最终完成聚合操作。
二、数据倾斜原因分析
数据倾斜常见于Join和Group by操作。Join操作原理:将两个表通过某个共同字段进行连接,形成结果集。Group by操作原理:根据指定字段对数据进行分组,并对每个分组执行聚合计算。
三、数据倾斜解决方案
解决方法一:Join数据倾斜。通过使用MapJoin原理,提高Join操作效率,减轻数据倾斜影响。具体实现可参考相关博文,浅谈Hive中Map Join原理及场景。
解决方法二:Group by数据倾斜。在Map阶段执行部分聚集操作,新人看源码提高效率,但需注意内存使用。开启Map后,使用combiner功能,对于同质数据效果显著。一般推荐设置两个关键参数。另外,设置hive.groupby.skewindata=true也是有效手段。注意,有博文中提到与set hive.map.aggr=true同时使用时可能对distinct结果有影响,但实际测试并未发现此问题。特定情况如有疑问,请随时交流。
参考资源:
1. hive数据倾斜原理与解决方案
2. hive原理与源码分析-算子Operators及查询优化器Optimizers(四)_wzq的专栏-CSDN博客
欢迎学习交流,有任何问题请随时评论指出。
mimikatz源码分析-lsadump模块(注册表)
mimikatz是一款内网渗透中的强大工具,本文将深入分析其lsadump模块中的sam部分,探索如何从注册表获取用户哈希。
首先,简要了解一下Windows注册表hive文件的结构。hive文件结构类似于PE文件,包括文件头和多个节区,每个节区又有节区头和巢室。其中,巢箱由HBASE_BLOCK表示,巢室由BIN和CELL表示,整体结构被称为“储巢”。通过分析hive文件的结构图,可以更直观地理解其内部组织。
在解析过程中,需要关注的关键部分包括块的签名(regf)和节区的签名(hbin)。这些签名对于定位和解析注册表中的数据至关重要。
接下来,深入解析mimikatz的解析流程。在具备sam文件和system文件的情况下,主要分为以下步骤:获取注册表system的句柄、读取计算机名和解密密钥、获取注册表sam的句柄以及读取用户名和用户哈希。若无sam文件和system文件,mimikatz将直接通过官方API读取本地机器的注册表。
在mimikatz中,会定义几个关键结构体,包括用于标识操作的固件和源码注册表对象和内容的结构体(PKULL_M_REGISTRY_HANDLE)以及注册表文件句柄结构体(HKULL_M_REGISTRY_HANDLE)。这些结构体包含了文件映射句柄、映射到调用进程地址空间的位置、巢箱的起始位置以及用于查找子键和子键值的键巢室。
在获取注册表“句柄”后,接下来的任务是获取计算机名和解密密钥。密钥位于HKLM\SYSTEM\ControlSet\Current\Control\LSA,通过查找键值,将其转换为四个字节的密钥数据。利用这个密钥数据,mimikatz能够解析出最终的密钥。
对于sam文件和system文件的操作,主要涉及文件映射到内存的过程,通过Windows API(CreateFileMapping和MapViewOfFile)实现。这些API使得mimikatz能够在不占用大量系统资源的情况下,方便地处理大文件。
在获取了注册表系统和sam的句柄后,mimikatz会进一步解析注册表以获取计算机名和密钥。对于密钥的获取,mimikatz通过遍历注册表项,定位到特定的键值,并通过转换宽字符为字节序列,最终组装出密钥数据。
接着,解析过程继续进行,获取用户名和用户哈希。在解析sam键时,mimikatz首先会获取SID,然后遍历HKLM\SAM\Domains\Account\Users,解析获取用户名及其对应的哈希。解析流程涉及多个步骤,包括定位samKey、获取用户名和用户哈希,以及使用samKey解密哈希数据。
对于samKey的获取,mimikatz需要解密加密的数据,使用syskey作为解密密钥。解密过程根据加密算法(rc4或aes)有所不同,但在最终阶段,mimikatz会调用系统函数对数据进行解密,从而获取用户哈希。
在完成用户哈希的解析后,mimikatz还提供了一个额外的功能:获取SupplementalCreds。这个功能可以解析并解密获取对应用户的SupplementalCredentials属性,包括明文密码及哈希值,为用户提供更全面的哈希信息。
综上所述,mimikatz通过解析注册表,实现了从系统中获取用户哈希的高效功能,为内网渗透提供了强大的工具支持。通过深入理解其解析流程和关键结构体的定义,可以更好地掌握如何利用mimikatz进行深入的安全分析和取证工作。
Flink深入浅出:JDBC Connector源码分析
大数据开发中,数据分析与报表制作是日常工作中最常遇到的任务。通常,我们通过读取Hive数据来进行计算,并将结果保存到数据库中,然后通过前端读取数据库来进行报表展示。然而,使用FlinkSQL可以简化这一过程,通过一个SQL语句即可完成整个ETL流程。
在Flink中,读取Hive数据并将数据写入数据库是常见的需求。本文将重点讲解数据如何写入数据库的过程,包括刷写数据库的机制和原理。
以下是本文将讲解的几个部分,以解答在使用过程中可能产生的疑问:
1. 表的定义
2. 定义的表如何找到具体的实现类(如何自定义第三方sink)
3. 写入数据的机制原理
(本篇基于1..0源码整理而成)
1. 表的定义
Flink官网提供了SQL中定义表的示例,以下以oracle为例:
定义好这样的表后,就可以使用insert into student执行插入操作了。接下来,我们将探讨其中的技术细节。
2. 如何找到实现类
实际上,这一过程涉及到之前分享过的SPI(服务提供者接口),即DriverManager去寻找Driver的过程。在Flink SQL执行时,会通过translate方法将SQL语句转换为对应的Operation,例如insert into xxx中的xxx会转换为CatalogSinkModifyOperation。这个操作会获取表的信息,从而得到Table对象。如果这个Table对象是CatalogTable,则会进入TableFactoryService.find()方法找到对应的实现类。
寻找实现类的过程就是SPI的过程。即通过查找路径下所有TableFactory.class的实现类,加载到内存中。这个SPI的定义位于resources下面的META-INFO下,定义接口以及实现类。
加载到内存后,首先判断是否是TableFactory的实现类,然后检查必要的参数是否满足(如果不满足会抛出异常,很多人在第一次使用Flink SQL注册表时,都会遇到NoMatchingTableFactoryException异常,其实都是因为配置的属性不全或者Jar报不满足找不到对应的TableFactory实现类造成的)。
找到对应的实现类后,调用对应的createTableSink方法就能创建具体的实现类了。
3. 工厂模式+创建者模式,创建TableSink
JDBCTableSourceSinkFactory是JDBC表的具体实现工厂,它实现了stream的sinkfactory。在1..0版本中,它不能在batch模式下使用,但在1.版本中据说会支持。这个类使用了经典的工厂模式,其中createStreamTableSink负责创建真正的Table,基于创建者模式构建JDBCUpsertTableSink。
创建出TableSink之后,就可以使用Flink API,基于DataStream创建一个Sink,并配置对应的并行度。
4. 消费数据写入数据库
在消费数据的过程中,底层基于PreparedStatement进行批量提交。需要注意的是提交的时机和机制。
控制刷写触发的最大数量 'connector.write.flush.max-rows' = ''
控制定时刷写的时间 'connector.write.flush.interval' = '2s'
这两个条件先到先触发,这两个参数都是可以通过with()属性配置的。
JDBCUpsertFunction很简单,主要的工作是包装对应的Format,执行它的open和invoke方法。其中open负责开启连接,invoke方法负责消费每条数据提交。
接下来,我们来看看关键的format.open()方法:
接下来就是消费数据,执行提交了
AppendWriter很简单,只是对PreparedStatement的封装而已
5. 总结
通过研究代码,我们应该了解了以下关键问题:
1. JDBC Sink执行的机制,比如依赖哪些包?(flink-jdbc.jar,这个包提供了JDBCTableSinkFactory的实现)
2. 如何找到对应的实现?基于SPI服务发现,扫描接口实现类,通过属性过滤,最终确定对应的实现类。
3. 底层如何提交记录?目前只支持append模式,底层基于PreparedStatement的addbatch+executeBatch批量提交
4. 数据写入数据库的时机和机制?一方面定时任务定时刷新,另一方面数量超过限制也会触发刷新。
更多Flink内容参考:
大数据笔试真题集锦---第五章:Hive面试题
我会不间断地更新维护,希望对正在寻找大数据工作的朋友们有所帮助。 第五章目录 第五章 Hive 5.1 Hive 运行原理(源码级) 1.1 reduce端join 在reduce端,对两个表的数据分别标记tag,发送数据。根据分区分组规则获取相同key的数据,再根据tag进行join操作,完成实际连接。 1.2 map端join 将小表复制到每个map task的内存中,仅扫描大表,对大表中key在小表中存在时进行join操作。使用DistributedCache.addCacheFile设置小表,通过标准IO获取数据。 1.3 semi join 先将参与join的表1的key复制到表3中,复制多份到各map task,过滤不在新表3的表2数据,最后进行reduce。 5.2 Hive 建表5.3.1 传统方式建表
定义数据类型,如:TINYINT, STRING, TIMESTAMP, DECIMAL。 使用ARRAY, MAP, STRUCT结构。5.3.2 CTAS查询建表
创建表时指定表名、存储格式、数据来源查询语句。 缺点:默认数据类型范围限制。5.3.3 Like建表
通过复制已有表的结构来创建新表。5.4 存储格式和压缩格式
选择ORC+bzip/gzip作为源存储,ORC+Snappy作为中间存储。 分区表单文件不大采用gzip压缩,桶表使用bzip或lzo支持分片压缩。 设置压缩参数,如"orc.compress"="gzip"。5.5 内部表和外部表
外部表使用external关键字和指定HDFS目录创建。 内部表在创建时生成对应目录的文件夹,外部表以指定文件夹为数据源。 内部表删除时删除整个文件夹,外部表仅删除元数据。5.6 分区表和分桶表
分区表按分区字段拆分存储,避免全表查询,提高效率。 动态分区通过设置参数开启,根据字段值决定分区。 分桶表依据分桶字段hash值分组拆分数据。5.7 行转列和列转行
行转列使用split、explode、laterview,列转行使用concat_ws、collect_list/set。5.8 Hive时间函数
from_unixtime、unix_timestamp、to_date、month、weekofyear、quarter、trunc、current_date、date_add、date_sub、datediff。 时间戳支持转换和截断,标准格式为'yyyy-MM-dd HH:mm:ss'。 month函数基于标准格式截断,识别时截取前7位。5.9 Hive 排名函数
row_number、dense_rank、rank。5. Hive 分析函数:Ntile
效果:排序并分桶。 ntile(3) over(partition by A order by B)效果,可用于取前%数据统计。5. Hive 拉链表更新
实现方式和优化策略。5. Hive 排序
order by、order by limit、sort by、sort by limit的原理和应用场景。5. Hive 调优
减少distinct、优化map任务数量、并行度优化、小文件问题解决、存储格式和压缩格式设置。5. Hive和Hbase区别
Hive和Hbase的区别,Hive面向分析、高延迟、结构化,Hbase面向编程、低延迟、非结构化。5. 其他
用过的开窗函数、表join转换原理、sort by和order by的区别、交易表查询示例、登录用户数量查询、动态分区与静态分区的区别。Hive 编程专题之 - 自定义函数 Java 篇
Hive函数分为内置函数与自定义函数,内建函数包括字符、数值、日期与转换等类型。
自定义函数类似于传统商业数据库中的编译函数,如SQL Server中使用C#解决内建函数无法解决的问题,Oracle中则使用Java编写的Jar扩展功能,Hive中的自定义函数同样依赖Jar,提供Java编写程序以处理内置函数无法达到的功能。
使用Java编写Hive自定义函数步骤包括:
1. 常看所有内置与自定义函数。
2. Java或Scala编写自定义函数。
3. 使用Eclipse或其他Java编辑工具生成JAR文件。
4. 将生成的JAR文件放置于HDFS中,Hive即可应用。
5. 使用Java编写简单的Hive自定义函数,步骤如下:
5.1 使用Eclipse建立Maven项目。
5.2 引入特定的Hive/Hadoop JAR。
5.3 从Hive源代码或Hadoop基类库中寻找所需库。
5.4 编写简单的大写转换函数。
5.5 导出Eclipse,导入Hive类路径。
5.6 定义Hive函数,需带上全路径,即类的包路径。
5.7 修改Java代码,再执行相关步骤。
通过以上步骤,成功使用Java编写一个供Hive调用的函数。