【逆序打印源码】【Arkmri源码】【ima源码】hive 源码 distinct-皮皮网

【逆序打印源码】【Arkmri源码】【ima源码】hive 源码 distinct

2024-12-01 00:37:22 来源：错误源码怎么查看分类：焦点

1.hive的源码distinct与groupby的区别是什么?
2.开发实战角度：distinct实现原理及具体优化总结
3.Hiveå¸¸ç¨ç®åå®ç°åçç®è¿°--MapReduceç
4.HIVE-SQL优化（持续更新ing）
5.Hiveä¼åçåååè
6.通过深挖Clickhouse源码，我精通了数据去重！源码

hive 源码 distinct

hive的源码distinct与groupby的区别是什么?

理解Hive中的DISTINCT与GROUP BY功能，需从它们各自的源码核心作用入手。DISTINCT功能旨在去除结果集中的源码重复行，确保返回的源码逆序打印源码数据集不包含任何重复记录。具体而言，源码Hive在处理时，源码若未明确指定ALL或DISTINCT选项，源码则默认返回所有匹配行，源码而DISTINCT选项则确保结果集中只包含唯一行，源码多余重复的源码记录被去除。

相比之下，源码GROUP BY操作则侧重于数据的源码分组与聚合。其本质是源码对数据进行逻辑上的分组处理，然后基于每个分组返回计算结果。数据处理的顺序是先进行分组操作，根据指定的字段将数据划分为不同的组，之后对每组数据执行聚合操作，如计算每组的总和、平均值等。这一过程充分体现了Hive在数据处理上的高效与灵活性。

在理解了它们的基本逻辑与实现方式后，我们可以得出，尽管DISTINCT与GROUP BY在表面功能上存在差异，但在实际应用中，它们的性能表现可能较为相近。Hive优化器通常会将DISTINCT操作转换为GROUP BY操作，以更高效地利用并行计算资源。Arkmri源码因此，选择使用DISTINCT还是GROUP BY，应基于个人习惯与具体需求，不必过于纠结。

以具体的例子说明，当我们使用Hive执行SQL时，优化器可能自动将带有DISTINCT的查询转换为使用GROUP BY的查询，如以下执行计划所示，使用了Group By Operator。这一转换体现了Hive在优化过程中，为提高执行效率而采取的策略。

开发实战角度：distinct实现原理及具体优化总结

Distinct是一种在数据库SQL语言中至关重要的操作，尤其在Hive中，它通过MapReduce机制来实现。Distinct操作可以应用于单列或多列，其基本原理是对数据集按照指定列进行分组，去除每个分组内的重复值，最终合并成唯一值的结果集。

在最近的一次学习过程中，有位伙伴在研究count distinct时遇到了难题。虽然对单个count distinct原理理解尚可，但面对多字段count distinct时，讲解起来就变得复杂。下面将为大家总结这方面的内容。

在深入Distinct之前，先来了解一下group by操作的实现原理。group by操作适合与distinct紧密相关的聚合操作，因此，ima源码总结distinct之前，需要了解group by的具体实现。

在map阶段，将group by后的字段组合作为key，如果是单个字段，则key为一个。group by之后要进行的聚合操作字段作为值，如count则值为1；若sum另一个字段，则value是该字段值。shuffle阶段，按照key的不同分发到不同的reducer。reduce阶段，如果是count则将相同key的值累加，如果是其他操作，则按需要的聚合操作得到结果。

在map阶段如果出现数据倾斜，可以进行相应的处理，常见的方法有单独计算key、替换随机数等。针对group by的特殊方法有几种。

Distinct单字段原理：当执行Distinct操作时，Hive将其转化为MapReduce作业，并按指定列进行分组。Map阶段，每个Mapper读取输入数据，将指定列作为输出的key，通过Shuffle过程将具有相同key的数据发送到同一个Reducer中。由于使用了distinct，patchupdate源码Map端的combine无法合并重复数据，因此必须将id作为Key输出，在Reduce阶段再进行消重。

对于count(distinct)全聚合操作，即使设置了reduce task的具体个数，Hive最终也只会启动一个reducer。这导致所有map端传来的数据都在一个tasks中执行，唯一的Reduce Task需要处理大量的数据，这成为整个作业的IO和运算瓶颈。

Distinct一个字段时，将group by的字段和distinct的字段组合作为map输出的key，value设置为1，同时将group by的字段定为分区键。这样就可以将GroupBy字段作为reduce的key，在reduce阶段利用mapreduce的排序，输入天然就是按照组合key排好序的。根据分区键将记录分发到reduce端后，按顺序取出组合键中的distinct字段，这时distinct字段也是排好序的。依次遍历distinct字段，每找到一个不同值，计数器就自增1，即可得到count distinct结果。

对于单distinct的优化，可以通过将原来一个MapReduce作业转换为两个作业，在第一阶段选出全部的非重复的字段id，在第二阶段再对这些已消重的id进行计数。这样可以在第一阶段通过增大Reduce的134源码并发数来处理Map输出，在第二阶段，由于id已经消重，COUNT(*)操作在Map阶段不需要输出原id数据，只输出一个合并后的计数即可。

对于mult-distinct，如果按照上面一个distinct字段的方法，无法根据uid和date分别排序，也就无法通过LastKey去重，仍然需要在reduce阶段在内存中通过Hash去重。Hive会使用另一种处理方式，对所有的distinct字段编号，那么相同字段就会分别排序，这时只需要在reduce阶段记录LastKey即可去重。这种实现方式利用了MapReduce的排序，节省了reduce阶段去重的内存消耗，但缺点是增加了shuffle的数据量。

对于多重distinct的操作，可以按照一定步骤进行优化。

Hiveå¸¸ç¨ç®åå®ç°åçç®è¿°--MapReduceç

Hiveä¸çå¸¸ç¨ç®ååæ¬distinctãjoinãgroup byãorder byãdistribute byãsort byãcountçï¼è¿äºæä½ç¬¦å¨SQLä¸ä½¿ç¨èµ·æ¥å¾æ¹ä¾¿ï¼è½å¿«éè¾¾å°æä»¬æ³è¦çææï¼ä½æ¯è¿äºç®åå¨åºå±æ¯æä¹å®ç°çå¢ï¼

order byå¾å®¹ææ³å°æ§è¡åçï¼å¨ä¸ä¸ªreduceä¸å°ææè®°å½æå¼æåºå³å¯ãå æ¤order byå¨æ°æ®éå¤§çæåµä¸æ§è¡æ¶é´éå¸¸é¿ï¼å®¹æout of memoryï¼éç¹æ®ä¸å¡éæ±ä¸è¬ä¸ä½¿ç¨ãdistribute byä¹æ¯è¾ææ¾ï¼æ ¹æ®hashå¼å°distributeçå¼ååå°ä¸åçreduceãsort byæ¯å°å·çorder byï¼åªè´è´£å°æ¬reducerä¸çå¼æåºï¼è¾¾å°å±é¨æåºçææãsort byådistribute byéåä½¿ç¨é£å³æ´ä½³ï¼äºèå¯ä»¥åå¹¶ç®åä¸ºcluster byãcountåæ´å ææ°ï¼å¨combineræreducerå¤æç¸åé®ç´¯å å¼å°±è½å¾å°ã

æ¯è¾å¤æçæ¯distinctãjoinãgroup byï¼æ¬æéç¹è®¨è®ºè¿ä¸ä¸ªç®åå¨MapReduceå¼æä¸çå¤§è´å®ç°åçãçé¨å¼æ§ï¼æç å¼çã

å¯¹group byçè¿ç¨è®²è§£çæ¯è¾æ¸æ¥çæ¯è¿ç¯æç« /info-detail-.html å¾æå¹¶èï¼å¾çå¨ã

å®ä¾å¦ä¸å¾ï¼å¯¹åºè¯å¥æ¯ select rank, isonline, count(*) from city group by rank, isonline;

ï¼1ï¼set hive.map.aggr=trueï¼å³å¼å¯mapç«¯çcombinerï¼åå°ä¼ å°reducerçæ°æ®éï¼åæ¶éè®¾ç½®åæ°hive.groupby.mapaggr.checkinterval è§å®å¨ map ç«¯è¿è¡èåæä½çæ¡ç®æ°ç®ã

ï¼2ï¼è®¾ç½®mapred.reduce.tasksä¸ºè¾å¤§æ°éï¼éä½æ¯ä¸ªreducerå¤ççæ°æ®éã

ï¼3ï¼set hive.groupby.skewindata=trueï¼è¯¥åæ°å¯èªå¨è¿è¡è´è½½åè¡¡ãçæçæ¥è¯¢è®¡åä¼æä¸¤ä¸ª MR Jobãç¬¬ä¸ä¸ª MR Job ä¸ï¼Map çè¾åºç»æéåä¼éæºåå¸å°Reduce ä¸ï¼æ¯ä¸ª Reduce åé¨åèåæä½ï¼å¹¶è¾åºç»æï¼è¿æ ·å¤ççç»ææ¯ç¸åç Group By Keyæå¯è½è¢«ååå°ä¸åç Reduce ä¸ï¼ä»èè¾¾å°è´è½½åè¡¡çç®çï¼ç¬¬äºä¸ª MR Job åæ ¹æ®é¢å¤ççæ°æ®ç»ææç§ Group ByKey åå¸å° Reduce ä¸ï¼è¿ä¸ªè¿ç¨å¯ä»¥ä¿è¯ç¸åç Group By Key è¢«åå¸å°åä¸ä¸ª Reduceä¸ï¼ï¼æåå®ææç»çèåæä½ã

Hiveä¸æä¸¤ç§joinæ¹å¼ï¼map joinåcommon join

å¦æä¸æ¾å¼æå®map side joinï¼æèæ²¡æè¾¾å°è§¦åèªå¨map joinçæ¡ä»¶ï¼é£ä¹ä¼è¿è¡reduceç«¯çjoinï¼å³common joinï¼è¿ç§joinåå«mapãshuffleãreduceä¸ä¸ªæ¥éª¤ã

ï¼1ï¼Mapé¶æ®µ

ï¼2ï¼Shuffleé¶æ®µ

æ ¹æ®keyçå¼è¿è¡hash,å¹¶å°key/valueæç§hashå¼æ¨éè³ä¸åçreduceä¸ï¼è¿æ ·ç¡®ä¿ä¸¤ä¸ªè¡¨ä¸ç¸åçkeyä½äºåä¸ä¸ªreduceä¸

ï¼3ï¼Reduceé¶æ®µ

SELECT u.name, o.orderid FROM user u JOIN order o ON u.uid = o.uid;

Hive0.7ä¹åï¼éè¦ä½¿ç¨hintæç¤º /*+ mapjoin(table) */æä¼æ§è¡MapJoin,å¦åæ§è¡Common Joinï¼ä½å¨0.7çæ¬ä¹åï¼é»è®¤èªå¨ä¼è½¬æ¢Map Joinï¼ç±åæ° hive.auto.convert.join æ¥æ§å¶ï¼é»è®¤ä¸ºtrueã

distinctä¸è¬ågroup byåæ¶åºç°ã

HIVE-SQL优化（持续更新ing）

优化HIVE SQL主要包括配置优化、SQL语句优化以及任务优化等方案。在开发过程中，主要关注SQL优化。优化的核心思想包括减少数据量、避免数据倾斜、避免全表扫描以及减少job数。

在SQL优化中，关键点包括使用分区剪裁和列剪裁以减少数据量。避免数据倾斜，通常通过调整参数和Key打散来实现。避免全表扫描，通过在ON语句中添加分区等条件来优化。减少job数，通过合并具有相同ON条件的JOIN操作到一个任务中。

优化HQL语句时，应尽量减少使用COUNT DISTINCT，因为它可能需要一个Reduce Task处理大量数据，导致Job难以完成。使用WITH子句可以提取子查询并将其结果用作临时表，减少重复计算，提高效率。在处理大表和小表的JOIN时，遵循将条目少的表放在Join操作符左侧的原则，可以减少OOM错误的几率。数据倾斜发生在shuffle过程中，常见触发此现象的算子包括distinct、groupByKey等。

优化HIVE SQL的策略还包括通过参数调整来优化性能，但具体设置不在本文详细描述。核心优化思想旨在通过减少数据量、避免数据倾斜、避免全表扫描以及合理安排job和JOIN操作，实现SQL执行效率的提升。这些优化策略对于HIVE的性能优化至关重要，确保查询任务能够高效执行。

Hiveä¼åçåååè

éè¦æ»¡è¶³ä»¥ä¸æ¡ä»¶ï¼

hive.mapred.mode=trueï¼ä¸¥æ ¼æ¨¡å¼ä¸åè®¸æ§è¡ä»¥ä¸æ¥è¯¢ï¼

ååºè¡¨ä¸æ²¡ææå®äºååº

æ²¡ælimitéå¶çorder byè¯å¥

ç¬å¡å°ç§¯ï¼JOINæ¶æ²¡æONè¯å¥

SELECTè¯å¥ä¸åªè½æGROUP BYçåæèèéå½æ°ã

ç¬¬ä¸ä¸ªMRJob ä¸ï¼

FROM test

INSERT OVERWRITE TABLE count1

SELECT count(DISTINCT test.dqcode)

GROUP BY test.zipcode

INSERT OVERWRITE TABLE count2

SELECT count(DISTINCT test.dqcode)

GROUP BY test.sfcode;

ORDER BY colName ASC/DESC

hive.mapred.mode=strictæ¶éè¦è·limitåå¥

hive.mapred.mode=nonstrictæ¶ä½¿ç¨åä¸ªreduceå®ææåº

SORT BY colName ASC/DESC ï¼æ¯ä¸ªreduceåæåº

CLUSTER BY ï¼å½SORT BY ãDISTRIBUTE BYä½¿ç¨ç¸åçåæ¶ã

å¢å mapæ°ç®ï¼

åè®¾æè¿æ ·ä¸ä¸ªä»»å¡ï¼

ããselect data_desc, count(1), count(distinct id),sum(case when â¦),sum(case when ...),sum(â¦) from a group by data_desc

ããset mapred.reduce.tasks=;

ããcreate table a_1 as select * from a distribute by rand();

reduceæ°ç®è®¾ç½®ï¼

ãåæ°1ï¼hive.exec.reducers.bytes.per.reducer=1Gï¼æ¯ä¸ªreduceä»»å¡å¤ççæ°æ®é

ãåæ°2ï¼hive.exec.reducers.max=(0. TaskTrackeræ°)ï¼æ¯ä¸ªä»»å¡æå¤§çreduceæ°ç®

ãreduceræ°=min(åæ°2,æ»è¾å¥æ°æ®é/åæ°1)

ãset mapred.reduce.tasksï¼æ¯ä¸ªä»»å¡é»è®¤çreduceæ°ç®ãå¸åä¸º0. reduceæ§½æ°ï¼hiveå°å¶è®¾ç½®ä¸º-1ï¼èªå¨ç¡®å®reduceæ°ç®ã

.ä½¿ç¨ç´¢å¼ï¼

hive.optimize.index.filterï¼èªå¨ä½¿ç¨ç´¢å¼

hive.optimize.index.groupbyï¼ä½¿ç¨èåç´¢å¼ä¼åGROUP BYæä½

通过深挖Clickhouse源码，我精通了数据去重！

数据去重的Clickhouse探索

在大数据面试中，数据去重是一个常考问题。虽然很多博主已经分享过相关知识，但本文将带您深入理解Hive引擎和Clickhouse在去重上的差异，尤其是后者如何通过MergeTree和高效的数据结构优化去重性能。

Hive去重

Hive中，distinct可能导致数据倾斜，而group by则通过分布式处理提高效率。面试时，理解MapReduce的数据分区分组是关键。然而，对于大规模数据，Hive的处理速度往往无法满足需求。

Clickhouse的登场

面对这个问题，Clickhouse凭借其列存储和MergeTree引擎崭露头角。MergeTree的高效体现在它的数据分区和稀疏索引，以及动态生成和合并分区的能力。

Clickhouse：Yandex开源的实时分析数据库，每秒处理亿级数据

MergeTree存储结构：基于列存储，通过合并树实现高效去重

数据分区和稀疏索引

Clickhouse的分区策略和数据组织使得去重更为快速。稀疏索引通过标记大量数据区间，极大地减少了查询范围，提高性能。

优化后的去重速度

测试显示，Clickhouse在去重任务上表现出惊人速度，特别是通过Bitmap机制，去重性能进一步提升。

源码解析与原则

深入了解Clickhouse的底层原理，如Bitmap机制，对于优化去重至关重要，这体现了对业务实现性能影响的深度理解。

总结与启示

对于数据去重，无论面试还是日常工作中，深入探究和实践是提升的关键。不断积累和学习，即使是初入职场者也能在大数据领域找到自己的位置。

小技巧一：把roaring bitmap引入hive/spark，再也不怕count(distinct)了

小技巧一：引入Roaring Bitmap到Hive/Spark，解决count(distinct)问题

在SQL中，`count(distinct xxx)`常用于计算去重数量。当`xxx`为byte, shortint, int等数值类型时，可以将其转化为bitmap位运算，加速运算。对于非数值类型，可以考虑将其转换为一个唯一的数字，构建广义字典。Roaring Bitmap的基本思想是使用一个位图来唯一标记某个正整数，用于记录无重复的整数数组。

例如，数组[2,3,4,5]可以通过一个字节记录。通过依次设置数字n在第n+1个位置的位，可以表示数组。对于数字范围0到n，需要`n/ +1`字节的存储空间。与数组存储相比，Roaring Bitmap的存储空间通常更小，约为数组的1/。

Roaring Bitmap适用于无法直接存储的其他类型数字，通过转换为唯一数字进行存储。在处理如`[0,]`的场景中，使用Roaring Bitmap需要字节的空间，而数组存储只需要8字节，因此不划算。Roaring Bitmap在底层采用数组存储，以适应数字分散的场景。

当处理如`[0,]`和`[,0]`的场景时，Roaring Bitmap可能无法区分数字顺序或正确识别重复值。在大数据领域，如活跃人数等去重指标的计算中，Roaring Bitmap可以加速计算过程，尤其是在离线执行引擎Hive/Spark中引入Roaring Bitmap来实现精准去重。

考虑到Hive本身不支持Roaring Bitmap数据类型，可以将其序列化为`binary`类型使用。在函数体系方面，需要实现一系列的UDF和UDAF函数，如`bitmap_count`、`bitmap_and`、`bitmap_not`、`bitmap_union`、`bitmap_contains`、`range_bitmap`、`bitmap_to_array`、`array_to_bitmap`等，以支持bitmap的集合计数、交集、差集、并集和查询操作。

在留存分析场景中，可以利用Roaring Bitmap构建活跃位图来加速计算，如连续N天登录问题。通过将用户活跃日期构建为位图，可以快速判断用户是否连续活跃。在用户画像和用户圈选场景中，Roaring Bitmap可以用于构建用户活跃画像，提高数据处理效率。在电商场景中，通过构建轻度汇总表并使用Roaring Bitmap存储去重人数，可以有效避免重复计算，提高数据聚合的准确性。

对于大数值范围（如bigint），Roaring Bitmap也支持。考虑到实际应用中数值范围超过`2**`的情况较少，是否需要支持bigint取决于具体需求。在数据索引优化方面，可以考虑重新编码，使得连续分布，进一步提高查询性能。

更多内容请点击【焦点】专栏

【逆序打印源码】【Arkmri源码】【ima源码】hive 源码 distinct

精彩资讯

推荐内容