Apache Doris的分区与分桶原理解析

news/2024/7/9 21:15:55 标签: apache, 大数据

介绍

在 Apache Doris 中,“分区”和“分桶”是两种用于管理和优化数据的技术,分别解决不同的数据存储和查询优化问题。

在 Doris 中,数据都以表(Table)的形式进行逻辑上的描述。
Row & Column

一张表包括行(Row)和列(Column):

Row:即用户的一行数据;
Column:用于描述一行数据中不同的字段;
Column 可以分为两大类:Key 和 Value。从业务角度看,Key 和 Value 可以分别对应维度列和指标列。Doris 的 key 列是建表语句中指定的列,建表语句中的关键字’unique key’或’aggregate key’或’duplicate key’后面的列就是 key 列,除了 key 列剩下的就是 value 列。从聚合模型的角度来说,Key 列相同的行,会聚合成一行。其中 Value 列的聚合方式由用户在建表时指定。关于更多聚合模型的介绍,可以参阅 Doris 数据模型。

分区和分桶

Doris 支持两层的数据划分。第一层是分区(Partition),支持 Range 和 List 的划分方式。第二层是 Bucket(Tablet),支持 Hash 和 Random 的划分方式。建表时如果不建立分区,此时 Doris 会生成一个默认的分区,对用户是透明的。使用默认分区时,只支持 Bucket 划分。

在 Doris 的存储引擎中,用户数据被水平划分为若干个数据分片(Tablet,也称作数据分桶


http://www.niftyadmin.cn/n/5539050.html

相关文章

深入浅出:Linux 文件压缩与解压

深入浅出:Linux 文件压缩与解压 在 Linux 系统中,文件压缩与解压是日常操作中不可或缺的一部分,它能够有效地减少文件的大小,节省存储空间,并方便文件传输。本文将深入浅出地介绍 Linux 中常用的压缩与解压工具&#…

RNN文献综述

循环神经网络(Recurrent Neural Network,RNN)是一种专门用于处理序列数据的神经网络模型。它在自然语言处理、语音识别、时间序列预测等领域有着广泛的应用。本文将从RNN的历史发展、基本原理、应用场景以及最新研究进展等方面进行综述。 历…

Node学习-第五章-数据可持续化

MongoDB 什么是mongoDB? mongodb 呢,它是一个基于文档存储的分布式非关系性数据库系统。 “基于文档”指的是:所有存放的的数据都是以文件存到我们的磁盘里面的。 其中数据库系统底层是通过C语言开发,对文件的存储性能还是十分不…

10.10记录

云轴-电话面试 python- 深拷贝和浅拷贝 copy.copy():浅拷贝是创建一个新对象,但是新对象的元素是原对象的引用。也就是说,新对象和原对象共享同一块内存空间。当原对象的元素发生改变时,新对象的元素也会随之改变。 copy.deepco…

什么是网络抓取|常见用例和问题

你可能听说过数据被称为现代信息社会的新石油。由于线上信息量庞大,能够有效地收集和分析网页数据已经成为企业、研究人员和开发人员的关键技能。这就是网页抓取技术的用武之地。网页抓取,也称为网页数据提取,是一种强大的技术,能…

C#/WPF 自制截图工具

在日常使用电脑办公时,我们经常遇到需要截图然后保存图片,我们往往需要借助安装截图工具才能实现,现在我们通过C#自制截图工具,也能够轻松进行截图。 我们可以通过C#调用WindousAPI来实现截图,实例代码如下&#xff1a…

王道考研数据机构:中缀表达式转为后缀表达式

实现方法: 初始化一个栈,用于保存暂时还不能确定运算顺序的运算符。从左到右处理各个元素,直到末尾。可能遇到三种情况: 遇到操作数。直接加入后缀表达式遇到界限符。遇到“(”直接入栈;遇到“)”则依次弹出栈内运算符并加入后缀表达式&…

DP学习——模板模式

学而时习之,温故而知新。 字面理解 模板?啥叫模板?模板就是固定死了,就是一套流程/步骤上层写死了。固定死了的流程或者步骤就是模板。然后我们要重写或者改写的是写死的这套流程中的节点。俗称“套模板”。 使用场合&#xff…