百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

如何利用数仓创建时序表

wptr33 2025-02-07 19:21 14 浏览

摘要:怎么快速上手,创建适合自己业务的时序表,怎样使用才能真正发挥时序表的优势。

本文分享自华为云社区《GaussDB(DWS)带你走近IoT时代-时序表建表最佳实践-云社区-华为云》,作者:AndyCao。

创建第一张时序表

我们首先来介绍一下如何创建一张时序表

语法格式


CREATE TABLE [ IF NOT EXISTS ] table_name

({ column_name data_type [ kv_type ]

| LIKE source_table [like_option [...] ] }

}

[, ... ])

[ WITH ( {storage_parameter = value} [, ... ] ) ]

[ TABLESPACE tablespace_name ]

[ DISTRIBUTE BY HASH ( column_name [,...])]

[ TO { GROUP groupname | NODE ( nodename [, ... ] ) } ]

[ table_partitioning_clauses ]

[ PARTITION BY {

{RANGE (partition_key) ( partition_less_than_item [, ... ] )}

} [ { ENABLE | DISABLE } ROW MOVEMENT ] ];

其中like选项like_option为:{ INCLUDING | EXCLUDING } { DEFAULTS | CONSTRAINTS | INDEXES | STORAGE | COMMENTS | PARTITION | RELOPTIONS | DISTRIBUTION | ALL }

时序表的建表语法,在很大程度上继承了行存和列存的语法,降低了用户的学习成本,能够更容易理解和使用。我们上篇博客中介绍到,将时序表的列分为三种kv_type类型(tag、field、time),那么如何将对应的列指定为合适的类型,帮助我们更好的提高导入、查询等场景的性能,让业务场景运行的更加高效呢?

我们继续以发电机组的场景作为示例,创建一张存储发电机组采样数据的时序表:


CREATE TABLE IF NOT EXISTS GENERATOR(

dynamo text TSTag,

manufacturer text TSTag,

model text TSTag,

location text TSTag,

ID bigint TSTag,

voltage numeric TSField,

power bigint TSTag,

frequency numeric TSField,

angle numeric TSField,

time timestamptz TSTime) with (orientation=TIMESERIES, period='7 days', ttl='1 month') distribute by hash(model);

我们可以看到,上述建表语句中:

  • 对于不随时间的变化而变化,描述发电机的属性信息的列(发电机信息、生产厂商、型号、位置、ID)被设置为tag列,在建表时需要将对应的列后面指定为TSTag;
  • 对于采样数据的维度(电压、功率、频率、电流相角)这些对应的采样数值随时间的变化而变,我们将这些维度设置为field列,建表语句数据类型后面指定为TSField;
  • 最后一列我们指定为时间列time,存储field列数据对应的时间信息,建表时将指定为TSTime。

在写建表语句时,对于tag列的顺序,我们可以适当优化一下,将唯一性(distinct值)较高的列尽量写在前面,这样对于时序场景的性能有一些提升。如果用户没有手动优化,GaussDB(DWS) IoT数仓也可以自适应的帮助用户提高时序场景的性能,这后面我们会专门文章介绍这一黑科技

另外,创建时序表时一定要指定表级参数orientation属性设置为timeseries。时序表不需要手动指定DISTRIBUTE BY和PARTITION BY, 默认按照所有tag列分布,且分区健默认为tstim指定的时间列。

对于create table like语法,该语法需要自动从源表中继承列名和对应的kv_type类型。因此如果源表是非时序表,新表是时序表,对应的列的kv_type类型无法确定,则无法创建成功。

时序表列类型

上面对时序表的三种kv_type属性进行了简单的说明:(维度属性(TSTag),指标属性(TSField),时间属性(TSTime),那么每个列他们支持的类型(类似建表语句中的text、int、numeric等)分别都是什么呢?是否可以不设置kv_type类型?

首先时序表必须指定一个时间属性(TSTime),且只能指定一个,且TSTime类型的列不能被删除。至少存在一个TSTagTSField列,否则建表报错。

TSTag列支持类型:text, char, bool, int, big int。

TSTime列支持类型:timestamp with time zone, timestamp without time zone。在兼容Oracle语法的数据库中,也支持date类型。涉及到时区相关操作时,请选择带时区的时间类型。

TSField列支持的数据类型同列存表保持一致

自动设置分区边界

时序表具备数据生命周期管理的能力。每天数以亿计的数据不间断涌入,对于很久之前的数据,其价值较低不经常访问,可以定期将无用的老数据删除。并且由于最新的数据不断进来,需要定期给表增加新的分区,避免新数据无法存储。因此时序表需要具备定时增加分区和定时删除分区的能力。

时序表以TSTIME列为分区键,创建具有自动分区管理功能的分区表,帮助我们大大减少运维操作的工作。在上面的建表语句中,在表级参数项中可以看到,时序表指定了自动分区管理两个参数period和ttl。

  • period:设置自动创建分区的间隔时间,默认值为1 day, 取值范围:1 hour ~ 100 years。默认会为时序表创建自增分区任务。自增分区任务动态为我们创建分区,保证当前时刻有足够充裕的分区用于导入数据。
  • ttl:设置自动淘汰分区的时间,取值范围:1 hour ~ 100 years。默认不创建淘汰分区任务,需要用户自己在建表手动指定,或者建表后通过ALTER TABLE语法设置。淘汰分区的策略是通过计算 nowtime - 分区boundary > ttl,满足该条件的分区将被drop掉。帮助用户定时清理过期的旧数据。

上面举得例子中,时序表建表语句没有指定分区,那么分区的起始时间是怎么样的。为了方便用户的使用,我们的分区边界的设置分为了一下几种情况

  • period设置为“小时” , 分区起始边界值为下个小时整点,分区的间隔为period的值
  • period设置为“天” , 分区起始边界值为第二天零点,分区的间隔为period的值
  • period设置为“月” , 分区起始边界值为下个月零点,分区的间隔为period的值
  • period设置为“年” , 分区起始边界值为明年零点,分区的间隔为period的值

tsdb=# CREATE TABLE IF NOT EXISTS GENERATOR(

tsdb(# dynamo text TSTag,

tsdb(# manufacturer text TSTag,

tsdb(# model text TSTag,

tsdb(# location text TSTag,

tsdb(# ID bigint TSTag,

tsdb(# voltage numeric TSField,

tsdb(# power bigint TSTag,

tsdb(# frequency numeric TSField,

tsdb(# angle numeric TSField,

tsdb(# time timestamptz TSTime) with (orientation=TIMESERIES, period='1 hour', ttl='1 month') distribute by hash(model);

CREATE TABLE

tsdb=# select now();

now

-------------------------------

2022-05-25 15:28:38.520757+08

(1 row)

tsdb=# select relname, boundaries from pg_partition where parentid=(select oid from pg_class where relname='generator') order by boundaries ;

relname | boundaries

----------------+----------------------------

default_part_1 | {"2022-05-25 16:00:00+08"}

default_part_2 | {"2022-05-25 17:00:00+08"}

p1653505200 | {"2022-05-26 03:00:00+08"}

p1653541200 | {"2022-05-26 13:00:00+08"}

p1653577200 | {"2022-05-26 23:00:00+08"}

......

这样的使用方式,能够使得用户能够便捷快速的创建时序表。当然我们也支持在建表时用户手动指定分区边界的起始值。关于自动分区管理功能更详细的描述,可以参考《GaussDB(DWS) 分区自动管理介绍》。


tsdb=# select now();

now

-------------------------------

2022-05-31 20:36:09.700096+08

(1 row)

tsdb=# CREATE TABLE IF NOT EXISTS GENERATOR(

tsdb(# dynamo text TSTag,

tsdb(# manufacturer text TSTag,

tsdb(# model text TSTag,

tsdb(# location text TSTag,

tsdb(# ID bigint TSTag,

tsdb(# voltage numeric TSField,

tsdb(# power bigint TSTag,

tsdb(# frequency numeric TSField,

tsdb(# angle numeric TSField,

tsdb(# time timestamptz TSTime) with (orientation=TIMESERIES, period='1 day') distribute by hash(model)

tsdb-# partition by range(time)

tsdb-# (

tsdb(# PARTITION P1 VALUES LESS THAN('2022-05-30 16:32:45'),

tsdb(# PARTITION P2 VALUES LESS THAN('2022-05-31 16:56:12')

tsdb(# );

WARNING: partition boundary is less than current time.

CREATE TABLE

tsdb=# select relname, boundaries from pg_partition where parentid=(select oid from pg_class where relname='generator') order by boundaries ;

relname | boundaries

-------------+----------------------------

p1 | {"2022-05-30 16:32:45+08"}

p2 | {"2022-05-31 16:56:12+08"}

p1654073772 | {"2022-06-01 16:56:12+08"}

p1654160172 | {"2022-06-02 16:56:12+08"}

......

至此,我们已经建成了自己的第一张时序表,接下来我们会针对时序表的DDL各种操作进行详细的实践,帮助大家学好、用好时序数据库,更好的为用户的业务服务。

点击下方,第一时间了解华为云新鲜技术~

华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

相关推荐

时尚芭莎90秒|不是人造,我不要

各位网友大家好,欢迎来到时尚芭莎90秒!仙女们,过冬御寒的保暖单品备好了吗?在当下更讲究环保和人道主义的风向下,一件魅力不减的人造皮单品必须要加进你的必败清单,不是人造的,我可不穿。...

Apex Stand三合一支架:简洁便携设计, 拯救你的桌面

这次体验的这款手机、平板、笔电三合一支架ApexStand或许可以帮你解决设备太多导致桌面太过凌乱的问题。ApexStand采用可折叠的设计,并且还配有收纳袋,这一切都给与了ApexStand优...

每日一荐:把iPad变成电视你觉得如何

iPad的屏幕尺寸介于大屏手机和笔记本电脑之间,怪异,但用途广泛。外设厂商在不遗余力地设计制造各种小玩意来妆点这块小平板,以致于有人将iPad折腾成了一个“复古电视”,这个创意你喜欢吗?这个小配件名为...

Standalone是什么?Standalone集群的三类进程

Standalone是什么Standalone模式是Spark自带的一种集群模式,不同于前面本地模式启动多个进程来模拟集群的环境,Standalone模式是真实地在多个机器之间搭建Spark集群的环境...

坚守与支撑 - Hold Up and Stand Firm

Inlife'sjourney,theconceptof"holdup"playsavitalrole."Holdup"canme...

当齐秦翻唱英文神曲,这版《Stand By Me》直接唱进灵魂深处!

是一首英文歌曲,是我比较喜欢的一首,曲名叫standbyme,希望你们能够喜欢,谢谢。standbyme,ohstandbyme,ohstandnowstandbyme,if...

可以吃的“水泥”和“咖啡杯”!杨浦这家高颜值咖啡店“拍了拍”你

在热闹的五角场商圈,聚集着诸多网红咖啡馆。今天就跟着小编来看看拥有浓浓INS风的MSTAND咖啡馆吧~这家名叫MSTAND的咖啡馆因其浓浓的INS风,极具辨识度。整间店以黑白灰为主基调,配上金属质...

陈粒“洄游”巡演帷幕拉开 白衣赤足回溯音乐赤子心

封面新闻记者徐语杨11月9日晚,陈粒“洄游”全国巡回演唱会首场成都站温情开唱。陈粒阔别三年再度开启个人巡回演唱会,以精湛的现场舞台魅力与全新的先锋时尚造型、极具体验感的舞美和视觉创意设计,带来全新专...

把 iPad 变成“iMac”,elago 推出 Magnetic Stand 支架

IT之家11月30日消息,苹果在上月推出打开M2芯片的iPadPro之后,配件厂商elago近日推出了全新的MagneticStand铝合金支架,能够将iPadPro...

Stand Studio 2025春夏系列,现代与经典的融合

StandStudio2025春夏系列,在经典的款式之中,结合了现代的流行元素,让其以崭新的面貌展现出来。让夹克套装、皮革、短裙等款式的服装,在纯色简约大方的气质中,流苏元素的装饰更多了细节潮范儿...

M Stand全国机场首店入驻浦东机场

最近,MStand全国机场首店在浦东机场1号航站楼开业迎客,该品牌店位于浦东机场T1到达公众区4号门附近。MStand此次还专门把社交网络中的热门产品“鲜椰冰咖”带到了浦东机场店。MStand于...

Java Scanner 类

java.util.Scanner是Java5的新特征,我们可以通过Scanner类来获取用户的输入。下面是创建Scanner对象的基本语法:Scanners=newScanner...

扯一把 Spring 的三种注入方式,到底哪种注入方式最佳?

循环依赖这个问题,按理说我们在日常的程序设计中应该避免,其实这个本来也是能够避免的。不过由于种种原因,我们可能还是会遇到一些循环依赖的问题,特别是在面试的过程中,面试考察循环依赖,主要是想考察候选人对...

前端卷Java:我被Shiro的setCipherKey方法坑惨了

哎呀呀,昨晚我被Shiro那个CookieRememberMeManager的setCipherKey方法给坑惨了!明明它要求传入一个byte数组作为加密密钥,但是不告诉我这个数组的长度必须是16、2...

100个Java工具类之58:集合HashSet

HashSet是Java集合框架的一部分。...