博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
TableStore多元索路由探微
阅读量:6231 次
发布时间:2019-06-22

本文共 7557 字,大约阅读时间需要 25 分钟。

表格存储是阿里云提供的一个分布式存储系统,可以用来存储海量结构化、半结构化的数据。多元索引(SearchIndex)可以支持基于属性列的丰富查询类型,帮你挖掘出数据的更多潜能。

多元索引会分布式地将数据打散存储在不同机器上。一般情况下,查询无需关心数据被分配到哪里;但通过指定路由,您可以有的放矢地定向搜索,在指定的一个数据分区上执行查询,而不是所有数据分区,有效提升了查询吞吐量,减少长尾对延迟的影响。
本文抽丝剥茧,介绍分布式模型中路由的原理,如何使用路由来加速查询。

分布式模型和路由

主表和索引数据被分布式地存储到多个分区,分布在多台机器上,为了定位数据被分配到哪个分区,读写时都需要根据路由值进行计算。

分区和路由

海量数据的存储需求、读写延迟和低成本催生了分布式NoSQL存储。购买更大更强的服务器运行数据库作为“纵向扩展(scale up)”,变得越发困难且昂贵;而在服务器集群上进行“横向扩展(scale out)”则备受青睐。分布式系统会对数据分区,分区被分布到多台机器上,根本上解决了单台机器对数据容量的限制。每个分区的数据规模较小,查询性能更高;查询可以并发地在多个分区上执行,提升了吞吐量。

路由,是指定位数据到特定分区的方法。例如,将一张表(Table)的数据划分为3个分区(分区0~2)存储,一个简单的路由规则可以这样设计:PartitionId = PartitionKey % PartitionNum。其中,PartitionId是分区编号;PartitionKey是分区键值;PartitionNum是分区数,在这里为3。
表格存储的主表数据就是按分区键(表格存储中的第一个主键列)为路由值,定位某一行到特定分区。
多元索引数据默认按“所有主键列的序列化值”为路由值来确定分区,也可以由用户指定路由字段的值来分区索引数据。如果用户创建索引时指定了路由字段,会按照该路由字段写入相应分区;查询时也带上路由值,就可以在指定的一个分区执行查询,而不是所有分区,效率更高。

写入

写入一行时,主表数据默认以“分区键”为路由,写入特定分区;索引数据以“所有主键列的序列化值”为路由,写入特定分区。

查询

表格存储中的查询分两种,一种是简单地按照主键列或主键列前缀查询,另一种是按属性列查询。

按主键列/主键列前缀查询:这个过程只涉及主表数据读取。主表数据按照分区键分区,分区内部数据按照主键列的前缀排序。如果按主键列读取(GetRow / BatchGetRow / GetRange),可以直接定位到对应数据分区;
按属性列查询:这个过程涉及索引表数据读取。索引数据默认按照“所有主键列的序列化值”分区。如果按属性列查询,并不知道数据分区在哪里,只能全局范围搜索,查询性能低,资源消耗大。如果用户指定了路由字段,写入和读取时都按照路由字段来定位分区,就可以避免全局范围搜索,查询性能高,资源消耗小。

路由的目的

本文关心的是多元索引中的路由的作用。

如果创建索引时不指定路由字段,默认按“所有主键列的序列化值”为路由,索引数据虽然会被打散到不同分区实现分布式存储,但是查询的时候必须访问所有的分区,效率是很低的;如果创建索引时由用户指定路由字段,查询时也带上路由字段值,则可以为查询带来额外收益。总结起来,路由有以下作用:

  • 定向存储,定向搜索,降低查询延迟,增加查询吞吐
  • 减少系统资源浪费

忠告

别急,事情总有两面。有时候不经过精心设计,会出现严重的数据偏移——某个路由值的行数太多,单个分区的行数太大,查询也变慢,而且可能超过单机容量限制。例如,您为订单表建立多元索引,以商家id(user_id)作为路由字段,普通的商家只会产生少量订单,但有几个“大商家”每天都会产生大量订单,他们的数据所在分区就会急剧膨胀起来。面对这种状况,我们该如何应对?

  • 最好设计多元索引的路由时,就做详尽地评估,避免出现这种情况
  • 为那些“大商家”创建独立的索引,其他商家共用一个索引。

此外,一旦创建索引时指定了路由,以后的查询时都必须带上正确的路由值,否则可能查不到相关数据。如果某天你不想使用路由进行查询了,只能重建索引。

自定义路由的使用

多元索引的自定义路由使用非常方便,只需要两步,详见后面代码实现:

  • 第一步:创建索引时,指定一个或多个路由字段。

您在创建多元索引指定了路由字段后,索引数据的读写都会使用该路由字段进行定位,不能动态改变。如果想使用系统默认路由(即主键列路由)或者重新指定其他字段为路由字段,您需要重建索引。

  • 第二步:索引查询时,在查询请求中指定路由字段值。

查询时使用路由,定向搜索指定数据分区,可以减少长尾对延迟的影响。一般来说,对于自定义路由的查询请求,都要求用户提供路由字段。如果不指定,虽然查询结果是一样的,但会访问无关的数据分区,白白浪费了系统资源,增加访问延迟。

此外,使用自定义路由也有限制——路由字段只能是表格存储的主键列

由于表格存储半结构化的特性,如果路由字段是属性列,可能出现某行没有该属性列,就不知道路由到哪个数据分片了。

代码实现

假设在订单表上建立多元索引,以商家id(user_id)为路由,查询某商家的订单时也需要指定路由值。代码示例如下:

//1. 创建表    createtableRequest := new(tablestore.CreateTableRequest)    tableMeta := new(tablestore.TableMeta)    tableMeta.TableName = tableName                            //设置表名    tableMeta.AddPrimaryKeyColumn("order_id", tablestore.PrimaryKeyType_STRING)    //第1主键列: 订单号    tableMeta.AddPrimaryKeyColumn("user_id", tablestore.PrimaryKeyType_STRING)    //第2主键列: 商家id    tableOption := new(tablestore.TableOption)    tableOption.TimeToAlive = -1                            //TTL无限    tableOption.MaxVersion = 1                                //每列最多1个数据版本    reservedThroughput := new(tablestore.ReservedThroughput)    reservedThroughput.Readcap = 0    reservedThroughput.Writecap = 0    createtableRequest.TableMeta = tableMeta    createtableRequest.TableOption = tableOption    createtableRequest.ReservedThroughput = reservedThroughput    //设置预留读写吞吐量    _, err := client.CreateTable(createtableRequest)        //创建主表    if err != nil {        fmt.Println("Failed to create table with error:", err)        return    } else {        fmt.Println("Create table finished")    }    //2. 创建多元索引,指定路由字段    request := &tablestore.CreateSearchIndexRequest{}    request.TableName = tableName                            //设置表名    request.IndexName = indexName                            //设置索引名    //添加索引字段 (根据业务,您还可以添加更多字段)    schemas := []*tablestore.FieldSchema{}    field1 := &tablestore.FieldSchema{        FieldName:        proto.String("product_name"),  //字段名: 商品名        FieldType:        tablestore.FieldType_KEYWORD,     //字段类型: KEYWORD类型        Index:            proto.Bool(true),                 //开启索引    }    field2 := &tablestore.FieldSchema{        FieldName:        proto.String("order_time"),    //字段名: 下单时间        FieldType:        tablestore.FieldType_LONG,        //字段类型: LONG类型        Index:            proto.Bool(true),                //开启索引        EnableSortAndAgg: proto.Bool(true),                //允许排序和聚合    }    field3 := &tablestore.FieldSchema{        FieldName:        proto.String("user_id"),        //字段名: 商家id        FieldType:        tablestore.FieldType_KEYWORD,        //字段类型: KEYWORD类型        Index:            proto.Bool(true),                //开启索引    }    schemas = append(schemas, field1, field2, field3)    indexSetting := &tablestore.IndexSetting{                //设置路由字段        RoutingFields: []string{"user_id"},    }    request.IndexSchema = &tablestore.IndexSchema{        FieldSchemas: schemas,                                //设置索引字段        IndexSetting: indexSetting,                            //设置索引配置(包含路由字段)    }    _, err = client.CreateSearchIndex(request)                //创建多元索引    if err != nil {        fmt.Println("Failed to create index with error:", err)        return    } else {        fmt.Println("Create index finished")    }    time.Sleep(time.Duration(60) * time.Second)                //等待数据表加载    //3. 插入一些测试数据    productNames := []string{"product a", "product b", "product c"}    userIds := []string{"00001", "00002", "00003", "00004", "00005"}    for i := 0; i < 100; i++ {        putRowRequest := new(tablestore.PutRowRequest)        putRowChange := new(tablestore.PutRowChange)        putRowChange.TableName = tableName        putPk := new(tablestore.PrimaryKey)        putPk.AddPrimaryKeyColumn("order_id", fmt.Sprintf("%d", i))        putPk.AddPrimaryKeyColumn("user_id", userIds[i%len(userIds)])        putRowChange.PrimaryKey = putPk        putRowChange.AddColumn("product_name", productNames[i%len(productNames)])        putRowChange.AddColumn("order_time", int64(time.Now().Second()))        putRowChange.SetCondition(tablestore.RowExistenceExpectation_IGNORE)        putRowRequest.PutRowChange = putRowChange        _, err := client.PutRow(putRowRequest)        if err != nil {            fmt.Println("putrow failed with error:", err)        }    }    time.Sleep(time.Duration(30) * time.Second)                //等待数据同步到多元索引(通常,稳定后延迟在1s~10s级别)    //4. 查询时,带上路由字段    searchRequest := &tablestore.SearchRequest{}    searchRequest.SetTableName(tableName)                    //设置主表名    searchRequest.SetIndexName(indexName)                    //设置多元索引名    query := &search.MatchQuery{}                           //设置查询类型为MatchQuery    query.FieldName = "user_id"                             //设置要匹配的字段    query.Text = "00002"                                     //设置要匹配的值: 查询user_id="00002"商家的所有订单    searchQuery := search.NewSearchQuery()    searchQuery.SetQuery(query)    searchQuery.SetGetTotalCount(true)            //返回所有匹配到的行    searchRequest.SetColumnsToGet(&tablestore.ColumnsToGet{ReturnAll:true})    //返回所有的列    searchRequest.SetSearchQuery(searchQuery)    routingValue := new(tablestore.PrimaryKey)    routingValue.AddPrimaryKeyColumn("user_id", "00002")    searchRequest.AddRoutingValue(routingValue)    searchResponse, err := client.Search(searchRequest)        //查询    if err != nil {        fmt.Println("Failed to search with error:", err)        return    }    fmt.Println("IsAllSuccess: ", searchResponse.IsAllSuccess)     //查看返回结果是否完整    fmt.Println("TotalCount: ", searchResponse.TotalCount)        //返回所有匹配到的行数    fmt.Println("RowCount: ", len(searchResponse.Rows))            //返回的行数    for _, row := range searchResponse.Rows {                        //打印本次返回的行        jsonBody, err := json.Marshal(row)        if err != nil {            panic(err)        }        fmt.Println("Row: ", string(jsonBody))    }

转载地址:http://xihna.baihongyu.com/

你可能感兴趣的文章
慢连接***的原理和防范
查看>>
windows client连linux下的oracle server,ORA-12560: TNS: 协议适配器错误 一例
查看>>
Oracle物化视图之on prebuilt table
查看>>
radioButton空指针
查看>>
【v2.x OGE教程 20】粒子效果
查看>>
android的service
查看>>
Java集合---HashMap源码剖析
查看>>
【互动问答分享】第4期决胜云计算大数据时代Spark亚太研究院公益大讲堂
查看>>
iOS UILabel 设置行高
查看>>
RAID配置与管理详解
查看>>
Sublime Text3—自定义代码片段(Code Snippets)
查看>>
【shell基础】07、bash脚本编程入门及变量
查看>>
php+redis实现多台服务器内网存储session并读取
查看>>
copy--mutableCopy用法(important)
查看>>
我的友情链接
查看>>
Linux命令——cut命令学习
查看>>
lync聊天过程中实现多国语言的即时沟通
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
如何在手机浏览器wap网页中点击链接跳转到微信界面
查看>>