Redis 之 String 底层实现：从设计哲学到性能密码

在 Redis 的五大基本数据类型里，String 类型看似是最朴素的存在，却像基石般支撑着无数核心场景 —— 小到缓存用户 Token、实现分布式锁，大到计数器统计、bitmap 位图操作，几乎所有 Redis 相关的业务都离不开它。

但你知道吗？这个看似 “简单” 的类型，其底层实现藏着 Redis 高性能的诸多密码。今天，我们就来深入剖析 String 类型的底层数据结构 SDS（Simple Dynamic String），看看它是如何通过精巧设计解决 C 语言字符串的固有缺陷，又是怎样让 Redis 实现灵活高效的字符串管理的。

一、为什么 Redis 不直接用 C 字符串？

C 语言的字符串（以char*数组表示，靠'\0'标识结束）在 Redis 这样的高性能数据库中，存在着难以克服的缺陷。我们通过三个典型场景，就能明白 C 字符串为何会成为性能瓶颈：

1. 长度获取的性能陷阱

当我们调用STRLEN key命令时，Redis 需要立刻返回字符串的长度。可对于 C 字符串来说，这意味着要从头遍历整个数组，直到找到'\0'为止，时间复杂度是O(n)。

在高频访问场景中，比如每秒数万次的STRLEN调用，这种线性遍历会像 “吞噬者” 一样迅速耗尽 CPU 资源。

2. 二进制安全的致命缺陷

C 字符串靠'\0'判断结束，这让它没办法存储包含空字符的二进制数据，像图片、视频帧、序列化对象等都不行。

举个例子，一张 PNG 图片的文件头里有0x00字节，要是用 C 字符串存储，就会被误认为是字符串结尾，直接导致数据截断。

3. 内存管理的 “达摩克利斯之剑”

C 字符串长度固定，修改时得手动分配和释放内存。就像执行拼接操作（如strcat）时，要是没提前算好所需空间，很容易发生缓冲区溢出 —— 这可是早期 C 语言程序最常见的安全漏洞之一。

对于 Redis 这样的自动管理系统，这种手动内存操作显然不靠谱。

二、SDS：Redis 自定义的字符串引擎

为了解决这些问题，Redis 设计出了简单动态字符串（SDS） 结构，它的核心思想是：用元数据记录字符串状态，实现自动化、高性能的内存管理。我们从数据结构定义开始，一步步揭开它的神秘面纱。

1. SDS 的多层级结构体设计

SDS 不是单一结构，它会根据字符串长度动态选择不同的结构体，目的是最小化内存占用。Redis 定义了四种类型的 SDS 头部：

// 适用于长度 < 256字节的字符串

struct sdshdr8 {

uint8_t len; // 已使用长度（0-255）

uint8_t alloc; // 总分配长度（len + 空闲空间）

unsigned char flags; // 类型标记（值为SDS_TYPE_8）

char buf[]; // 柔性数组，存储实际数据

};

// 适用于 256 ≤ 长度 < 65536字节的字符串

struct sdshdr16 {

uint16_t len; // 已使用长度（0-65535）

uint16_t alloc; // 总分配长度

unsigned char flags; // 类型标记（SDS_TYPE_16）

char buf[];

};

// 适用于更长字符串的sdshdr32和sdshdr64结构类似

这种自适应类型设计的巧妙之处很明显：

短字符串（像大部分缓存键值）用sdshdr8，只需 2 字节元数据（len+alloc）

长字符串会自动升级到更高类型，避免溢出风险

通过flags字段的低 3 位标识类型，能在 O (1) 时间内识别结构体

2. 核心字段的战略意义

len字段：直接存储字符串的有效长度，让STRLEN命令的时间复杂度降到O(1)。这意味着获取一个 1GB 字符串的长度，和获取一个 1 字节字符串的长度一样快。

alloc字段：记录总分配空间，通过alloc - len能快速算出空闲空间，为动态扩容提供依据。

buf数组：存储实际字节数据，会保留末尾的'\0'字符（为了兼容 C 标准库函数），但这个字符不算在len里。

三、SDS 的四大核心优势解析

SDS 的设计可不只是 “给 C 字符串加个长度字段” 这么简单，它是一套完整的内存管理方案。下面这四大特性，共同构成了 Redis 字符串高性能的基石：

1. 二进制安全：打破'\0'的桎梏

SDS 靠len字段而不是'\0'来判断字符串结束，彻底解决了二进制数据存储的问题。比如存储包含空字符的"a\0b"时：

C 字符串会被截断成"a"（长度 1）

SDS 的len字段记录为 3，buf数组完整存储'a','0','b','0'（末尾'\0'是额外的）

这种特性让 Redis 不仅能存储文本，还能直接处理图片、视频片段等二进制数据（不过不推荐存储大文件哦）。

2. 预分配策略：减少内存重分配的 “时空交易”

内存重分配（malloc/realloc）是很耗时的系统调用，涉及内存块查找、权限修改等操作。SDS 通过预分配策略来减少重分配次数：

当字符串长度小于 1MB 时，扩容时会额外分配与len相等的空闲空间（也就是总容量翻倍）

当长度≥1MB 时，每次扩容额外分配 1MB 空闲空间

举个例子：对一个长度为 100 字节的 SDS 执行APPEND操作增加 50 字节：

实际会分配(100+50)*2=300字节空间

后续再追加 100 字节，就不用再次分配内存了

这种 “空间换时间” 的策略，让连续修改操作的内存重分配次数从 O (n) 降到了 O (log n)。

3. 惰性空间释放：避免频繁收缩的性能损耗

当执行SET key "short"覆盖一个长字符串时，SDS 不会马上释放多余内存，而是把空闲空间留着供未来使用。比如：

原字符串长度 1000 字节，覆盖成 100 字节后

len更新为 100，但alloc还是保持 1000（空闲空间 900）

要是后续再追加数据，就能直接用这些空闲空间

如果想强制释放空闲内存，可以调用SDSTRIM命令（对应源码中的sdsRemoveFreeSpace函数）。

4. 类型自动转换：内存效率与安全性的平衡术

SDS 会根据字符串长度自动升级或降级类型：

当长度从 255 增至 256 时，会从sdshdr8升级为sdshdr16

长度减少时不会自动降级（为了避免频繁的内存操作）

升级流程也不复杂：

算出新长度所需的类型（比如 256 字节需要sdshdr16）

分配新类型的内存空间（头部 +buf数组）

把原有数据复制到新空间

释放旧内存并更新指针

这种机制既保证了内存使用效率，又杜绝了溢出风险。

四、从源码看 SDS 的关键操作

要真正理解 SDS，研读它的核心函数实现是个好办法。下面选三个关键操作，来看看它的底层逻辑：

1. 获取长度：sdslen函数

static inline size_t sdslen(const sds s) {

unsigned char flags = s[-1]; // s是buf指针，s[-1]指向flags

switch(flags & SDS_TYPE_MASK) {

case SDS_TYPE_8: return ((sdshdr8*)(s - SDS_HDR_VAR(8)))->len;

case SDS_TYPE_16: return ((sdshdr16*)(s - SDS_HDR_VAR(16)))->len;

// 其他类型类似

}

return 0;

}

精妙之处：通过指针运算反向获取flags，再根据类型算出len的地址并读取，全程都是 O (1) 时间。

2. 扩容实现：sdsMakeRoomFor函数

sds sdsMakeRoomFor(sds s, size_t addlen) {

size_t avail = sdsavail(s);

if (avail >= addlen) return s; // 空间足够，直接返回

size_t len = sdslen(s);

size_t newlen = len + addlen;

// 应用预分配策略

if (newlen < SDS_MAX_PREALLOC) newlen *= 2;

else newlen += SDS_MAX_PREALLOC;

// 类型检查与升级

char type = sdsReqType(newlen);

// 内存重分配...

return s;

}

核心逻辑：先检查空闲空间，不够的话就按规则算出新容量，必要时升级类型并重新分配内存。

3. 字符串拼接：sdscat函数

sds sdscat(sds s, const char *t) {

return sdscatlen(s, t, strlen(t));

}

sds sdscatlen(sds s, const void *t, size_t len) {

size_t curlen = sdslen(s);

s = sdsMakeRoomFor(s, len); // 确保有足够空间

if (s == NULL) return NULL;

memcpy(s + curlen, t, len); // 拼接数据

sdssetlen(s, curlen + len); // 更新长度

s[curlen + len] = '\0'; // 保持C兼容性

return s;

}

安全保证：拼接前会通过 sdsMakeRoomFor确保空间充足，彻底避免缓冲区溢出。

五、Redis String 类型的编码转换

SDS 是 String 类型的基础，但 Redis 还会根据字符串内容进一步优化存储：

1. 三种编码方式

OBJ_ENCODING_INT：当字符串是整数值（比如"12345"），会直接存储为long long类型，用不到 SDS

OBJ_ENCODING_EMBSTR：短字符串（≤44 字节）时，redisObject与sdshdr8连续存储，能减少内存碎片

OBJ_ENCODING_RAW：长字符串时，redisObject与 SDS 分开存储

2. 编码转换触发条件

整数字符串被修改成非整数（比如SET key "123abc"）→ 转为RAW

EMBSTR字符串被修改后长度超过 44 字节 → 转为RAW

RAW编码不会自动转回EMBSTR或INT

举个例子：

127.0.0.1:6379> SET num 12345

OK

127.0.0.1:6379> OBJECT ENCODING num

"int"

127.0.0.1:6379> SET str "short string"

OK

127.0.0.1:6379> OBJECT ENCODING str

"embstr"

127.0.0.1:6379> APPEND str " which becomes very long..."

(integer) 36

127.0.0.1:6379> OBJECT ENCODING str

"raw"

六、SDS 设计对 Redis 性能的深远影响

SDS 的设计不仅解决了 C 字符串的缺陷，更成了 Redis 高性能的关键支柱：

减少系统调用：预分配策略让内存重分配次数降低 90% 以上，尤其在高频更新场景（比如计数器INCR）效果特别明显。

降低内存碎片：EMBSTR编码把元数据与数据连续存储，减少了内存管理器产生的碎片。

支撑核心命令：STRLEN、APPEND、SETRANGE等命令能高效实现，都离不开 SDS 的特性。

扩展功能基础：Bitmap 功能（像SETBIT、BITCOUNT）本质上是对 SDS 字节数组的位操作。

根据 Redis 官方基准测试，在字符串频繁修改的场景下，SDS 相比 C 字符串能提升性能 3 - 5 倍，数据量越大，差距越明显。

结语：简单中的极致追求

SDS 的设计展现了 Redis 的核心哲学 ——用精巧的底层实现支撑简洁的上层接口。这个看似简单的字符串结构，通过长度记录、预分配、类型自适应等技术，完美平衡了性能、安全性和内存效率。

对于开发者来说，理解 SDS 不仅能帮我们更好地使用 Redis（比如避免存储过大的 String 值），更能从中学习到 “针对具体场景优化基础组件” 的设计思想。

在 Redis 的世界里，没有真正的 “简单”，每一个细节都凝聚着对性能的极致追求。下次当你执行SET key value这个简单命令时，或许会想起，在 Redis 内部，一个精心设计的 SDS 正在为这个操作提供着高效可靠的支撑。

菜单

分享

Redis 之 String 底层实现：从设计哲学到性能密码

一、为什么 Redis 不直接用 C 字符串？

1. 长度获取的性能陷阱

2. 二进制安全的致命缺陷

3. 内存管理的 “达摩克利斯之剑”

二、SDS：Redis 自定义的字符串引擎

1. SDS 的多层级结构体设计

2. 核心字段的战略意义

三、SDS 的四大核心优势解析

1. 二进制安全：打破'\0'的桎梏

2. 预分配策略：减少内存重分配的 “时空交易”

3. 惰性空间释放：避免频繁收缩的性能损耗

4. 类型自动转换：内存效率与安全性的平衡术

四、从源码看 SDS 的关键操作

1. 获取长度：sdslen函数

2. 扩容实现：sdsMakeRoomFor函数

3. 字符串拼接：sdscat函数

五、Redis String 类型的编码转换

1. 三种编码方式

2. 编码转换触发条件

六、SDS 设计对 Redis 性能的深远影响

结语：简单中的极致追求

这是一篇测试文章

pgbouncer 下对于pgsql会话依赖的-currval()函数

Redis 之 String 底层实现：从设计哲学到性能密码

redis使用String和Hash时候应该注意什么？

Redis之Hash的底层实现

pgbouncer连接复用破坏session场景拓展

对于io分为哪几个类型

Redis ZSet 底层实现原理深度解析

Redis Set 底层实现原理深度解析

dict 在 Redis ZSet 中的核心作用解析