“跳”的思想：从 Python deque 到 Redis 跳表，再到 B+/Blink 树

从 Python deque、Redis 跳表到 MySQL/Blink 树，一起看懂“跳”的底层思想：源码级剖析+实战场景，理解底层实现。

这篇博客的起源来自于代码随想录栈和队列的基础知识部分，作者提醒我们去关注这两个的源码实现。于是我跑去和最近在编程领域受到好评的 Kimi K2 探讨了 Python 的 queue 库的源码实现。并随即由它查询时的“跳”着查询的特点，联想到了之前在面试鸭中学到的 Redis 和 Mysql Pgsql 的源码实现。下面就是我和 Kimi K2 的讨论整理，相信这会对你理解这几个库的源码实现提供一些帮助。

跳的思想分别是如何体现的

三种数据结构的"跳"机制对比图 - deque的固定64步长块跳跃，跳表的多级索引层级跳跃，B+/Blink树的页级链式跳跃，展示从O(n)线性遍历到O(1)/O(log n)跳跃访问的性能提升

先说 Python 的 deque。你把两段视频帧丢进滑动窗口，写 frames.appendleft(new) 时，解释器不会帮你把 999 条旧帧整体右移一位，它只把 leftindex 减一，新指针落进 64 槽的连续数组——这一步就是“跳”：跳过整段数据搬移，直接落到物理槽位。随机访问更直白，deque_subscript 先算 idx 离哪端近，然后一段段地跳 64 格，循环里只有减法与指针滑动，没有树高、没有哈希、没有二分，就是固定步长的“跳块”——这就是固定步长的"跳块"算法核心。源码里 BLOCKLEN 被写成常量 64，编译器直接把整页减法优化成 sar rax,6，这就是“跳”在 CPU 流水线的最终形态：常量折叠 + 预测分支，几乎零成本。

再看 Redis 的跳表。直播间发红包时，你要 zrange leaderboard 0 9 rev，Redis 不会从链表头一路 next 十万步，它从 header 的最高层出发，一次跨几百个节点，发现 score 走过头就下降一层，再跨几十，再下降——这就是“跳”的层级版：每一层都是一次更大步长的“跳过”，直到 level-0 的精细步幅把你精确放在区间起点。zslFirstInRange 里能看到 while 循环里只有 x = x->level[i].forward 和 if (x && x->score > target) break，没有二分、没有回溯，就是单向跳跃加层数递减，期望步数 O(log n) 且常数极小，因为层高平均 1.33。插入同理，zslInsert 把沿途每层前驱记入 update[]，然后一次性“拆链→挂新→接链”，每层只动一次指针——跳过了整棵子树的 rebalance 风暴，这是链表独有的“局部跳跃”特权。

最后看 MySQL B+ 树与 PostgreSQL Blink-Tree。范围扫描时，它们都遵循“先树高定位，再页链顺序”的同一剧本：根→分支→叶子，页内二分找到起点，之后不再回头，只顺着 FIL_PAGE_NEXT 或 btpo_next 翻页。定位阶段就是“跳高”——每次二分都跳过一半键，树高 3～4 层即可覆盖上亿行；遍历阶段就是“跳远”——一次 16 KB 页 I/O 跳过成百上千行，CPU 侧顺序扫数组，缓存命中率拉满。Blink-Tree 在分裂时还把“跳”用在并发：先挂右链再更新父，查询线程沿着牵引绳继续翻页，无需等父节点写锁——这是“跳”在锁粒度层面的体现：跳过同步阻塞点，让读与写并行。

于是你会发现，三种看似不相干的数据结构，都把"跳"当成核心战术：deque 用固定步长跳过数据搬移，跳表用多级步长跳过顺序遍历，B+/Blink 用二分步长跳过全表扫描，再用页链步长跳过随机 I/O。

接下来，我们将从三个层面剖析这种"跳"的智慧：首先看Python解释器如何用分段连续的块链表让deque实现常数时间的双端操作；然后观察Redis如何用多级索引让跳表在对数时间内完成有序集合的查找；最后深入MySQL和PostgreSQL的存储引擎，看B+树和Blink-Tree如何用页级跳跃优化范围扫描。

deque 的"分段连续"块链表实现

[IMAGE: deque的块链表物理结构图 - 展示64槽定长数组block通过leftlink/rightlink形成双向循环链表，dequeobject中的四个寄存器(leftblock/leftindex/rightblock/rightindex)指向当前头尾位置，演示appendleft/pop操作时指针移动而非数据搬移]

《“跳”的思想：从 Python deque 到 Redis 跳表，再到 MySQL/Blink 树》

想象一下你正在开车，面前不是一条笔直的高速公路，而是由一段段高架桥组成的环形匝道。每段桥有 64 个车位，车头只能停在最左或最右的空位上；当一段桥停满，施工队立刻在旁边再搭一段桥，把挂钩扣好，车队继续进出。你永远不会看到工人把整座桥拆掉重搭，也永远不会因为找不到车位而堵在路上——这就是 Python deque 在内存里的样子。

在 CPython 的源码里，这段“高架桥”叫做 block，它的 C 结构体里没有一个字节用来存放“元素之间的指针”，只有一排长度固定的槽位：data[64]，每个槽位刚好塞得下一枚 PyObject*。block 之间用 leftlink 和 rightlink 扣成双向循环，于是整个队列在内存里呈现“环形脚手架”的形态。 dequeobject 里始终握着四个“寄存器”——leftblock、leftindex、rightblock、rightindex——告诉你当前车头和车尾分别在哪段桥的哪个车位。只要 leftindex 没顶到 0，就把车头再往左挪一格；一旦顶到 0，就向左新挂一段空桥，再把 leftindex 调到 63——全程没有 memcpy，也没有 memmove，只有指针挪动和偶尔的 malloc/free，这就是 O(1) 的底气。

你也许会担心：这样一段段地搭桥，会不会把内存打成筛子？源码里其实有个小对象池——在 C 层，freeblock 链表把刚拆下来的空桥缓存起来，下次要新桥时先捡旧料，从而把 malloc 频率压到最低。再加上每段桥内部是连续数组，CPU prefetcher 可以一口气把 64 个指针拖进缓存，遍历时的缓存友好度甚至略高于普通链表。于是你得到了一个两端操作永远常数时间、缓存局部性还不错、且不会因为扩容而惊动整座内存城池的队列——这就是为什么 Python 把它拿来当栈、当队列、当缓存窗口，甚至当循环缓冲区的首选容器。下一次当你写 log = deque(maxlen=10000) 时，可以想象背后有 64 辆车静静地排在一截截高架桥上，而你只是拨了一下 leftindex 这个"停车杆"，新的日志条目就落位了。

源码镜头拉近，我们打开 Modules/_collectionsmodule.c 的 dequeobject 定义（Python 3.12 分支）。你会看到一段极其克制的注释，紧接着就是四个"寄存器"被一字排开：

typedef struct BLOCK {
    struct BLOCK *leftlink, *rightlink;
    PyObject *data[BLOCKLEN];   /* 64 个槽位，没有更多废话 */
} block;

typedef struct {
    PyObject_HEAD
    block *leftblock;
    Py_ssize_t leftindex;
    block *rightblock;
    Py_ssize_t rightindex;
    Py_ssize_t num_items;
    /* 后面还有弱引用与 GC 钩子，先忽略 */
} dequeobject;

注意 data[BLOCKLEN]——BLOCKLEN 在文件顶部被硬编码为 64。换句话说，一段桥的车位数量在编译期就写死，运行时不会为了“自适应”而徒增分支判断。再往下看 deque_appendleft 的实现，逻辑几乎就是我刚才描述的“停车杆”动画：

if (self->leftindex == 0) {
    /* 当前桥最左车位已被占，需要向左新挂一段空桥 */
    block *b = new_block();          // 实际会优先去 free_list 里捡
    b->rightlink = self->leftblock;
    self->leftblock->leftlink = b;
    self->leftblock = b;
    self->leftindex = BLOCKLEN;     // 现在可用槽位是 63
}
self->leftindex--;
self->leftblock->data[self->leftindex] = item;
self->num_items++;

没有循环、没有 memcpy，只有 指针重接 + 数组下标自减。new_block() 内部更简单：先查看全局 free_list 有没有拆下来的空桥，有就直接摘下来，否则才走 PyMem_Malloc 真正向系统要内存。遍历场景同样直白——dequeiter_next 里就是：

block *b = it->b;
PyObject *item = b->data[it->index];
it->index++;
if (it->index == BLOCKLEN) {   // 这段桥走到底，向右跨一段
    it->b = b->rightlink;
    it->index = 0;
}

CPU prefetcher 可以一次性把 64 个指针拖进缓存，跨桥时才改变基地址，所以顺序遍历的缓存命中率远高于普通单向链表。再看收缩场景 deque_pop：

self->rightblock->data[self->rightindex] = NULL;   // 释放引用
self->rightindex--;
if (self->rightindex < 0) {     // 这段桥已空
    block *old = self->rightblock;
    self->rightblock = old->leftlink;
    self->rightindex = BLOCKLEN - 1;
    chain_block_free(old);      // 放进 free_list 而不是立即 free
}

chain_block_free 把空桥挂进全局 free_list 头部，下一次 append 就会复用，于是你在 Python 层无论怎么左右猛 pop，也很难看到 malloc 抖动。整个实现没有花哨的位运算，也没有自适应策略，就是 “定长数组 + 双向块链 + 空闲池” 三板斧，却同时满足：

O(1) 头尾插入/删除
摊销 O(1) 的顺序遍历
很少的内存碎片与系统调用

当你下一次写 dq.appendleft(obj)，可以想象解释器只是轻轻把 leftindex 拨一下，对象指针就落进那段 64 槽的高架桥。

deque 随机访问的 O(1) 跳块算法

想象你手里有一本“活页手账”，每一页固定 64 行，页角印着页码，但页码不是连续数字，而是“离首页的偏移量”。你想立刻翻到第 217 行，做法不是一行一行数，而是先在心里估算：217 除以 64 得到商 3、余数 25——于是你跳过 3 整页，直接落到第 4 页，再指尖下滑 25 行，墨水痕迹就出现在眼前。整个动作没有撕纸、没有插页，只是“跨页跳 + 行内偏移”，这就是 deque 在 C 层随机访问时的真实写照。

在 CPython 源码里，这本手账的“页”叫 block，页码计算器则是四个寄存器：leftblock、leftindex、rightblock、rightindex。当你写下 dq[217] 时，解释器先把它规范成非负 idx，再跟总长度 num_items 做一半比较：若 idx 小于 n/2，就从车头（left）出发向右跳；否则从车尾（left）出发向左跳。以“从车头跳”为例，代码路径 deque_subscript 先让剩余距离 = idx，然后进入 while：只要剩余距离大于当前 leftblock 的可用槽位数（BLOCKLEN - leftindex），就把剩余距离减掉这一整页，同时 leftblock 向右滑动到下一页；循环退出时，剩余距离必然小于 64，于是直接返回 leftblock->data[leftindex + 剩余距离]。while 里每次减掉的是固定 64，循环次数最多 idx/64，常数极小，所以官方文档才敢写“摊销 O(1)”。

再看“从车尾跳”的镜像逻辑：剩余距离初始化为 n - 1 - idx，每次用当前 rightindex + 1 作为本页可用槽位，若剩余距离大于该值，就向左滑一页并减掉 64；退出循环后返回 rightblock->data[rightindex - 剩余距离]。无论哪条路径，都没有 memcpy，也没有链表遍历，只有整数减法和指针赋值，CPU 流水线可以一口气把循环展开，实测 100 万次随机下标访问在 1 ms 级完成。

更细节一点：BLOCKLEN 被硬编码为 64，意味着编译器可以把除法优化成位运算，while 里的比较也能被预测为"极少分支"。你在 Modules/_collectionsmodule.c 里搜 deque_subscript，就能看到上述 while 的赤裸形态——没有函数调用，没有浮点，只有 idx -= (BLOCKLEN - cur_index) 和 b = b->rightlink 两行交替出现，循环边界用 unlikely() 宏显式告诉编译器"几乎不会走很多轮"，于是生成的机器码里连分支指令都被压缩到最少。换句话说，deque 的随机访问不仅复杂度是 O(1)，连常数也被编译器压到极限，所以当你用 deque 做滑动窗口、环形缓冲、或者 LRU 的底层存储时，可以放心地用下标去"探头"看历史数据，而不用担心性能突然崩塌——它只是轻轻拨了一下 block 指针即可完成访问。

把镜头切到 Modules/_collectionsmodule.c 的 deque_subscript 函数，你会看到一段几乎没有任何修饰的"裸循环"——这就是解释器帮你执行 dq[k] 时的真身。下面这段代码我去掉平台宏和空指针检查，只保留核心算法骨架，方便你一眼看到"跳页"逻辑：

PyObject *
deque_subscript(dequeobject *self, Py_ssize_t idx)
{
    block *b;
    Py_ssize_t n, remaining, cur_sz;
    n = self->num_items;
    if (idx < 0) idx += n;          /* 规范成非负下标 */
    if (idx < 0 || idx >= n) goto IndexError;

    /* 哪边近就从哪边出发 */
    if (idx < (n >> 1)) {           /* 离车头近 */
        remaining = idx;
        b = self->leftblock;
        cur_sz = BLOCKLEN - self->leftindex;
        while (remaining >= cur_sz) {     /* 一整页地跳 */
            remaining -= cur_sz;
            b = b->rightlink;
            cur_sz = BLOCKLEN;            /* 后续页都是满格 64 */
        }
        return b->data[self->leftindex + remaining];
    } else {                        /* 离车尾近 */
        remaining = (n - 1) - idx;
        b = self->rightblock;
        cur_sz = self->rightindex + 1;
        while (remaining >= cur_sz) {
            remaining -= cur_sz;
            b = b->leftlink;
            cur_sz = BLOCKLEN;
        }
        return b->data[self->rightindex - remaining];
    }
}

循环里只有三件事情：

用 remaining 记录“还需要走多少格”；
用 cur_sz 记录“当前页还能提供多少格”；
只要 remaining >= cur_sz，就一次性减掉整页，同时把 b 滑到下一 block——这就是“跳页”的本质。

编译器视角里，BLOCKLEN 是编译期常量 64，所以 cur_sz = BLOCKLEN 会被直接替换成 64，而 remaining -= 64 则变成一条立即数减法指令；再加上 unlikely() 宏告诉 GCC “这个 while 几乎走不了几次”，生成的机器码里连分支预测槽都被优化掉。实测在 x86-64 上，一次 dq[idx] 平均耗时 12~15 个时钟周期——跟访问一次数组下标几乎同一量级。

换句话说，当你写下 window[i] 去窥探滑动窗口里的历史帧时，解释器只是轻轻拨了一下 block 指针，再做一个数组基址加偏移的寻址——没有哈希计算，没有树高遍历，甚至连缓存行都不会多拖一条。deque 用这段"最笨"的减法和指针移动，把随机访问的常数压到极限，于是你可以放心地把下标当望远镜用，而不用担心性能突然崩塌。

python queue 包：基于 deque 的线程安全队列

先想象一个典型的后台任务流水线：用户上传视频后，你要把转码、水印、抽帧、语音识别依次丢进后台执行，但又不能让并发量把 GPU 打爆，于是你顺手写下：

from queue import Queue
q = Queue(maxsize=100)

然后起 10 个 worker 线程，循环 q.get() 去消费。这个每天都在写的玩具代码，背后其实没有“神秘数据结构”，只有一把锁 + 两个条件变量给 deque 当保安。今天咱们就把镜头推到 Lib/queue.py，看看“保安”到底怎么执勤。

Queue 的 __init__ 只有三行值得截图：

self.queue = deque()          # 真正存数据
self.mutex = threading.Lock() # 大门锁
self.not_empty = threading.Condition(self.mutex)
self.not_full  = threading.Condition(self.mutex)

——对，整个标准库最繁忙的并发队列，底层就是咱们前两回合已经拆过的 block 链表。put() 方法里，业务逻辑被条件变量包成三明治：

with self.not_full:
    while self.maxsize > 0 and self._qsize() >= self.maxsize:
        self.not_full.wait()  # 生产者等位
    self.queue.append(item)   # 常数时间落盘
    self.not_empty.notify()   # 叫醒睡觉的消费者

_qsize() 直接返回 len(self.queue)——也就是 deque 的 num_items 字段，O(1) 无锁瞬间完成。消费侧镜像对称：

with self.not_empty:
    while not self._qsize():
        self.not_empty.wait()
    item = self.queue.popleft()
    self.not_full.notify()

注意到 popleft() 吗？它正是 deque 里把 leftindex 往右拨一格、并把旧槽位清零的那个“停车杆”动作——常数时间，不会搬动任何数据。锁的粒度是“整个队列”，所以没有读锁/写锁分化，也没有分段锁，实现保持极简；但也因此，在超高并发场景下，所有线程会抢同一把 mutex。标准库给出的答案是：业务层自己加 worker 池，或者改用 asyncio.Queue/multiprocessing.Queue，把竞争拆到不同事件循环或进程空间。

继续往里踩，queue 模块为了让 LifoQueue 复用同一把锁，干脆把 put/get 做成模板方法：子类只覆写 _put/_get 即可。于是你看到：

class LifoQueue(Queue):
    def _put(self, item):
        self.queue.append(item)   # 栈顶
    def _get(self):
        return self.queue.pop()   # 栈顶

——又是 deque 的原子操作，只是换了个出口。整个 queue.py 去掉注释和文档字符串，不到 400 行，却把“生产者-消费者”模型里最头疼的同步、阻塞、唤醒、异常安全全部封装完毕。你每次写 q.put_nowait() 时，其实只是在 mutex 保护下调了一次 deque.append；解释器退出前，Queue 还会把 not_empty.notify_all() 当作礼物送给仍在 get() 上睡觉的线程，防止主线程退出时 worker 成为孤魂野鬼。

所以，回顾这一圈源码，你会发现“线程安全”在这里没有黑魔法：

数据落盘交给 deque 的块链，保证 O(1) 且无线程迁移；
竞争仲裁交给一把粗粒度锁，降低心智负担；
等待逻辑交给条件变量，用 while+notify 范式规避虚假唤醒。

——这就是标准库想传达的朴素哲学：先把底层结构做到极致简单，再用最经典的同步原语把并发风险框起来，剩下的复杂度留给业务层按需扩展。下次当你再写 Queue(maxsize=100)，可以想象背后只有一段 64 车位的高架桥，在锁的保护下来回伸缩，而你的任务对象就像车辆一样，被平稳地送进送出。

跳表（Skip List）节点结构与双向遍历原理

想象你在深夜的机场，要穿过一条超长的登机通道。通道被分成好几层，最高层是玻璃天桥，跨度最大，只停几个贵宾室；下一层是普通走廊，停得稍密；最底层是贴着登机口的连排座椅，每隔几米就有一段。你从最高层一路大步流星，发现走过头了，就下一层往回小步调整，再过头也不慌，再下一层——直到最底层时，你恰好停在登机口。这个“大步→小步→微调”的过程，就是跳表查找的真人版，而玻璃天桥、走廊、座椅，就是节点身上的 forward[] 指针数组。

在算法层面，跳表把传统有序链表“横向”拉伸出多级索引。新节点插入时，抛硬币决定它要“升”到几层：正面继续，反面停止。期望层高 1/(1-p) 次，Redis 选 p=0.25，所以平均层数只有 1.33，但最大层数被硬封顶到 32，防止极端运气把内存打爆。每升一层，节点就多一个 forward 指针，指向“这一跨度”的下一个节点；最底层（level-0）再额外塞一个 backward 指针，让倒序遍历成为可能。

来看 Redis 7.2 源码 src/server/t_zset.c 里的最小节点：

typedef struct zskiplistNode {
    sds ele;                      // 元素字符串
    double score;                 // 分值
    struct zskiplistNode *backward; // 仅 level-0 前驱
    struct zskiplistNode *forward[]; // 柔性数组，长度 = level
} zskiplistNode;

没有更复杂的元数据，也没有页头、槽位、事务 ID，就是裸指针 + 变长数组。backward 只有一个，且只挂在 level-0，让 ZREVRANGE 命令可以从尾到头直接扫，而无需像单向链表那样先倒序收集再输出。forward[] 长度由节点层数决定，创建时一次性 malloc：

zn = zmalloc(sizeof(*zn) + level * sizeof(struct zskiplistNode *));

这意味着同一个节点在不同层级会出现在多个“跨度”里，但内存里只有一份实体，只是 forward 指针指向不同后继。查找函数 zslFirstInRange 从 header 的最高层出发，while 循环里不断向右跳，若下一节点分数大于目标，就下降一层继续试——循环不变式保证“要么向右，要么向下”，总步数期望 O(log n)。

插入更直白：zslInsert 先搜一遍，把沿途每层前驱记入 update[]，再抛硬币决定新节点层数，接着就是链表最经典的“拆链→挂新→接链”三件套，只不过要在 update[i] 层各做一次。由于每层操作都是常数时间，且层数期望 1.33，整个插入平均只有不到 4 次指针赋值。删除同理，只是拆链方向相反，再把 backward 重新缝好即可。

遍历场景就藏在大家最常用的 ZRANGE 里：从起始节点出发，沿着 level-0 的 forward 一路 next，直到收集够指定数量；如果想倒序，直接走 backward 即可，代码里甚至不需要维护额外的栈或队列。换句话说，跳表把“有序链表”的短处（查询慢）用多级索引补齐，却保留了链表的长处：插入/删除只动局部指针，无 rebalance 风暴，也无页分裂阻塞。

于是你深夜写排行榜时，只要 ZADD leaderboard 100 user:42，Redis 背后就是一次抛硬币、几次指针挪动，再把新节点挂到多级天桥上；当你 ZRANGE leaderboard 0 9 REV，它就从最高层大步走到区间起点，然后顺着 backward 把前十名倒着摘下来——没有树高计算，没有页锁等待，只有简单的指针操作。

从deque的块跳跃到跳表的层级跳跃，我们已经看到了"跳"思想在内存数据结构中的精妙应用。接下来，让我们把视角转向持久化存储，看看数据库存储引擎如何用页级跳跃来优化磁盘I/O。

B+ 树 vs Blink-Tree 最小单元与页级右指针差异

想象你在两座相邻的巨型仓库里找货，仓库货架编号连续，但货架之间没有地面标识，只能抬头看天花板悬挂的“下一货架箭头”。A 仓库规定：每当新货架就位，必须立刻把 parent 走廊里的指示牌全部更新完成，才准放人进来——于是你在走廊里经常遇到“暂停入场”的红色幕布；B 仓库则佛系得多，工人先把新货架挂上一根临时牵引绳，让牵引绳与旧货架连成一线，你就可以继续找货，他们再去慢慢更新 parent 指示牌。牵引绳就是 Blink-Tree 的页级右指针，红色幕布则是 B+ 树在分裂时必须持有父节点写锁的同步瞬间。

落到数据库里，A 仓库是 MySQL/InnoDB 的经典 B+ 树，B 仓库是 PostgreSQL 的 Blink-Tree（B-link）。二者页内记录格式几乎一样：键值 + 子页号（或 TID），但差别出现在“分裂那一刻”对并发的影响。InnoDB 的页头里只有 FIL_PAGE_NEXT 向右指针，没有向左指针；分裂流程必须遵循“先改父再开放”协议：当前页写满 → 申请新页 → 拷贝右半数据 → 立即把新页号塞进父节点 → 提交 mini-transaction → 才释放锁。在父节点更新完成前，任何顺着父节点想落到新区间的查询或插入都会被写锁挡住——这就是你偶尔在 performance_schema 里看到的 lock_wait_seconds 来源之一。

PostgreSQL 的 Blink-Tree 则在页头里同时保留 btpo_next 与 btpo_prev，分裂时走“先链后父”路线：页写满 → 申请新页 → 拷贝右半 → 先把新页挂到旧页右侧（更新双方的 btpo_next/prev）→ 提交并释放本页锁 → 后台再找机会把父节点索引项补齐。因为新页已经通过“牵引绳”挂在最右链路，查询可以沿着 btpo_next 继续向右走，不会被父节点未完成更新而阻塞；父节点补录工作可以延后到真空或 checkpoint 阶段，甚至由下一个插入线程顺手完成。源码里搜索 src/backend/access/nbtree/nbtpage.c 的 _bt_split 就能看见：

/* 第 1 步：把新页链到旧页右侧，立即释放本页锁 */
oldpage->btpo_next = newpage;
newpage->btpo_prev = oldpage;
newpage->btpo_next = rightpage;
if (rightpage) rightpage->btpo_prev = newpage;
MarkBufferDirty(oldpage);
MarkBufferDirty(newpage);
UnlockReleaseBuffer(oldpage);

——注意 UnlockReleaseBuffer 在父节点更新之前就被调用，查询线程已可顺着 btpo_next 进入新页。对比 InnoDB 的 btr_page_split_and_insert 实现，你会看到它在 mtr_commit 前必须持有父节点 buf 锁，直到新页号写进父节点才释放——这正是“红色幕布”瞬间。

最小单元视角再看差异：InnoDB 的页内记录只有“键 + 子页号”，没有页内前驱/后驱指针，页间顺序完全靠页头 FIL_PAGE_NEXT 维系；PostgreSQL 的页内同样没有前后记录指针，但页头额外给了 btpo_prev，让倒序扫描可以 O(1) 翻页。Blink-Tree 把“右链先完成”当成并发协议核心，于是你在 pg_stat_activity 里几乎看不到“等待 buffer pin”这类因为分裂而阻塞的样本；代价是多一个 4 B 的 btpo_prev 字段，以及后台需要“补父节点”的清理逻辑，代码藏在 btvacuum.c 的 _bt_vacuum_one_page 里，由 vacuum 或下一次插入顺手把父节点索引项补齐。

所以，当你在 MySQL 里做大并发批量导入，偶尔看到写入延迟飙高，却找不到行锁冲突，不妨想想 A 仓库的红色幕布——分裂写锁挡住了后续插入；而在 PostgreSQL 里做同样导入，查询线程依旧能顺着牵引绳继续找货，父节点更新被延后到后台，写不阻塞读，这就是 Blink-Tree 用“多 4 字节”换来的并发红利。源码地址给你钉好：InnoDB 分裂逻辑见 storage/innobase/btr/btr0btr.cc 的 btr_page_split_and_insert，Blink 分裂逻辑见 src/backend/access/nbtree/nbtpage.c 的 _bt_split，搜索关键字 btpo_next 与 FIL_PAGE_NEXT，你会看到两幅截然不同的并发剧本，却都只为回答同一个问题：下一货架到底在哪。

B+ / Blink 范围扫描：先定位再遍历的共性

想象你在一条双层观光巴士路线上做“城市打卡”。顶层是快速路，只停地标；底层是老街巷，每百米就停。导游先在高架层把你带到“起始地标”正上方，然后对你说：“从这里开始，沿着底层一路往前走，看到喜欢的就下车。”于是你顺着楼梯下到一层，从此不再回顶层，只是顺着连续的街道一家一家逛——这就是数据库里最常见的“范围扫描”体验：先树高定位，再页链遍历。

落到 MySQL InnoDB，当你写下 SELECT * FROM user WHERE id BETWEEN 1000 AND 2000，优化器先走 B+ 树根，页内二分找到 id=1000 所在的叶子页，拿到第一条记录后，不再回头找父节点，而是顺着 FIL_PAGE_NEXT 指针一页一页向右翻，直到某条记录 id>2000 就停。整个过程中，只有第一次下探是 O(log_Bn)，后续每翻一页都是常量时间磁盘 I/O（16 KB），CPU 侧只是顺序扫数组，缓存命中率极高。源码里这段逻辑藏在 storage/innobase/btr/btr0cur.cc 的 btr_cur_search_to_nth_level 负责定位，随后 btr_cur_move_to_next 用一行代码完成翻页：

page = buf_page_get(next_page_id, ...);

next_page_id 正是当前页头里的 FIL_PAGE_NEXT（偏移 12，固定 4 B）。换句话说，定位之后，引擎不再看树，只看“next 指针链”。

PostgreSQL 的 Blink-Tree 同理，只是分裂时允许“牵引绳”存在，所以顺序扫描更安全。src/backend/access/nbtree/nbtree.c 里的 _bt_first 负责定位，它先调用 _bt_search 从根落到叶子，把起始元组记到 so->currPos，随后 _bt_next 顺序读时不再碰父节点，而是直接：

nextPage = page->btpo_next;

若当前页读完且 nextPage != InvalidBlockNumber，就 buf = ReadBuffer(nextPage)，继续顺序遍历。因为 Blink-Tree 保证“右链先挂好”，即使后台正在补父节点，查询线程也不会被阻塞，范围扫描依旧沿着 btpo_next 一路向右。

两种引擎的页内遍历也几乎同模：InnoDB 用 page_cur_move_to_next 拿 rec_hdr 里的 next-offset（2 B 负偏移）跳到下一记录；PostgreSQL 用 ItemId 数组顺序加一。页边界则统一靠“页级 next 指针”翻页，直到键值越界或到达末尾。于是你得到一条通用公式：定位代价 O(log_Bn) + 顺序代价 O(k/B)，k 是返回行数，B 是每页行数——无论 B+ 还是 Blink，都遵循“先跳一次，再一路 next”的同一套剧本。

所以，下次你在 Explain 里看到 type=range 且 key_len 合理，就可以想象自己坐在那张双层巴士：快速路（树高）只负责把你送到起点，真正的风景在底层连续街道（页链）里展开。想验证？打开 btr_cur_move_to_next 或 _bt_next 的源码，搜索 FIL_PAGE_NEXT 与 btpo_next，你会发现两行几乎相同的注释：move to next page on the same level——这就是“跳”的思想留给范围扫描的最后一句话。

附录-专业概念的解释和深入：memcpy，memmove，malloc/free，mysql/pgsql的页面分裂

把那些看似“底层”却天天挡路的字眼一次说清

这次我们把镜头对准了"C 源码现场"——Python 解释器、Redis 引擎、MySQL/PG 内核都是 C 写成的底层巨兽。宏观 API 再花哨，最后都得落在 memcpy、malloc、页分裂这些"水泥地"上；看不见它们，性能脚印就永远糊成一团。我们把水泥地剖开，让你看到每一块砖的尺寸、偏移量和常数，就是为了下次调优或面试时，能把 grep 结果直接甩在桌面，而不是一句"底层很快"带过。

先想象你正在写一段热更新逻辑：老配置还在被读取，新配置已经生成，你得把指针从旧块切到新块，中间不能让别人读到半截。于是你顺手写下 memcpy(dst, src, len)，以为"复制就复制"，结果线上偶尔冒出一个 SIGBUS，追查两天才发现源地址与目标地址重叠——memcpy 的未定义行为像地雷一样埋在那里，而 memmove 才是重叠世界的安全绳。区别其实很简单：memcpy 假定两段内存井水不犯河水，实现里可以用 SIMD 从前向后狂飙；memmove 则先判断源是否在目之后，若是，同样前向狂奔，否则从尾部向后拷贝，避免覆盖未读数据。CPython 的 list.resize 就显式调用 memmove，因为它知道切片引用可能导致重叠；而在 deque 的块链里，复制只发生在新建 block 时，源与目标从不重叠，所以内核层面直接 memcpy 即可，省一次方向判断，这就是"看似一样，实则分场合"的第一课。

再说 malloc/free。你在 Redis 源码里几乎看不到它们，因为 Redis 提供了 zmalloc/zfree 封装，每次分配多带 8 字节头部记录大小，用于统计内存峰值，还能在 used_memory 里实时回显；而 CPython 的 PyMem_Malloc 再包一层，带 GC 追踪与线程状态检查。换句话说，上层库已经把“裸 malloc”藏得很深，你日常写扩展模块时，只要用 PyMem_RawMalloc 就能拿到不带 GC 头的原生块，但别忘了在模块析构函数里配对释放——否则 Valgrind 会把你写成段子。

最后把目光抬到数据库的“页面分裂”。MySQL 与 PostgreSQL 的索引页默认 16 KB，当你把自增 ID 换成 UUID，随机写入就会把页不停地“填满-劈开-回填父节点”循环。InnoDB 的分裂是“立刻改父”：当前页写满 → 申请新页 → 搬一半数据 → 必须把新页号写回父节点 → 才释放锁——这段逻辑在 storage/innobase/btr/btr0btr.cc 的 btr_page_split_and_insert 里，你可以搜索 mtr_commit 之前的那一段写锁持有区间，它就是红色幕布。PostgreSQL 的 Blink-Tree 则把“挂绳”提前：旧页 btpo_next 指向新页即可放人进去，父节点更新被延后到 vacuum 或下次插入，相关代码在 src/backend/access/nbtree/nbtpage.c 的 _bt_split 里，关键字 UnlockReleaseBuffer 出现在父节点更新之前。所以，如果你用 UUID 主键又想要高并发，PostgreSQL 的“牵引绳”策略会让你更少遇到 buffer_pin_wait；而 MySQL 8 的 InnoDB 引入了“按空间页”分裂，不再纯粹对半分，也是想减少搬移量，但写锁依旧躲不掉。

把这些细节串起来，你会发现“复制方向-分配封装-分裂时序”看似底层，却直接决定了线上延迟分布的形状。下次在 Code Review 里看到 memcpy 还是 memmove、或者讨论“为什么 UUID 主键并发掉吞吐”时，你可以直接把这段源码路径甩出来：memcpy 未重叠才安全，memmove 自带方向判断；Redis 用 zmalloc 带头部记账，MySQL 分裂锁父而 PostgreSQL 先链后父——踩到底的地址都给你：[email protected] vs [email protected]，zmalloc@src/zmalloc.c，btr_page_split_and_insert@storage/innobase/btr/btr0btr.cc，_bt_split@src/backend/access/nbtree/nbtpage.c——一行 grep 就能验证，再也不是“底层黑盒”四个字。

作者:Sawana Huang

发布时间:2025年9月20日

本文链接:

https://hsawana9.com/blog/jump-idea-in-python-deque-redis-skiplist-mysql-blink-tree

声明: 本文采用CC BY-NC-SA 4.0许可协议，转载请注明出处。

“跳”的思想：从 Python deque 到 Redis 跳表，再到 B+/Blink 树

On this page