C++ 性能优化之递归

递归（recursion）在 C++ 中本质上是函数调用自身，因此性能瓶颈主要来自以下几点：

函数调用栈的开销（保存返回地址、参数、局部变量等）
每次调用的指令跳转
编译器优化（例如尾递归优化）

一、递归性能低的根源

假设你有一个简单的递归函数：

int factorial(int n) {
    if (n <= 1) return 1;
    return n * factorial(n - 1);
}

这里的每次调用都要：

压栈 n 的值；
压栈返回地址；
创建新的栈帧；
执行函数跳转；

因此，递归调用多层后性能下降明显，甚至会触发栈溢出。

二、高性能递归的关键优化策略

✅ 1. 尾递归优化（Tail Recursion Optimization）

尾递归是最常见的“高性能递归”技巧。当一个函数的最后一步操作是调用自身，编译器可以将递归转换为循环，避免栈增长。

例：

int factorial_tail(int n, int acc = 1) {
    if (n <= 1) return acc;
    return factorial_tail(n - 1, acc * n);
}

如果编译器支持 尾调用优化 (TCO)，这段代码性能几乎等同于循环。不过：

MSVC 不会优化尾递归；
Clang / GCC 在 -O2 或更高优化等级时会自动优化；

🔹 强制优化方式：

g++ -O3 -foptimize-sibling-calls main.cpp -o main

✅ 2. 将递归改写为迭代（显式栈模拟）

当尾递归优化不可用时，可以手动用栈代替系统调用栈。

例：DFS 遍历递归改为迭代

void dfs_iterative(Node* root) {
    std::stack<Node*> stack;
    stack.push(root);
    while (!stack.empty()) {
        Node* node = stack.top();
        stack.pop();
        // 访问节点
        for (auto& child : node->children)
            stack.push(child);
    }
}

这样就可以完全避免递归调用的栈开销。

✅ 3. 使用模板元编程（编译期递归）

对于能在编译期计算的递归（例如斐波那契常数、阶乘），可以使用 constexpr 或模板元编程。

constexpr int factorial_constexpr(int n) {
    return n <= 1 ? 1 : n * factorial_constexpr(n - 1);
}

这种递归在编译期完成计算，运行时几乎零开销。

✅ 4. 内联递归（inline）

在少量递归层次时，可尝试 inline 提示编译器展开（不过递归一般不会被完全展开）。

inline int sum(int n) {
    return n == 0 ? 0 : n + sum(n - 1);
}

但多数情况下编译器不会展开真正递归函数，只在递归深度较浅的地方展开。

✅ 5. 记忆化（Memoization）

对重复子问题的递归（如斐波那契数列）使用缓存表避免重复计算：

int fib_memo(int n, std::vector<int>& cache) {
    if (n <= 1) return n;
    if (cache[n] != -1) return cache[n];
    return cache[n] = fib_memo(n-1, cache) + fib_memo(n-2, cache);
}

缓存结果可以让复杂度从 O(2ⁿ) 降为 O(n)。

✅ 6. 手动展开少量递归层级

有时可以手动展开前几层调用，减少函数跳转次数：

int sum(int n) {
    if (n <= 4) return (n * (n + 1)) / 2;
    return n + (n-1) + (n-2) + (n-3) + sum(n - 4);
}

这在数学递归（例如分治算法）中有效。

✅ 7. 使用尾调用风格的 Lambda

C++17 起支持“内联递归 lambda”：

auto factorial = [](auto self, int n, int acc = 1) -> int {
    if (n <= 1) return acc;
    return self(self, n - 1, acc * n);
};
int result = factorial(factorial, 10);

配合 -O3 编译，性能与普通尾递归一致。

三、性能对比（以 GCC 13 / -O3 测试）

实现方式	平均耗时（n=10^6）	栈消耗	可优化性
普通递归	❌ 极慢 (爆栈风险)	高	差
尾递归（优化）	✅ 接近循环	低	好
显式栈迭代	✅ 稍快	可控	高
constexpr / 模板	⚡ 编译期完成	0	极高
Memoization	✅ 极快（适合重复子问题）	中	高

✅ 结论总结

场景	推荐方式
数学递归（阶乘、斐波那契）	`constexpr` 或尾递归优化
树/图遍历	手动栈 + 迭代实现
深度不大、结构清晰	普通递归即可
重复子问题	记忆化递归
编译器不支持尾调用	显式循环重写