AtPoint's Blog

Paper Reading 0

Fri, 01 May 2026 00:00:00 GMT

前言

在写之前还是先说说心里话吧，我知道做这个网站不一定会有其他人看，甚至以后我自己都会忘记更新。但是，也许这是在忙碌大学四年中给自己的旧相片，为自己留下的老唱片。

目前我就把这个当作是读过的经典Paper的收集册了。不过真正投身科研后，读过的Paper太多了，涉及的领域也不少，真不能保证每篇都有独到的理解，每篇都作出详细的分析，但是经典的、优秀的自然是会好好鉴赏的，只是更新网站的频率不会太高罢了。

反正，没关系。这里会陪伴我走很久很久。是到硕士，是到博士，还是说更高更远……我现在不在乎，至少正在打字的我是不在乎的。

机器学习

对于现在的我，机器学习真算得上万恶之源，也是所有计算机学生在理论上进入科研的第一关。

其实现在来看，机器学习算是一门科研新生的数理课，其中的数学计算、算法构建也是值得研究一二的。

学习过程中什么方法都用过了。书籍：西瓜书、南瓜书……（可能是我太笨了，看书既不好理解，又不好坚持）如果喜欢看书的就推荐李航老师的《统计学习方法》 ||课程：B站的简博士（这个时间长要坚持，基础好入门）、白板推导（这个数学公式解释很清晰，但是很吃数学基础） ||实操：（如果想本科就业做量化……）Kaggle、天池; github上按需查找

这里是我自己学习机器学习的笔记，包含机器学习的十大经典算法实现与分析。

深度学习

深度学习算是我科研实操的开始，这些是我做过的DL项目，大部分是通过看致敬大神的鱼书、爆肝杰哥等视频来学习手操的。

后来，克服了语言障碍后，开始看CS231n（原汁原味、B站配音-不全），这个课程还是非常推荐的。里面还涉及很多经典内容（如transformer、大规模分布式训练、3Dvision、Robot），这对日后选择自己的研究方向或者单纯开阔视野都是极大的帮助。

结语

其实吧，科研最重要的是一个好的开始和长久的坚持。找一个好的实验室（老师能管、学长能带、同辈能聊），选一个不讨厌的研究方向（做科研大部分都谈不上喜欢），读第一篇论文（第一篇论文是最难受的，是真的需要一字一句来理解的），比前面的那些长线作战计划来得更加实在、有效。

那么，你准备好踏上开拓的征途，与我共赴星辰大海了吗？

月记-二零二六-六月

Mon, 01 Jun 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色下周计划

tip - 紫色完成出色
caution - 黄色完成一般
danger - 红色非常糟糕 */

前言

上月算是个不错的开端吧，虽然没什么值得写入简历的产出，但是有明确的学习模式和方向了，就当上个月是做个试验吧。

不过这个月的重心要调整，更多的心思要放在期末备考上。（体育、操作系统、电子技术基础、军事理论、数据库、数字通信原理，还有操作系统和电子技术的课设，创业基础的报告，英语六级）

所以主要是先梳理一下考试时间，科研任务要往后延了。

根据校历 7 月中旬放暑假，也就是现在处于期末月。

第一周

06/01 ~ 06/07

下周明确任务有：数据库的期末考试，创业基础的报告提交，英语六级的考试，以及大部分课程的结课。

这是真要进入备考模式了！！！

具体验收如下：

机器学习经典算法项目 (利用水课时间把剩的几个补完)
跟进 paper
DB (多做题) + OS (大题总结) + EE (笔记总结) + 通信 (笔记总结)
英语听力+阅读每日练习
调研后续可去的科研组
强化学习和深度学习暂时停止推进，改为准备课设。

月记-二零二六-五月

Sun, 10 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色下周计划

tip - 紫色完成出色
caution - 黄色完成一般
danger - 红色非常糟糕 */

前言

写月记的习惯是从来没有的，但不过如果每周不写些什么的话，感觉有点白活的意味了（doge）。所以，还是学着阿汐猫猫写一写自己的学习记录吧，生活上就算了，毕竟没有人家那样美满的爱情QAQ。

虽然说是要记录自己的学习过程，不过像是课程内的学习记录起来实在是太无趣了。尽管自己投入科研的时间和经历有限，但是还是觉得要把这蹒跚学步的过程记录下来，这算不是一种养成系呢？

虽说是抱着娱乐的心态来记录，但是不能真的就记录着好玩。每个月还是会给自己订一些指标的，这个月就先免了吧，就当是网站刚创立的过度月。

第一周

05/04 ~ 05/10

反正是第一篇月记，就好好谈谈如何弯弯绕绕走上科研的过程吧。其实，进大学前，我是非常想复读的。我从长沙的重点高中---雅礼毕业出来，竟然来到如此“偏远”、“冷门”的大学（分校），说实话我在填志愿前我是不知道neu是985，更别说qhd分校了。可能是周围的人都太优秀了，导致我认为起码要去whu才算是勉强对得起自己，留本地的csu或hnu感觉都有些丢脸了，其实这么想更丢脸。不过，我当时是可以留在长沙的，无论是hnu，还是csu，甚至nudt，只是没有所谓的热门专业罢了（其实现在来看nudt的大气科学还是很好的QAQ）。而选择计算机系，50%出于随大流，30%出于本科就业，20%因为初中的NOIP竞赛基础。尽管我现在我也不知道当年到底有没有选对，但是我至少能保证我现在有没有做好。这大抵是我做这个网站的初衷了，记录下我以后的每一个脚印，见证自己的成长。说的闲话太多了，毕竟人生总是充满遗憾，我自然每次想起都会幻想如果当时……，会不会现在……。

五一期间，还是有所作为的。这个网站就是这段时间诞生的，真正开始记录自己的日常学习了，算是把科研提上日程了。提到这点，我多少还是有些感慨的。从大一的懵懂到现在初入科研领域，竟然花了两年这么长的时间（我现在甚至觉得这两年都可以产出至少两篇工作了doge），实在是走了太多的弯路了。直到4月末天梯赛的完赛才算是与竞赛说再见了，我也算彻底放下竞赛获奖的短暂快感了。从我现在的角度来看，竞赛的确是最好上手、最好见效的。但是，长远来看，竞赛的思维与科研的经历是有点相悖的，参与比赛的热情与选择科研的冷板凳完全不同，赛时的团队讨论和测试idea的孤单枯燥完全不同，赛后的光彩夺目与等待论文中稿的煎熬完全不同。而且，大部分人（至少我之前是这样的）都是一种比较稚嫩的思维，希望参考答案，希望即时认可，害怕独立探索，害怕竹篮打水一场空。不过，我在寒假期间想了很多，在走亲访友时见到了很多，也懂了很多，似乎是在那个时候，我的心智发生了就算是我现在看了都不可思议的变化。不过具体的就不在这里说了，等一个有缘人吧，我可以和Ta慢慢分享。

算了，还是开始这周的总结吧。

这周写了三篇blogs，分别是探索world model（以失败结尾，不算太坏的结果，至少我看透了很多虚假的泡沫）；整理Agent Memory的经典Bench（这个还没做完，不过还不能着急做完，至少等AAAI投稿结束吧）；正式开启强化学习的探索（这个后续一定会持续更新的，一定会列入每周的计划的）。

这周的主要任务还是备考信号与系统，虽然我现在也不知道考得咋样，过去的还是让它过去吧。

然后就是调研Agent Memory方面的论文，撰写related work。这个呢，我也是第一次写顶会的rw，所以过程可谓是磕磕绊绊，改来改去还是不太满意，感觉要留到下周了。

最后，要批评自己，说好了每天至少听一篇英语听力和背英语单词的，不是忘了就是其他的事鸽了，下周必须要执行，这次考完六级大概率是不会再去刷分了。

还有力扣的每日刷题也是，每天都忘了。不行的，不能到明年机试的时候后悔！下周必须每天抽出一个小时：保证每天一道hot100和一篇英语听力。

今天也是懒了，本来独属周末的锻炼也睡过去了，悔悔悔QAQ

还是和上周一样，每天在每个时间段写一个规划，定一个比较宽松的baseline和突破自我的SOTA任务线。唯一要注意的是，不要忘记每天的英语听力和力扣！！！

具体验收如下：

完成强化学习基础篇+Blog（多臂老虎机、马尔科夫决策、动态规划、时序差分、Dyna-Q）
熟悉目前工作的pipeline，准备实验
数据库初步完整复习（完成书上笔记）
继续调研Agent Memory，完善Blog
把Transformer手撕完，彻底理解掌握
坚持每天的英语听力和力扣hot100，最好周末能加一套英语真题卷和力扣每日一题的总结

注：因为上周每天的英语和力扣都没做到，所以设下奖励，如果下周每天都做到了，周末就可以看《超时空辉夜姬》😘加油吧，少年，尽管你早已不是少年😎

第二周

05/11 ~ 05/17

《超时空辉夜姬》还是看了，但是毕竟没有完成上周的目标，所以只看了一半 (其实是没有时间看了，有时间一定补，好看的捏！)。

这周的话，还是比较中规中矩，基本是是按照计划走的，只不过有点高估自己的时间管理能力，事情一多就乱起来了。

不过，值得一说的是，今天 (5.17) 花了将近4个小时，听完了对姚顺宇的4小时访谈，感觉对 AI 领域还是有了不一样的看法。上周的我还在追逐时代的主流 -- 疯狂地尝试 World Model 的新方向，不过听 ysy 的访谈，似乎像多模态、具身智能或者 AI4S 这些范式不确定但实操性强的方向，更应该是年轻一辈的选择。然后，现在的 Agent Flow 已经开始强大了，像是 Terminus-4B Google 这样的大团队开始下场完善，Claude实现论文流水线，Human Researcher 的生存空间又进一步缩减，的确如 ysy 所说，AI 时代不存在个人英雄主义，一切都能由 AI “暴力”完成，目前人的价值就在于能否提供 good insights。

与我而言的话，就是可能要考虑后续方向的变动了，大概率会尝试去调研 AI4S 方向，手撕一些多模态方向的代码和项目，学习一下具身的仿真软件……不过这些还是需要大量时间的。

【插一句，写到这里的时候已经0:30了，我为了明天能早起测试 bench，就先去睡了，拜拜，明天见👋】

好了，今早9:20，又开始写计划了。刚刚算了一下这周的时间 (17.5h[平时] + 20h[周末])，感觉这周时间非常的紧，也快要到期末了。加上上周的经验教训，我应该会稍微减少一些科研领域的探索，更多的集中于现有 paper 的完善、RL 的学习以及课内任务的学习。

上周关于 base 和 SOTA 的任务分割做的不好，实现任务也没及时记录，这周需要注意！然后，英语六级考试时间是6.13，需要适当降低刷 LeetCode 的优先级，毕竟六级可能是最后一搏了。

具体验收如下：

强化学习基础篇 (动态规划、蒙特卡洛方法、时序差分学习) -- 上周布置的太多了，没考虑理解和实践的时间。其实这些应该也搞不完QAQ，但还是避免自己到时候闲下来了。
跟进熟悉工作以及测试相关 bench。
数据库 + 操作系统 + 电工学复习 (优先级提高↑)
调研 Agent Memory 的工作不会很勤，应该就是把 related works 的部分上传。
每天先完成英语听力×1 + 阅读×1，再考虑完成 hot100 (不过时间不多，这周大概率刷不了 LeetCode)

周末看情况，有时间就看完《超时空辉夜姬》😘

第三周

05/18 ~ 05/24

虽然是每周总结，但是今天 (05/23) 周六一下子接受了太多的信息，需要静下来整理一下:

1、我现在的优势不是很大很稳，目前的两个 paper 仍在工作中，几乎都在下半年11月份才能有初步反馈 (一篇校内的投期刊，一篇校外的投A会)

2、由于现在的优势不大，我需要考虑要不要再去套磁其他高档次院校 (目前来看就是清北了) 的实验组，看能不能利用人家的资源自己领导一篇出来，同时看看能不能留组。

3、还有需要考虑的是，保研名额的确定已经几乎确定提前到了7月份，也就是暑假完全没有补救时间 (或许对我来说或许好事？毕竟可以全身心投入校外的套磁了)

4、从学长那里了解到，到保研的时候别人很有可能拿出“杀招” (比如一篇“来路不明”的论文)，有一定的威胁，但是不多。(毕竟我要是能被这些水刊给挤下去，那出去升学也找不到什么好的学校了)

应对措施还是要有的，还是要做好最坏的打算。

1、我准备抽个时间把我们专业前30%的所有数据统计分析一下，这样能看出来后面的人威胁大不大，需不需要使用“杀手锏”。

2、手上的两篇工作投出去后，就要考虑自己独立完成一篇 paper了 (不过选择什么学校哪个实验组，还是个问题，需要从长计议)

3、如果这两篇工作的结果非常惨淡的话 (那个时候应该是11月了)，就必须考虑使用点 trick 和调整计划。

4、目前的话，还是稳扎稳打，把手头的工作好好完成，还有绩点一定要保住。

5、比赛的话，只能见风使舵了，看看能不能提一提吧。

6、英语六级，个人感觉这次也不一定能考到520+，但是口语还是要练习的。

7、记住多和学长联系 (选课技巧、考试题型；掌握信息差)，多与导师沟通 (paper 进度)，其他的同学关系呵呵了 (hehe)。

反正，不要太紧张，起码现在是知道这种零和博弈的风险了，也算是拥有了跳出博弈的手段，就继续保持现在学习的自觉与激情，应该是能成功的 (毕竟，少年，你是要追求上海 ailab 的啊！)

这周过的比较平庸，可能是计划开始习惯，进度稳步向前，没有之前突破舒适圈的成就感了。

不过，下周是比较关键的一周，作为5月底还是有许多的工作需要收尾，不少的事情又要开启了。

说实话，吐槽一下我自己，昨天写的总结跟喝醉了似的，我现在自己看着都不太明白了？

关于下周的计划大概集中于:

复习 (DB 多做题；OS 大题总结；EE 笔记总结)
paper 跟进
RL 轻度学习 + 机器学习经典算法项目
英语听力 + 阅读的每日练习

具体验收如下：

强化学习 (TD、Sarsa、Q-Learning、DQN)
机器学习经典算法项目 (这个目前不了解情况，需要尝试探索)
跟进 paper
DB (多做题) + OS (大题总结) + EE (笔记总结)
英语听力+阅读每日练习
调研后续可去的科研组 (稍微多关注 NEUNLP)

第四周

05/25 ~ 05/31

昨天太晚了，很困，所有5月总结留到今天来写。

先说说上周为什么 1、4、5 项一点没做。其实看了我每天完成的任务是不少的，但是不少的精力花在了 ML 算法项目和 veRL 测试上了，而且还有不小的作业压力，甚至周末还抽时间来复现 LongChain-chatchat。不过，我不否认我个人的计划有问题，执行力不足。

然后，再象征性的做一个月末总结吧。

这个月给我的感觉是时间紧张、学习充实的，感觉一个月活出了之前一个学期的忙碌。无论是从学习上，还是科研上，我很难想象自己能有如此大的变化。当然，就单单一个月的话，变化还不够明显，雪球不够大。

人在经历过程中有无数的苦楚辛酸，但是回过头看，却说不出什么了，似乎一切必然如此、本应如此。所以，我也不再多说了，让我们六月相见！

RL学习笔记（6）: 时序差分学习

Sun, 24 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色信息提示

tip - 紫色技巧提示
caution - 黄色警告提示
danger - 红色危险提示 */

时序差分 (TD) 学习概述

动机: 结合动态规划 (DP) 与蒙特卡洛 (MC) 的优点

DP: 利用 自举 (Bootstrapping)，即基于其他状态的 估计值 来更新当前状态的估计值 (例如，$V(S_t) \leftarrow \mathbb{E}[R_{t+1} + \gamma V(S_{t+1})]$)。但它需要知道环境的 完整模型。
MC: 无模型，直接从 完整经验片段 的最终 实际回报 $G_t$ 中学习 (例如，$V(S_t) \leftarrow V(S_t) + \alpha[G_t-V(S_t)]$)。它不使用自举，必须等待片段结束。
TD 学习: 旨在融合两者的长处
- 无模型 (Model-Free): 像 MC 一样，直接从经验中学习，无需环境模型 $\mathcal{P}, \mathcal{R}$。
- 自举 (Bootstrapping): 像 DP 一样，更新当前状态 $S_t$ 的价值时，会使用 后续状态 $S_{t+1}$ 的当前价值估计 $V(S_{t+1})$，而 不需要等到片段结束。

核心思想: TD 学习在智能体与环境交互的每一步之后，利用观测到的 即时奖励 $R_{t+1}$ 和 下一状态 $S_{t+1}$ 的当前价值估计 $V(S_{t+1})$ 来构建一个 目标值 (TD Target)。然后，用这个目标值来更新当前状态 $S_t$ 的价值估计 $V(S_t)$。

TD(0) 更新规则 (最简单的 TD 算法): $$ V(S_t) \leftarrow V(S_t) + \alpha \underbrace{\Big[ \overbrace{R_{t+1} + \gamma V(S_{t+1})}^{\text{TD 目标 (TD Target)}} - V(S_t) \Big]}_{\text{TD 误差 (TD Error) } \delta_t} $$

TD 目标 (TD Target): $R_{t+1} + \gamma V(S_{t+1})$。这是对未来总回报 $G_t$ 的一个估计，它仅使用了一步的真实奖励 $R_{t+1}$ 和一步之后状态的价值估计 $V(S_{t+1})$。
TD 误差 (TD Error) $\delta_t$: $\delta_t = R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$。它衡量了当前价值估计 $V(S_t)$ 与基于下一步信息的“更好”的估计 (TD 目标) 之间的差异，可以看作是对当前价值的一个调整信号。

TD 学习的特点: 自举与采样 (Bootstrapping and Sampling)

采样 (Sampling): 更新是基于智能体实际经历的转移 ($S_t, A_t, R_{t+1}, S_{t+1}$)，而不是像 DP 那样考虑有可能的后续状态和奖励。
自举 (Bootstrapping): 更新的目标值中包含了 当前的价值估计 $V(S_{t+1})$，而不是像 MC 那样依赖最终观测到的完整回报 $G_t$。

学习内容: 接下来我们将介绍 TD 如何用于策略评估 (TD 预测) 和策略改进 (TD 控制)。

TD 预测 (TD Prediction)

目标: 在给定策略 $\pi$ 的情况下，估计其状态价值函数 $v_\pi$。

TD(0) 算法 (用于估计 $v_\pi$):

输入: 需要评估的策略 π
算法参数: 步长 α ∈ (0, 1]
初始化:
  对于所有状态 s ∈ S⁺ (S⁺ 是包含终止状态的状态集):
    V(s) ← 任意值 (例如 V(s)=0)
  V(终止状态) ← 0

循环 对每个 episode:
  初始化 S (该 episode 的第一个状态)
  循环 对 episode 中的每一步:
    A ← 根据策略 π 在状态 S 选择的动作
    执行动作 A, 观察得到奖励 R 和下一状态 S'
    // TD 更新
    V(S) ← V(S) + α * [R + γ * V(S') - V(S)]
    S ← S' // 转移到下一状态
  直到 S 是终止状态

主要特点: TD(0) 算法在 每一步 交互后都进行价值更新，无需等待一个 episode 结束。这使得 TD 学习非常适合 在线 (Online) 学习场景。

TD 与 MC 的比较: 性质与权衡

TD 和 MC 作为无模型学习方法，各有优势:

更新时机与数据需求:
- TD可 在线学习，每步更新；MC 需等待 episode 结束才能更新 (离散更新)。
- TD 能从 不完整 的 episode 中学习；MC 必须基于完整的 episode。
- TD 天然适用于 连续性任务 (无终止状态)；MC 主要用于 分幕式任务。
偏差与方差 (Bias vs Variance): 这是两者最核心的区别之一。
- MC 目标 ($G_t$): 是 $v_\pi(S_t)$ 的 无偏 (Unbiased) 估计。因为 $G_t$ 是从 $t$ 时刻开始实际获得的总回报，其期望就是 $v_\pi(S_t)$。但 $G_t$ 的 方差较高，因为它受到从 $t$ 到片段结束所有的随机因素 (动作选择、状态转移、奖励) 的影响。
- TD(0) 目标 ($R_{t+1} + \gamma V(S_{t+1})$): 是 $v_pi(S_t)$ 的 有偏 (Biased) 估计。因为目标中使用的 $V(S_{t+1})$ 本身就是当前的估计值，可能并不准确。然而，这个目标的 方差较低，因为它只依赖下一个时间步的随机性 ($R_{t+1}, S_{t+1})$)。
总结:
- MC: 高方差，零偏差。对初始值不敏感。
- TD: 低方差，有偏差。通常比 MC 学习效率更高 (收敛更快)，但对初始值比较敏感。
对马尔可夫性质的利用:
- TD 隐式地利用了马尔可夫性质，它假设状态 $S_{t+1}$ 的价值 $V(S_{t+1})$ 足够概括未来信息。在满足马尔可夫性的环境中，这种假设有助于提高概率。
- MC 不做此假设，它直接使用实际发生的完整回报序列。这使得 MC 在 非马尔可夫环境 下可能比 TD(0) 更稳健。
批量学习 (Batch Learning) 下的行为差异:
- 当使用一个固定的、有限的经验数据集进行学习时:
  - 批量 MC 收敛到的价值函数，能最小化训练数据中

RL学习笔记（5）: 蒙特卡洛方法

Tue, 19 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色信息提示

tip - 紫色技巧提示
caution - 黄色警告提示
danger - 红色危险提示 */

引言

蒙特卡洛 (Monte Carlo, MC) 方法 是一大类依赖于 重复随机抽样 来获取数值近似解的计算技术。在强化学习 (RL) 领域，蒙特卡洛方法特指一类 无模型 (Model-Free) 的学习算法，它们直接从与环境交互得到的 完整经验片段 (Complete Episodes) 中学习价值函数和策略，而不需要关于环境动态 (如状态转移概率 $\mathcal{P}$ 和奖励函数 $\mathcal{R}$) 的先验知识。

核心思想: MC 方法利用 大数定律，通过计算许多样本回报的 平均值 (Mean Sample Return) 来估计期望回报，也就是状态或动作的 价值 (Value)。

基本要求: MC 方法直接适用于 分幕式任务 (Episodic Tasks)，因为它们需要等待一个完整的片段结束后才能计算该片段中每个时间步的 回报 (Return, $G_t$)。

学习内容:

MC 预测 (Prediction): 给定一个策略 $\pi$，估计其价值函数 $v_\pi$ 或 $q_\pi$。
MC 控制 (Control): 寻找最优策略 $\pi_*$。

蒙特卡洛预测 (MC Prediction)

目标: 给定策略 $\pi$，从遵循该策略生成的经验片段中估计其 状态价值函数 $v_\pi(s)$ 或 动作价值函数 $q_\pi(s, a)$。

基本原理: 价值函数定义为期望回报: $v_\pi(s) = \mathbb{E}{\pi}[G_t | S_t = s]$ (状态价值) 或 $q\pi(s, a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a]$ (动作价值)。MC 方法通过收集大量样本回报并计算其平均值来近似这个期望。

对于 $v_\pi(s)$: 收集策略 $\pi$ 下多个片段中，所有访问状态 $s$ 之后直到片段结束的回报 $G_t^{(i)}$，然后求平均。 $$ V(s) \approx \frac{\sum_{i} G_t^{(i)}}{N(s)}, \text{where } S_t^{(i)} = s $$ 其中 $N(s)$ 是访问状态 $s$ 的被访问的总次数 (根据首次 / 每次访问定义)。
对于 $q_\pi(s, a)$: 类似地，收集所有访问状态-动作对 $(s, a)$ 之后的回报 $G_t^{(j)}$，然后求平均。 $$ Q(s, a) \approx \frac{\sum_{j} G_t^{(j)}}{N(s, a)}, \text{where } S_t^{(j)} = s, A_t^{(j)} = a $$

首次访问 (First-Visit) vs 每次访问 (Every-Visit): 在一个片段中，某个状态 $s$ (或状态-动作对 $(s, a)$) 可能被访问多次。 - 首次访问 MC: 对于每个片段，只使用该片段中状态 $s$ (或对 $(s, a)$) 第一次 被访问时之后的回报 $G_t$ 来更新价值估计。 - 每次访问 MC: 对于每个片段，使用该片段中状态 $s$ (或对 $(s, a)$) 每一次 被访问时之后的回报 $G_t$ 来更新价值估计。 - 理论上，在无限数据下，两者都会收敛到真实的价值函数。首次访问 MC 在理论分析上更常用，且某些情况下方差可能更低。

算法: 首次访问 MC 预测 (用于估计 $v_\pi$)

初始化:
  对于所有状态 s ∈ S:
    V(s) ← 任意值 (通常为 0)
    Returns(s) ← 空列表

循环 对每个 episode:
  生成一个 episode 遵循策略 π: S₀, A₀, R₁, S₁, A₁, R₂, ..., S_{T-1}, A_{T-1}, R_T
  G ← 0
  VisitedStates ← 空集合  // 记录本片段已访问的状态 (用于首次访问)

  循环 对于 t = T-1, T-2, ..., 0:
    G ← R_{t+1} + γ * G
    如果 S_t 不在 VisitedStates 中:
      将 G 添加到 Returns(S_t) 列表

      1. 计算回报平均值
      V(S_t) ← Average(Returns(S_t))  // 计算列表的平均值

      2. 增量式更新 (减少内存开销)
      N(S_t) ← N(S_t) + 1
      V(S_t) ← V(S_t) + (1/N(S_t)) * (G - V(S_t))  # 增量更新

      3. 固定步长更新 (环境非平稳)
      V(S_t) ← V(S_t) + α * (G - V(S_t))  # α ∈ (0,1]

      将 S_t 添加到 VisitedStates

增量式实现 (Incremental Implementation): 为了节省内存，避免存储所有回报，可以使用增量式更新 (运行平均) : 对于状态 $s$ (或对 $(s, a)$) 的第 $N$ 次 (首次 / 每次) 访问，得到回报 $G$: $$ N(s) ← N(s) + 1 $$ $$ V(s) \leftarrow V(s) + \frac{G - V(s)}{N}（或 Q(s, a) \leftarrow Q(s, a) + \frac{G - Q(s, a)}{N(s, a)}） $$ 或者使用常数步长$\alpha \in (0, 1]$，这有助于处理非平稳环境(奖励或动态随时间变化)或作为一种指数加权平均: $$ V(s) \leftarrow V(s) + \alpha (G - V(s))（或 Q(s, a) \leftarrow Q(s, a) + \alpha (G - Q(s, a))） $$

蒙特卡洛控制 (MC Control)

目标: 在不知道环境模型的情况下，找到最优策略 $\pi_*$。

基于动作价值 (Action-Value Q): 在无模型情况下，仅仅知道状态价值 $V(s)$ 不足以改进策略，因为我们无法进行一步预测来比较不同动作的优劣 (这需要模型 $\mathcal{P}$ 和 $\mathcal{R}$)。因此，MC 控制方法通常直接估计 动作价值函数 $Q(s, a)$，然后基于 $Q$ 值来改进策略。

框架: 广义策略迭代 (GPI): MC 控制遵循 GPI 的模式: 不断交替执行 策略评估 和 策略改进。

评估 (E): 使用 MC 预测方法 (如首次访问 MC) 估计当前策略 $\pi$ 的动作价值函数 $Q \approx q_\pi$。
改进 (I): 基于当前的 $Q$ 值使策略 $\pi$ 变得更贪心。例如，对于每个状态 $s$，将策略更新为选择具有最高估计值的动作: $\pi(s) \leftarrow \arg \max_{a} Q(s, a)$。

核心挑战: 维持探索 (Maintaining Exploration): 如果策略在改进步骤中变得完全贪心 (确定性策略)，智能体可能会停止探索某些状态-动作对。如果未被探索的 $(s, a)$ 对恰好是最优策略的一部分，那么算法将永远无法发现真正的最优策略。MC 方法依赖于持续不断地访问所有需要评估其价值的状态-动作对。

解决方案 (A): 试探性出发 (Exploring Starts, ES) - 理论方法

假设: 每次开始一个新片段时，我们能够以非零概率随机选择 任意一个 状态-动作对 $(S_0, A_0)$ 作为起点。
算法: 带 ES 的 MC 控制

初始化:
  对于所有状态 s ∈ S, 所有动作 a ∈ A(s):
    Q(s, a) ← 任意值 (通常为 0)
    Returns(s, a) ← 空列表
  对于所有状态 s ∈ S:
    π(s) ← 任意确定性动作从 A(s) 中选择

循环 无限次:
  选择起始状态 S₀ 和 起始动作 A₀，确保所有 (s, a) 都有非零概率被选为起点 (ES 假设)
  从 (S₀, A₀) 开始, 之后遵循策略 π 生成一个 episode: S₀, A₀, R₁, ..., S_{T-1}, A_{T-1}, R_T
  G ← 0
  VisitedPairs ← 空集合 // 记录首次访问的 (s, a) 对

  循环 对于 t = T-1, T-2, ..., 0:
    G ← R_{t+1} + γ * G
    令 Pair = (S_t, A_t)

    如果 Pair 不在 VisitedPairs 中:
      将 G 添加到 Returns(Pair) 列表
      Q(Pair) ← Average(Returns(Pair))  // (E) 策略评估

      // (I) 策略改进：更新状态 S_t 的策略
      π(S_t) ← argmax_{a' ∈ A(S_t)} Q(S_t, a')

      将 Pair 添加到 VisitedPairs

优点: 在 ES 假设下，保证收敛到最优策略 $\pi_$ 和最优动作价值 $q_$。
缺点: ES 假设在许多实际问题中不现实 (例如，机器人不能随意瞬移到任意状态并执行任意动作)。

解决方案 (B): 维持策略本身的探索性

核心思想: 不依赖 ES，而是确保用于生成数据的策略本身始终保持一定的探索性。
同轨策略 (On-Policy) vs 离轨策略 (Off-Policy):
- 同轨策略学习: 学习和改进的策略，与用于生成经验数据的策略是 同一个。
- 离轨策略学习: 学习和改进的策略 (目标策略 $\pi$)，与用于生成经验数据的策略 (行为策略 $b$) 不同。
$\epsilon$-软性策略 ($\epsilon$-Soft Policies): 为保证持续探索，同轨方法通常采用 $\epsilon$-软性策略，即对于所有状态 $s$ 和动作 $a$，策略选择该动作的概率 $\pi(a|s) \ge \frac{\epsilon}{|\mathcal{A}(s)|} > 0$。这意味着每个动作始终有至少 $\frac{\epsilon}{|\mathcal{A}(s)|}$ 的概率被选中。
$\epsilon$-贪心策略 ($\epsilon$-Greedy Policies): 是实现 $\epsilon$-软性的一种常用策略。
- 以 1 - $\epsilon$ 的概率选择当前认为最优的动作 (即 $\arg \max_{a} Q(s, a)$)。
- 以 $\epsilon$ 的概率从所有 $|\mathcal{A}(s)|$ 个可用动作中 (包括最优动作) 均匀随机选择一个。

算法: 同轨首次访问 MC 控制 (使用 $\epsilon$-Greedy)

初始化:
  对于所有状态 s ∈ S, 所有动作 a ∈ A(s):
    Q(s, a) ← 任意值 (通常为 0)
    Returns(s, a) ← 空列表
  初始化策略 π 为关于 Q 的 ε-greedy 策略

循环 无限次:
  (a) 使用当前策略 π 生成一个 episode: S₀, A₀, R₁, ..., S_{T-1}, A_{T-1}, R_T
  G ← 0
  VisitedPairs ← 空集合

  (b) 循环 对于 t = T-1, T-2, ..., 0:
    G ← R_{t+1} + γ * G
    令 Pair = (S_t, A_t)

    如果 Pair 不在 VisitedPairs 中:
      将 G 添加到 Returns(Pair) 列表
      Q(Pair) ← Average(Returns(Pair))  // (E) 策略评估
      // 也可以用增量式更新

      // (c) 策略改进: 确保状态 S_t 的策略是关于更新后 Q 的 ε-greedy
      // (隐式或显式更新 π(·|S_t))
      令 A* = argmax_{a' ∈ A(S_t)} Q(S_t, a')
      对于所有动作 a ∈ A(S_t):
        如果 a = A*:
          π(a|S_t) ← 1 - ε + ε / |A(S_t)| ← 最优动作的概率
        否则:
          π(a|S_t) ← ε / |A(S_t)|         ← 非最优动作的概率

      将 Pair 添加到 VisitedPairs

收敛性: 同轨 MC 控制 (使用 $\epsilon$-Greedy) 会收敛到最优的 $\epsilon$-贪心策略，而不是真正的最优策略 $\pi_*$ (因为 $\epsilon > 0$ 导致它永远在探索)。不过，这个策略通常也相当好。可以通过逐渐减小 $\epsilon$ 值 (例如 $\epsilon_k = 1/k$) 来使其在极限情况下趋近于最优策略 (GLIE - Greedy in the Limit with Infinite Exploration)。
策略改进保证: 可以证明，对于任意 $\epsilon$-贪心策略 $\pi$，基于其动作价值 $q_\pi$ 进行 $\epsilon$-贪心选择得到的新策略 $\pi'$，仍然满足 $v_{\pi'}(s) \ge v_{\pi}(s)$ 对所有状态 $s$ 成立。这保证了 GPI 过程的单调性。

离轨策略蒙特卡洛方法 (Off-Policy MC)

同轨策略 MC 为了保证探索，最终学习到的只是一个 $\epsilon$-软性策略。离轨策略学习 的目标是: 使用一个具有 探索性的行为策略 $b$ (Behavior Policy) 来生成数据，但学习和评估的是一个不同的、通常是确定性的贪心策略——目标策略 $\pi$ (Target Policy)。

优点:

可以学习最优的确定性策略 $\pi_*$ (目标策略)，同时通过行为策略 $b$ 保证充分的探索。
更灵活，允许从历史数据、人类演示或智能体的经验中学习。

挑战与核心技术: 重要性采样 (Importance Sampling, IS) 由于数据来自 $b$ 而非 $\pi$，直接用 $b$ 产生的回报来评估 $\pi$ 是有偏的。我们需要一种方法来修正这种分布不匹配，这就是重要性采样的作用。

覆盖性假设 (Coverage Assumption): 为了能够评估 $\pi$，行为策略 $b$ 必须覆盖 $\pi$ 可能采取的所有动作。即: 如果 $\pi(a|s) > 0$，那么必须有 $b(a|s) > 0$。
重要性采样比率 (Importance Sampling Ratio): 对于一个从时间 $t$ 开始到片段结束 (时间 $T - 1$) 的轨迹片段 $S_t, A_t, S_{t+1}, A_{t+1}, \ldots, S_{T-1}, A_{T-1}, S_T$，其在目标策略 $\pi$ 和行为策略 $b$ 下发生的相对概率由 IS 比率给出: $$ \rho_{t:T-1} \doteq \frac{\prod_{k=t}^{T-1} \pi(A_k \mid S_k) , p(S_{k+1} \mid S_k, A_k)}{\prod_{k=t}^{T-1} b(A_k \mid S_k) , p(S_{k+1} \mid S_k, A_k)} = \prod_{k=t}^{T-1} \frac{\pi(A_k \mid S_k)}{b(A_k \mid S_k)} $$ (环境动态 $p(S_{k+1} \mid S_k, A_k)$ 相同，被约掉了)。
离轨 MC 预测:
- 要估计 $v_\pi(s)$ (或 $q_\pi(s, a)$)，我们可以使用行为策略 $b$ 生成的回报 $G_t$，并用 IS 比率 $\rho_{t:T-1}$ 对其加权: $G_t^{\pi/b}=\rho_{t:T-1} , G_t$。
- 理论上 $\mathbb{E}b[G_t^{\pi/b} \mid S_t = s] = v\pi(s)$。
- 普通重要性采样 (Ordinary IS, OIS): 简单地对加权回报求平均 $V(s)=\frac{\sum \rho G}{count}$。这是无偏估计，但是方差可能极大，尤其当 $\rho$ 值波动很大时。
- 加权重要性采样 (Weighted IS, WIS): $V(s)=\frac{\sum \rho G}{\sum \rho}$。这是一个有偏估计 (偏差随样本增多趋于0)，但通常方差小得多，实践中更常用。
- 增量式 WIS 更新 (用于 Q 值): 维护累积权重 $C(s, a)$ 和价值估计 $Q(s, a)$。当获得状态-动作对 $(s, a)$ 的第 $n$ 个回报 $G_n$ 和对应的权重 $W_n=\rho_{t:T(n)-1}$ 时: $$ C_n \leftarrow C_{n-1} + W_n , , , (初始 C_0 = 0) $$ $$ Q_n(s, a) \leftarrow Q_{n-1}(s, a) + \frac{W_n}{C_n}[G_n-Q_{n-1}(s, a)] $$
算法: 离轨 MC 预测 (WIS 估计 $q_\pi$)

输入: 目标策略 π
初始化:
  对于所有状态 s ∈ S, 所有动作 a ∈ A(s):
    Q(s, a) ← 任意值 (通常为 0)
    C(s, a) ← 0  // 累积权重

循环 无限次 (对每个 episode):
  选择行为策略 b (确保覆盖 π, 例如关于当前 Q 的 ε-greedy 策略)
  使用 b 生成 episode: S₀, A₀, R₁, ..., S_{T-1}, A_{T-1}, R_T
  G ← 0
  W ← 1  // 重要性采样比率的累乘

  循环 对于 t = T-1, T-2, ..., 0:
    G ← R_{t+1} + γ * G
    令 Pair = (S_t, A_t)

    C(Pair) ← C(Pair) + W
    如果 C(Pair) = 0:
      跳转到循环的下一次迭代 (t-1) // 避免除零
    Q(Pair) ← Q(Pair) + (W / C(Pair)) * [G - Q(Pair)] // WIS 更新

    // 更新下次回溯的 IS 权重
    W ← W * (π(A_t | S_t) / b(A_t | S_t))

    如果 W = 0:
      终止内层循环 (对于 t 的循环) // 后续轨迹与 π 无关

离轨 MC 控制 (Off-Policy MC Control):
- 结合离轨预测 (WIS) 和策略改进。
- 目标策略 $\pi$: 通常是 确定性贪心策略，即 $\pi(s) = \arg \max_{a} Q(s, a)$。
- 行为策略 $b$: 必须是探索性的，如 $\epsilon$-greedy 策略 (基于当前 Q 值)。
- 算法:

初始化:
  对于所有状态 s ∈ S, 所有动作 a ∈ A(s):
    Q(s, a) ← 任意值 (通常为 0)
    C(s, a) ← 0
  目标策略 π(s) ← argmax_{a' ∈ A(s)} Q(s, a')  // 初始贪心策略

循环 无限次 (对每个 episode):
  选择行为策略 b (例如关于当前 Q 的 ε-greedy 策略)
  使用 b 生成 episode: S₀, A₀, R₁, ..., S_{T-1}, A_{T-1}, R_T
  G ← 0
  W ← 1

  循环 对于 t = T-1, T-2, ..., 0:
    G ← R_{t+1} + γ * G
    令 Pair = (S_t, A_t)

    C(Pair) ← C(Pair) + W
    如果 C(Pair) = 0:
      跳转到循环的下一次迭代 (t-1)
    Q(Pair) ← Q(Pair) + (W / C(Pair)) * [G - Q(Pair)] // (E) Off-policy 评估

    // (I) 策略改进: 更新目标策略 π 使其对 S_t 贪心
    π(S_t) ← argmax_{a' ∈ A(S_t)} Q(S_t, a')

    // 检查行为策略选择的动作是否是目标策略会选择的动作
    如果 A_t ≠ π(S_t):
      终止内层循环 (对于 t 的循环) // 因为 W 之后将变为 0

    // 更新 IS 权重 (假设 π 是确定性的, π(A_t|S_t) = 1)
    如果 b(A_t|S_t) = 0:
       W ← 0 // 覆盖性假设不满足 (理论上不应发生)
    否则:
       W ← W * (1 / b(A_t | S_t))

    如果 W = 0:
      终止内层循环 (对于 t 的循环) // 以防 b(A_t|S_t) = 0

关键点: 当目标策略 $\pi$ 是确定性贪心时，只要行为策略 $b$ 在某一步 $t$ 选择了一个非贪心动作 $A_t \neq \pi(S_t)$，那么 $\pi(A_t|S_t)=0$，导致 IS 比率 $\rho_{t:T-1}$ 必然为0。这意味着从该点往前的回报对于评估 $\pi$ 没有贡献，可以提前停止处理该 episode 的剩余部分。

总结与讨论

蒙特卡洛 (MC) 方法 是一种 无模型 的 RL 方法，直接从 完整经验片段 中学习价值函数和策略。
MC 预测 使用平均样本回报来估计 $v_\pi$ 或 $q_\pi$。
MC 控制 在 GPI 框架下，通过估计 $q_\pi$ 并进行策略改进来寻找最优策略。动作价值 $Q$ 对于无模型控制至关重要。
探索是 MC 控制的核心挑战。可通过 ES (理论)、同轨 $\epsilon$-软性策略 (实用) 或 离轨方法 来解决。
同轨 (On-Policy) MC 学习最优的 $\epsilon$-软性策略。
离轨 (Off-Policy) MC 使用 重要性采样 (IS)，允许从行为策略 $b$ 生成的数据中学习目标策略 $\pi$ (通常是最优贪心策略)。加权重要性采样 (WIS) 在实践中更常用以减小方差。
MC 的优缺点:
- 优点: 无模型；概念简单；无偏估计 (使用完整回报)。
- 缺点: 必须是分幕式任务；效率不高 (需要等待片段结束)；方差可能较高 (尤其是普通 IS)。
下期更精彩: MC 的局限性 (特别是高方差和对完整片段的依赖) 引出了下一类重要的无模型学习方法 —— 时序差分 (Temporal-Difference, TD) 学习，它结合了 MC 和动态规划的思想。

RL学习笔记（4）: 动态规划

Sun, 17 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色信息提示

tip - 紫色技巧提示
caution - 黄色警告提示
danger - 红色危险提示 */

引言

由 Richard Bellman 提出的动态规划（Dynamic Programming）是一种用于解决决策问题的算法。在算法竞赛中，体现为将一个问题拆解为有递归关系的子问题，通过状态转移方程来解决。在强化学习中，DP 特指 在已知环境模型 (即马尔可夫决策过程 MDP) 完全信息的情况下，计算最优策略 $\pi_*$ 的一组算法。

核心思想: DP 充分利用了 价值函数 的结构，特别是通过 贝尔曼方程 (Bellman Equation) 来组织计算，有效地寻找最优策略。DP 适用的问题通常具有 最优子结构 和 重叠子问题 的性质，而 MDP 正好满足这些条件 (贝尔曼方程体现了递归分解，价值函数的计算会被重复利用)。

DP 主要解决的两类问题 (MDP 规划问题):

预测 (Prediction / Policy Evaluation): 评估一个给定的策略 $\pi$ 有多好。即输入 MDP 模型和策略 $\pi$，输出该策略下的价值函数 $v_\pi$。
控制 (Control): 寻找最优的行为方式。即输入 MDP 模型，输出最优价值函数 $v^$ 和最优策略 $\pi^$。

关键前提: DP 算法必须知道环境的完整动态特性，即状态转移概率 $p(s',r|s,a)$ 和奖励函数 $R^a_s$。这通常被称为“基于模型的规划” (Model-based Planning)。

核心工具: 贝尔曼方程回顾

DP 算法的基础是价值函数必须满足的贝尔曼方程。

贝尔曼期望方程 (Bellman Expectation Equation for $v_\pi$): 描述了给定策略 $\pi$ 下的状态价值函数 $v_\pi$ 与其后继状态价值的关系。 $$ v_\pi(s) = \sum_{a} \pi(a \mid s) \sum_{s',r}p(s',r \mid s,a) \left[ r + \gamma v_\pi(s') \right] $$
贝尔曼最优方程 (Bellman Optimal Equation for $v^*$): 描述了最优价值函数 $v^(s)$ 与其后继状态价值的关系。 $$ v^(s) = \max_{a} \sum_{s',r}p(s',r \mid s,a) \left[ r + \gamma v^(s') \right] $$ 类似地，对于最优动作价值函数 $q_(s, a)$: $$ q_(s, a) = \sum_{s',r}p(s',r \mid s,a) \left[ r + \gamma \max_{a'} q^(s',a') \right] $$

策略评估 (预测问题)

目标: 计算给定策略 $\pi$ 的状态价值函数 $v_\pi$。

方法: 迭代策略评估 (Iterative Policy Evaluation)

该方法通过迭代式地应用贝尔曼期望方程来逼近 $v_\pi$。

初始化: 从一个任意的初始价值函数估计 $v_0$ 开始 (通常是全零)。
迭代更新: 在第 $k+1$ 次迭代中，对所有状态 $s \in S$，使用第 $k$ 轮的价值 $v_k$ 来计算新的价值估计 $v_{k+1}(s)$:

$$ v_{k+1}(s) ← \sum_{a} \pi(a \mid s) \sum_{s',r}p(s',r \mid s,a) \left[ r + \gamma v_k(s') \right] $$

或使用模型定义的期望奖励 $\mathcal{R}^a_s=\sum_{s',r}p(s',r \mid s,a)r$ 和状态转移概率 $\mathcal{P}^a_{ss'}=\sum_{r}p(s',r \mid s,a)$: $$ v_{k+1}(s) ← \sum_{a \in \mathcal{A}} \pi(a \mid s) \left( \mathcal{R}^a_s + \gamma \sum_{s' \in S} \mathcal{P}^a_{ss'} v_k(s') \right) $$

这种对所有状态同时基于旧值进行更新的方式称为同步备份 (Synchronous Backup)。

收敛性: 由于贝尔曼期望算子是一个 压缩映射 (Contractive Mapping) (在折扣因子 $\gamma < 1$ 时)，价值函数序列 $v_0, v_1, v_2, \ldots$ 会保证收敛到真实的 $v_\pi$。

算法: 迭代策略评估

输入: MDP (S, A, P, R, γ), 策略 π, 阈值 θ > 0
初始化 V(s) = 0 对于所有 s ∈ S

循环:
    Δ = 0   // 初始化本轮最大价值变化量
    对于每个状态 s ∈ S:
        v = V(s)  // 存储旧价值
        // 应用贝尔曼期望备份更新 V(s)
        V(s) = Σ[a] π(a|s) * Σ[s',r] p(s',r|s,a) * (r + γ * V(s'))
        Δ = max(Δ, |v - V(s)|)  // 更新最大变化量
    如果 Δ < θ:
        终止循环 (收敛)

输出 V ≈ v_π

寻找最优策略 (控制问题)

目标: 找到最优策略 $\pi^$ 和相应的最优价值函数 $v^$ (或 $q^*$)。

控制问题通常基于一个重要的思想: 广义策略迭代 (Generalized Policy Iteration, GPI)。GPI 指的是策略评估 (Policy Evaluation) 和 策略改进 (Policy Improvement) 两个过程相互作用、共同驱动策略和价值函数趋向最优的通用模式。几乎所有 RL 算法都可以看作是 GPI 的某种实现。

DP 中实现 GPI 的两种主要算法是策略迭代和价值迭代。

策略迭代

策略迭代通过显式地交替进行完整的策略评估和策略改进步骤来寻找最优策略。

核心流程:

初始化: 从一个任意 (通常是随机的) 策略 $\pi_0$ 和相应的 (可能不准确的) 价值函数 $v_0$ 开始。
重复以下两个步骤直至策略稳定:

(E) 策略评估 (Policy Evaluation) 使用当前策略 $\pi_k$，通过 迭代策略评估 (见第2部分--策略评估) 计算其精确的价值函数 $v_{\pi_k}$。
(I) 策略改进 (Policy Improvement) 基于计算得到的 $v_{\pi_k}$，生成一个新的、改进的策略 $\pi_{k+1}$。对每个状态 $s$，选择能够最大化基于 $v_{\pi_k}$ 的一步期望回报的动作 (即对动作价值函数 $q_{\pi_k}(s, a)$ 进行贪心选择):

$$ \pi_{k+1}(s) ← \argmax_{a \in \mathcal{A}} q_{\pi_k}(s, a) = \argmax_{a \in \mathcal{A}} \left{ \sum_{s',r}p(s',r \mid s,a) [ r + \gamma v_{\pi_k}(s') ] \right} $$

即:

$$ \pi_{k+1}(s) = \argmax_{a \in \mathcal{A}} \left{ \mathcal{R}^a_s + \gamma \sum_{s' \in S} \mathcal{P}^a_{ss'} v_{\pi_k}(s') \right} $$

策略改进定理 (Policy Improvement Theorem): 该定理保证，通过对 $v_\pi$ 贪心选择动作得到的新策略 $\pi'$，其价值函数 $v_\pi'$ 对于所有状态 $s$ 都满足 $v_\pi'(s) \geq v_\pi(s)$。如果 $v_\pi'= v_\pi$，则 $v_\pi'$ 必定等于 $v_*$，且 $\pi$ 是最优策略之一。

收敛性: 由于状态和动作空间有限时，策略的数量也是有限的，且每次改进要么严格提升价值，要么保持不变（此时已达到最优），因此策略迭代保证在有限次迭代内收敛到最优策略 $\pi^$ 和最优价值函数 $v^$。

算法: 策略迭代

1. 初始化：
   对于所有 s ∈ S，任意初始化 V(s) ∈ R
   对于所有 s ∈ S，任意初始化 π(s) ∈ A(s)      # 确定性策略
   终止状态的 V(s) = 0

2. 循环 (策略迭代主循环):

    // ===== (E) 策略评估（确定性策略版本）=====
    循环:
        Δ = 0
        对于每个状态 s ∈ S:
            v = V(s)
            # 确定性策略：直接取 π(s) 对应的转移
            V(s) = Σ_{s',r} p(s',r | s, π(s)) * [r + γ * V(s')]
            Δ = max(Δ, |v - V(s)|)
        如果 Δ < θ:
            终止内层循环

    // ===== (I) 策略改进 =====
    policy_stable = true
    对于每个状态 s ∈ S:
        old_action = π(s)
        
        # 贪心：最大化期望回报
        π(s) = argmax_a Σ_{s',r} p(s',r | s, a) * [r + γ * V(s')]
        
        如果 old_action ≠ π(s):
            policy_stable = false

    如果 policy_stable:
        终止外层循环，返回 V ≈ v_* 和 π ≈ π_*

价值迭代

价值迭代是另一种寻找最优策略的 DP 算法。它不显式地进行完整的策略评估，而是将一步策略评估和策略改进结合，直接迭代贝尔曼最优方程来逼近最优价值函数 $v^*$。

核心思想: 策略迭代中的策略评估步骤可能需要很多次迭代才能收敛。价值迭代通过在每次迭代中直接应用贝尔曼最优方程的备份操作，来更快速地逼近 $v^*$。

更新规则:

初始化: 从一个任意的初始价值函数估计 $v_0$ 开始 (通常为全零)。
迭代更新: 在第 $k+1$ 次迭代中，对所有状态 $s \in \mathcal{S}$，使用第 $k$ 轮的价值 $v_k$ 来计算新的价值估计 $v_{k+1}(s)$，直接结合了最大操作 (隐式的策略改进): $$ v_{k+1}(s) ← \max_{a \in \mathcal{A}} \left{ \sum_{s',r}p(s',r \mid s,a) [ r + \gamma v_k(s') ] \right} $$

或使用 $\mathcal{R}$ 和 $\mathcal{P}$: $$ v_{k+1}(s) ← \max_{a \in \mathcal{A}} \left{ \mathcal{R}^a_s + \gamma \sum_{s' \in S} \mathcal{P}^a_{ss'} v_k(s') \right} $$

收敛性: 由于贝尔曼最优算子也是一个压缩映射，价值函数序列 $v_0, v_1, v_2, \ldots$ 会保证收敛到最优价值函数 $v^*$。

与策略迭代的区别: 价值迭代的中间价值函数 $v_k$ 不一定对应任何一个固定策略的价值函数 (除非到最后收敛)。它直接朝着 $v^*$ 逼近。策略迭代则是在完整的 $v_\pi$ 和 $\pi$ 之间切换。

算法: 价值迭代

输入: MDP (S, A, P, R, γ), 阈值 θ > 0
初始化 V(s) = 0 对于所有 s ∈ S

// ===== 价值迭代：直接优化贝尔曼最优方程 =====
循环:
    Δ = 0
    对于每个状态 s ∈ S:
        v = V(s)
        // 原位更新（异步风格，通常收敛更快）
        V(s) = max[a] Σ[s',r] p(s',r|s,a) * (r + γ * V(s'))
        Δ = max(Δ, |v - V(s)|)
    如果 Δ < θ:
        终止循环  // V ≈ v_*

// 从收敛的 V 中提取确定性最优策略 π_*
初始化 π(s) 任意地 // 或者直接在下一步中赋值
对于 每个状态 s ∈ S:
  // 根据最优价值函数 V 选择最优动作
  π(s) = argmax[a] Σ[s',r] p(s',r|s,a) * (r + γ * V(s'))

输出 π

DP 算法总结与比较

所有这些基本的 DP 算法都依赖于状态价值函数 $v(s)$ (或动作价值函数 $q(s, a)$) 的迭代更新。
每次同步迭代 (遍历所有状态) 的计算复杂度大致为 $O(|\mathcal{S}|^2|\mathcal{A}|)$ (对于基于 $v$ 的更新)。如果状态转移是稀疏的，可能会更低。

异步动态规划

上述的 同步 DP 算法在每次迭代中都需要对整个状态集进行一次完整的扫描和更新。当状态空间很大时，这会非常耗时。异步 DP 放宽了这一要求，允许更灵活的更新方式。

核心思想: 不进行全局同步扫描，而是以任意顺序、选择性地备份状态的价值。更新一个状态的价值时，使用其他状态的最新可用值。
优点:
- 减少计算量: 可以避免对价值已经收敛或变化不大的状态进行计算。
- 聚焦计算: 可以优先更新那些与目标相关、或者贝尔曼误差较大的状态。
- 可能更快收敛: 有时通过优先更新关键状态，能够更快地传播价值信息。
收敛性: 只要保证所有状态最终都会被持续地 (无限次地) 选中进行更新，异步 DP 仍然能够收敛到正确的价值函数 ($v_\pi$ 或 $v_*$)。
常见变种:
- 原位 DP (In-place DP): 只维护一份价值函数数组 $V(s)$，更新时立即写入，后续状态的更新会直接使用这个新值。更新顺序变得重要。
- 优先级扫描 (Prioritized Sweeping): 维护一个优先级队列，根据状态的 贝尔曼误差 (当前价值与备份后价值的差) 的大小来决定更新哪个状态。优先更新误差较大的状态，并将更新的影响传播给其前驱状态 (那些可能转移到当前状态的状态)。
- 实时 DP (Real-time DP): 只更新智能体在与环境 (或模拟环境) 交互过程中实际访问到的状态 $S_t$。非常适用于状态空间巨大，但智能体实际能到达或关心的状态子集有限的情况。

DP 的局限性与展望

尽管 DP 是理解 RL 价值函数和最优策略的基础，但它有两大主要局限性:

维度诅咒 (Curse of Dimensionality): DP 算法的计算和存储需求随着状态数量 $|\mathcal{S}|$ (有时还有动作数量 $|\mathcal{A}|$) 的增长而急剧增加 (通常是多项式级别，如 $O(|\mathcal{S}|^2|\mathcal{A}|)$)。对于状态空间非常庞大的现实问题 (如围棋、机器人控制)，DP 变得不可行。
需要完美的环境模型 (Requires a Perfect Environment Model): DP 假设状态转移概率 $\mathcal{P}$ 和奖励函数 $\mathcal{R}$ 是完全已知的。然而，在许多实际应用中，我们无法事先获得精确的环境模型。

展望: 超越 DP

正是由于 DP 的这些局限性，特别是对模型的需求和计算复杂性问题，促使了 无模型 (Model-free) 强化方法的发展，例如 蒙特卡洛 (Monte Carlo) 和 时序差分 (Temporal Difference, TD) 学习。此外，为了解决维度诅咒问题，函数逼近 (Funcition Approximation) (如使用神经网络) 被引入来近似价值函数或策略，而不是使用表格存储，这引出了 深度强化学习 (Deep Reinforcement Learning)。

近似动态规划 (Approximate Dynamic Programming)

即使在有模型的情况下，如果状态空间过大，也可以使用函数逼近 (例如 $\hat{v}(s, w)$ 或 $\hat{q}(s, a, w)$，其中 $w$ 是参数) 来替代表格存储价值。DP 的备份操作可以用来生成训练样本:

选择一个状态 $s$ (或一批状态)。
使用当前的近似价值 $\hat{v}(s', w_k)$ 和贝尔曼 (最优或期望) 备份计算一个目标价值 $\tilde{v}_k(s)$。
将 $(s, \tilde{v}k(s))$ 作为监督学习的样本，更新参数 $w$ 以最小化预测误差，得到 $w{k+1}$ 和新的近似函数 $\hat{v}(s, w_{k+1})$。

这种方法结合了 DP 的思想和函数逼近的能力，有时也被称为 拟合价值迭代 (Fitted Value Iteration) 或相关方法。

小结 (Summary)

动态规划提供了一套理论上保证找到最优策略 (在已知模型下) 的算法基础。
策略评估用于计算给定策略的价值 (预测问题)，基于贝尔曼期望方程。
策略迭代和价值迭代用于寻找最优策略 (控制问题)，分别基于贝尔曼期望方程+贪心改进和贝尔曼最优方程。
**广义策略迭代 (GPI)**是评估和改进相互作用以趋向最优的核心思想。
异步 DP提高了 DP 在实践中的效率，尤其适用于大规模问题。
DP 的主要缺点是对维度诅咒敏感和需要完美的环境模型，这激发了现代强化学习中无模型方法和函数逼近技术的发展。

本文参考如下:

[1] Axi's Blog

[2] Lou-uo's Code（Cliff Walking Problem）

Paper Reading: Agent Memory 2

Sat, 16 May 2026 00:00:00 GMT

import { ArxivRating } from '@/components/advanced' import { Aside } from '@/components/user'

Generative Agents

MemoryBank

Me-Agent

GUI Agent

Mem-PAL

Mem0

PersonaMem-v2

A-MEM

MemoryArena

RL学习笔记（3）: 马尔可夫决策过程

Wed, 13 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色信息提示

tip - 紫色技巧提示
caution - 黄色警告提示
danger - 红色危险提示 */

引言

本文介绍马尔可夫决策过程 (Markov Decision Process, MDP)，它是强化学习中用于建模完全可观测环境下的序贯决策问题的标准框架。我们将从基础的马尔可夫性质开始，逐步构建马尔可夫过程 (MP)、马尔可夫奖励过程 (MRP)，最终引出马尔可夫决策过程 (MDP) 及其核心概念，如策略、价值函数和贝尔曼方程，最后再扩展到核心求解与优化知识。

马尔可夫过程 (Markov Processes)

随机过程 (Stochastic Process)

在随机过程中，随机现象在某时刻 $t$ 的取值是一个向量随机变量，用 $S_t$ 表示，所有可能的状态组成集合 $S$。在某时刻 $t$ 的状态 $S_t$ 通常取决于 $t$ 时刻之前的状态。我们将已知历史信息 $(S_1, \ldots, S_t)$ 时下一个时刻状态为 $S_{t+1}$ 的概率表示成 $P(S_{t+1}|S_1, \ldots, S_t)$。

马尔可夫性质 (Markov Property)

定义: 当前状态 $S_t$ 包含了预测未来所需的所有历史信息。即下一状态 $S_{t+1}$ 的概率分布仅依赖于当前状态 $S_t$。$\mathbb{P}(S_{t+1}|S_t) = P(S_{t+1}|S_1, \ldots, S_t)$。
意义: 当前状态是未来的“充分统计量”，历史信息可被丢弃。环境状态 $S^e$ 通常假定满足此性质。

马尔可夫过程 (Markov Process, MP) / 马尔可夫链 (Markov Chain)

定义: 一个满足马尔可夫性质的随机状态序列，是描述无外部控制（动作）和奖励的系统动态的模型。用元组 $< S, P >$ 描述一个马尔可夫过程。
- $S$ 是有限数量的状态集合。
- $P$ 是状态转移概率矩阵，$P_{ss'} = \mathbb{P}(S_{t+1} = s'|S_t = s)$。 $$ P = \begin{bmatrix} P(s_1 \mid s_1) & \cdots & P(s_n \mid s_1) \ \vdots & \ddots & \vdots \ P(s_1 \mid s_n) & \cdots & P(s_n \mid s_n) \end{bmatrix} $$ 矩阵 $P$ 中第 $i$ 行第 $j$ 列元素 $P(s_j|s_i)=P(S_{t+1}=s_j|S_t=s_i)$ 表示从状态 $s_i$ 转移到状态 $s_j$ 的概率，我们称 $P(s'|s)$ 为状态转移函数。从某个状态出发，到达其他状态的概率和必须为 1，即状态转移矩阵 $P$ 的每一行的和为 1。

马尔可夫奖励过程 (Markov Reward Process, MRP)

定义: 在 MP 基础上增加了奖励和折扣因子。由元组 $< S, P, R, \gamma >$ 定义:
- $S, P$: 同上。
- $R$: 奖励函数。$R_s = \mathbb{E}[R_{t+1}|S_t=s]$ (离开状态 $s$ 的期望立即奖励)。
- $\gamma$: 折扣因子。$\gamma \in [0, 1]$，用于平衡当前奖励和未来奖励。
回报 (Return): 从 $t$ 时刻开始的折扣累计奖励。$G_t = \sum_{k=0}^\infty \gamma^k R_{t+k+1}=R_{t+1}+\gamma G_{t+1}$。
状态价值函数 (State-Value Function): 在 MRP 中，从状态 $s$ 开始的期望回报。$v(s):=\mathbb{E}[G_t|S_t=s]$。
MRP 的贝尔曼方程 (Bellman Equation for MRP): 描述了状态价值与其后继状态价值的关系。$v(s)=R(s)+\gamma \sum_{s'\in S} P_{ss'}v(s')$。矩阵形式: $v=R+\gamma P v$，可直接求解 $v=(I-\gamma P)^{-1} R$。

马尔可夫决策过程 (Markov Decision Process, MDP)

MDP 在 MRP 基础上引入了动作和策略，用于形式化完全可观测的 RL 问题。

定义: 元组 $< S, P, R, \gamma, A, \pi >$
- $S$: 有限状态集合。
- $A$: 有限动作集 (可能依赖于状态 $A(s)$)。
- $P$: 状态转移概率矩阵，$P_{ss'}^a = \mathbb{P}(S_{t+1} = s'|S_t = s, A_{t} = a)$。
- $R$: 奖励函数，$R^a_s = \mathbb{E}[R_{t+1}|S_t=s, A_{t}=a]$。
- $\gamma$: 折扣因子。
- $\pi$: 策略函数，从状态到动作的映射。
核心假设: 环境完全可预测 ($O_t = S^e_t$) 且状态满足马尔可夫性质。
与相关模型的关系:
- MAB: 可视为单状态 MDP。
- POMDP (部分可观测 MDP): 当 $O_t \neq S^e_t$ 时使用。需要维护信念状态 (Belief State) 并在此空间上求解。

策略 (Policy) $\pi$

定义: 智能体在状体 $s$ 选择动作 $a$ 的规则，通常是概率分布 $\pi(a|s)=\mathbb{P}(A_{t}=a|S_t=s)$。
特性: 通常假定是稳态的 (stationary) 和马尔可夫的 (Markovian)。
固定策略下的 MDP: 给定策略 $\pi$，MDP 退化为 MRP $< S, P^\pi, R^\pi, \gamma >$。
- $P^\pi_{ss'} = \sum_{a} \pi(a|s) P_{ss'}^a$ (状态转移概率矩阵)。
- $R^\pi_s = \sum_{a} \pi(a|s) R^a_s$ (期望奖励)。

价值函数 (Value Function)

状态价值函数 (State-Value Function): 在状态 $s$ 开始，遵循策略 $\pi$ 的期望回报。$v_\pi(s):=\mathbb{E}_\pi[G_t|S_t=s]$。
动作价值函数 (Action-Value Function): 在状态 $s$ 开始，执行动作 $a$，然后遵循策略 $\pi$ 的期望回报。$q_\pi(s,a):=\mathbb{E}\pi[G_t|S_t=s, A{t}=a]$。

贝尔曼期望方程 (Bellman Expectation Equation)

描述了给定策略 $\pi$ 下 $v_\pi$ 和 $q_\pi$ 满足的一致性条件 (线性方程)。

$$ \begin{aligned} v^{\pi}(s) &= \sum_{a \in A} \pi(a \mid s) q_\pi(s, a) \ &= \sum_{a \in A} \pi(a \mid s) \left( \mathcal{R}s^a + \gamma \sum{s' \in S} \mathcal{P}{ss'}^a v\pi(s') \right) \[6pt]

q^{\pi}(s, a) &= \mathcal{R}s^a + \gamma \sum{s' \in \mathcal{S}} \mathcal{P}{ss'}^a v\pi(s') \ &= \sum_{a \in A} \pi(a \mid s) \left( R_s^a + \gamma \sum_{s' \in S} P_{ss'}^a v_\pi(s') \right) \end{aligned} $$

蒙特卡洛方法 (Monte-Carlo methods)

定义: 一种基于概率统计的数值计算方法。我们通常使用重复随机抽样，然后运用概率统计方法来从抽样结果中归纳出我们想求的目标的数值估计。
应用: 用蒙特卡洛方法来估计一个策略在一个马尔可夫决策过程中的状态价值函数。一个状态的价值是它的期望回报，那么一个很直观的想法就是用策略在 MDP 上采样很多条序列，计算从这个状态出发的回报再求其期望。$v^\pi(s)=\mathbb{E}\pi[G_t|S_t=s] \approx \frac{1}{N} \sum{i=1}^N G_t^i$。

占用度量 (Occupancy Measure)

状态访问分布 (State Visitation Distribution): $\nu^\pi(s) = (1 - \gamma) \sum_{t=0}^{\infty} \gamma^t P^\pi_t(s)$
- $P^\pi_t(s)$: 表示采取策略 $\pi$ 使得智能体在 $t$ 时刻状态为 $s$ 的概率。
- $\nu_0(s)$: 智能体在最开始处于各个状态的概率分布。$\nu_0(s)=P_0^\pi(s)$。
- $1-\nu$: 用来使得概率加和为 1 的归一化因子。
- 递推公式: $\nu^\pi(s') = (1-\gamma)\nu_0(s') + \gamma \int!!!\int P(s' \mid s,a)\pi(a \mid s)\nu^\pi(s) , ds , da$。
定义: 表示动作状态对 (s, a) 被访问到的概率。$\rho^\pi(s, a)=(1-\nu)\sum^\infty_{t=0} \gamma^t P^\pi_t(s)\pi(a|s)$。
- 与状态访问分布的关系: $\rho^\pi(s, a) = \nu^\pi(s) \pi(a|s)$。
- 定理1: 智能体分别以策略 $\pi_1$ 和 $\pi_2$ 与同一个 MDP 交互得到的占用度量 $\rho^\pi_1$ 和 $\rho^\pi_2$ 满足 $\rho^{\pi_1} = \rho^{\pi_2} \iff \pi_1 = \pi_2$
- 定理2: 给定一合法占用度量 $\rho$，可生成该占用度量的唯一策略是 $\pi_\rho=\frac{\rho(s, a)}{\sum_{a'}\rho(s, a')}$。“合法”占用度量是指存在一个策略使智能体与 MDP 交互产生的状态动作对被访问到的概率。

最优性 (Optimality in MDPs)

RL 的目标是找到使期望回报最大化的最优策略。

最优价值函数:

最优状态价值函数: 所有策略中可能达到的最大期望回报。$v_*(s) = \max_{\pi} v^\pi(s)$。
最优动作价值函数: 执行动作 $a$ 后遵循最优策略能达到的最大期望回报。$q_*(s, a) = \max_{\pi} q^\pi(s, a)$。

最优策略 $\pi_*$

定义: 能够达到最优价值函数的策略，即 $v_{\pi_}(s) = v_(s)$ 对所有 $s$ 成立。
存在性: 至少存在一个最优策略，且总能找到确定性的最优策略。
从 $q_$ 导出 $\pi_$: 通过贪心选择: $\pi_(a|s)=1 \iff a = \arg \max_{a'\in \mathcal{A}} q_(s, a')$。
从 $v_$ 导出 $\pi_$ (需要模型): 通过一步前向规划: $\pi_(a|s)=1 \iff a = \arg \max_{a'\in \mathcal{A}} \left( \mathcal{R}s^a + \gamma \sum{s'} \mathcal{P}{ss'}^a v(s') \right)$。

贝尔曼最优方程 (Bellman Optimality Equation)

描述了最优价值函数 $v_$ 和 $q_$ 必须满足的一致性条件 (非线性方程)。
$v_*(s)$ 的方程: $v_(s) = \max_{a \in \mathcal{A}} q_(s, a) = \max_{a \in \mathcal{A}} { \mathcal{R}s^a + \gamma \sum{s' \in \mathcal{S}} \mathcal{P}{ss'}^a v*(s') }$。
$q_*(s, a)$ 的方程: $q_(s, a) = \mathcal{R}s^a + \gamma \sum{s' \in \mathcal{S}} \mathcal{P}{ss'}^a v(s') = \mathcal{R}s^a + \gamma \sum{s' \in \mathcal{S}} \mathcal{P}{ss'}^a q*(s', a')$。
特性: 由于 $max$ 算子，方程是非线性的，通常无法直接求解。
求解方法: 需使用迭代算法，如价值迭代、策略迭代 (动态规划，需要模型) 或 Q学习、Sarsa (强化学习，无需模型)。

本文参考如下:

[1] Axi's Blog

[2] 动手学强化学习

[3] Lou-uo's PDF

[4] Lou-uo's Code

[5] Hana's Blog

RL学习笔记（2）: 多臂赌博机

Mon, 11 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色信息提示

tip - 紫色技巧提示
caution - 黄色警告提示
danger - 红色危险提示 */

引言

本文先讨论一种简化版的强化学习问题：多臂赌博机。与强化学习不同的是，多臂赌博机不存在状态信息，只有动作和奖励，聚焦于单步决策中的探索与利用。

多臂赌博机 (Multi-Armed Bandit, MAB) 问题

情景引入

有一个拥有 $K$ 根拉杆的老虎机，拉动每一根拉杆都对应一个关于奖励的概率分布 $R$ 。我们每次拉动其中一根拉杆，就可以从该拉杆对应的奖励概率分布中获得一个奖励 $r$ 。我们在各根拉杆的奖励概率分布未知的情况下，从头开始尝试，目标是在操作 $T$ 次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的，因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖最多的拉杆”中进行权衡。“采用怎样的操作策略才能使获得的累积奖励最高”便是多臂赌博机问题。

细节剖析

场景: 存在 $K$ 个选项，选择每个臂 $a$ 会根据未知的概率分布 $P_a$ 产生一个奖励。
过程: 在 $T$ 个时间步内，智能体在每一步 $t$ 选择一个臂 $A_t$ ，获得奖励 $R_{t+1}$。
目标: 最大化 $T$ 步内的累积奖励 $\sum^T_{t=1}R_t$，等价于尽快找到并持续利用具有最高奖励价值 $Q^*$ 的最优臂。
挑战: 智能体不知道 $Q(a)$ ，必须通过尝试来估计。
特性: 无状态，当前选择不影响未来的奖励分布。

参数定义

元组 < $ A, R $ > : 已有条件
- $A$ : 动作集合，即 $K$ 个拉杆，${a_1, \ldots, a_K}$。
- $R$ : 奖励概率分布。对于每个动作 $a$，奖励 $r \sim P_a(r)$。
期望: $Q(a) = \mathbb{E}_{r \sim R(\cdot | a)}[r]$，每个动作 $a$ 的期望奖励。
最优期望奖励: $Q^* = \max_{a \in A} Q(a)$，所有动作 $a$ 中的奖励期望的最大值。

懊悔 (Regret)

定义: 拉动当前拉杆的动作 $a$ 与最优拉杆的期望奖励差
累积懊悔: $L_T = \sum^T_{t=1} (Q^* - Q(a))$，操作 $T$ 次后累积的懊悔总量。
目标: 设计算法使总懊悔 $L_T$ 随时间 $T$ 次线性 (sublinear) 增长 (即 $\lim_{T \to \infty} \frac{L_T}{T} = 0$)。这意味着随着时间推移，智能体几乎一定能找到最优臂。

动作价值估计方法 (Action-Value Methods)

估计 $Q(a)$ 使解决 MAB 的基础。

采样平均法 (Sample-Average Method)

思想: 使用动作 $a$ 历史上获得的所有奖励的平均值作为其价值估计 $Q_t(a)$。

$Q_t(a) := \frac{\sum^{t-1}_{i=1} R_i}{t-1} (A_i = a)$
收敛性: 根据大数定律，若每个动作被无限次选择，$Q_t(a)$ 会收敛到 $Q(a)$ 。

增量式期望更新 (Incremental Expect Update)

目的: 高效计算，无需存储所有历史奖励。
更新规则: 对于动作 $a$ 的第 $n$ 次选择获得的奖励 $R_n$: $Q_{n+1} = Q_n + \frac{1}{n}(R_n - Q_n)$
通用形式: $新估计值=旧估计值+步长×误差$，NewEstimate <- OldEstimate + StepSize * [Target - OldEstimate]，其中StepSize$\alpha_n = 1/n$。

处理非平稳问题 (Non-stationary Problems)

问题: 当 $Q(a)$ 随时间变化时，采样平均法 (步长 $1/n$) 因给予所有历史奖励同等权重而表现不佳。
解决: 使用常数步长 (Constant Step Size) $\alpha \in (0, 1): Q_{n+1} = Q_n + \alpha (R_{n+1} - Q_n)$。
效果: 实现指数近因加权平均，更重视近期奖励，能追踪变化的目标，但不会完全收敛。

步长参数选择 (Step-Size Parameter)

收敛条件 (平稳问题，随机逼近理论): $\sum_{n=1}^\infty \alpha_n(a) = \infty$ 和 $\sum_{n=1}^\infty \alpha_n^2(a) < \infty$
$\alpha_n = 1/n$ 满足条件，常数 $\alpha$ 不满足第二个条件。

探索与利用策略

平衡尝试未知选项（探索）和选择当前最优选项（利用）是 MAB 的核心。

ϵ-贪心 (ϵ-Greedy)

机制: 以 $1-\epsilon$ 概率选择当前估计值 $Q_t(a)$ 最高的动作 (利用)，以 $\epsilon$ 概率从所有动作中随机选择一个 (探索)。
优缺: 简单，保持持续探索；但是探索是随机的，可能导致长期性能损失 (线性遗憾)。注：设置 $\epsilon = 1/t$ 能保证收敛于0。

乐观初始值 (Optimistic Initial Values)

机制: 将所有 $Q_1(a)$ 初始化为一个很高的值，然后始终采取纯贪心策略 (选择 $A_t=\arg \max_a Q_t(a)$ ，使用采样平均法 (步长 $1/n$) 更新)。
效果: 高初始值鼓励智能体尝试所有动作至少一次，实现早期系统性探索。
优缺: 实现简单；但对初始值敏感，随机环境下可能过早锁定次优动作。

置信度上界 (Upper Confidence Bound, UCB)

思想: “在不确定性面前保持乐观”。选择潜力大的动作，$潜力=高估计值 + 高不确定性$。
机制: $A_t := \arg \max_{a \in A} [Q_t(a) + c\sqrt{\frac{\ln t}{N_t(a)}}] $，其中 $Q_t(a)$ 是利用项，$c\sqrt{\frac{\ln t}{N_t(a)}}$ 是探索项 ($N_t(a)$ 为动作 $a$ 被选次数，$t$ 为总步数，$c$ 为控制探索的参数)。
优缺: 基于 Hoeffding 不等式，有较好的理论遗憾界 ($O(\log T)$) 和实践性能。
算法流程
- 初始化 $Q$，并且将全部臂都拉取一次，获得更新
- 每步 $t$，根据当前估计值 $Q_t(a)$ 和探索项 $c\sqrt{\frac{\ln t}{N_t(a)}}$ 选择 $A_t$。
- 观测奖励 $R_{t+1}$，更新 $Q_t(a)$ 和 $N_t(a)$。

汤普森采样 (Thompson Sampling / Posterior Sampling)

思想：贝叶斯方法。维护每个动作价值 $Q(a)$ 的后验概率分布 $P(Q(a) \mid \text{History})$。
算法流程
1. 每步 $t$，为每个动作 $a$ 从其后验分布中采样一个价值 $\tilde{q}_a$
2. 选择采样值最大的动作 $A_t = \arg\max_a \tilde{q}_a$
3. 观察奖励 $R_{t+1}$
4. 使用贝叶斯更新规则更新动作 $A_t$ 的后验分布
探索机制：后验分布越宽（不确定性高），越有可能采样到高值而被选中。
贝叶斯更新与共轭先验（以伯努利赌博机为例）
- 奖励为 0/1。似然为伯努利分布
- 使用 Beta 分布 $\text{Beta}(\alpha, \beta)$ 作为共轭先验
- 更新规则：观察到 1 次成功（奖励=1）则 $\alpha \leftarrow \alpha + 1$，观察到 1 次失败（奖励=0）则 $\beta \leftarrow \beta + 1$。后验仍为 Beta 分布
优缺：实现简单（尤其使用共轭先验时），经验性能通常非常好。
与 Greedy 对比（伯努利场景）

| 步骤 | BernGreedy (贪心) | BernThompson (汤普森采样) | |:---|:---|:---| | 值计算/采样 | 计算期望值 $\theta_k = \alpha_k / (\alpha_k + \beta_k)$ | 从 $\text{Beta}(\alpha_k, \beta_k)$ 分布中采样 $\theta_k$ | | 动作选择 | 选择使 $\theta$ 最大的臂 $k$ | 选择使采样值 $\theta$ 最大的臂 $k$ | | 参数更新 | 根据奖励 $r_t$ 更新 $(\alpha_{a_t}, \beta_{a_t})$ | 根据奖励 $r_t$ 更新 $(\alpha_{a_t}, \beta_{a_t})$ |

（循环和应用/观察步骤相同）

补充: 梯度赌博机算法 (Gradient Bandit Algorithms)

这类算法不估计动作价值，而是直接学习动作的偏好 (Preference) $H_t(a)$

动作选择 (Softmax Policy): $\pi_t(a) = P(A_t = a) = \frac{e^{H_t(a)}}{\sum^K_{b=1} e^{H_t(b)}}$
学习规则 (Stochastic Gradient Ascent):

更新选中动作 $A_t$ 的偏好：$H_{t+1}(A_t) = H_t(A_t) + \alpha (R_t - \bar{R}_t)(1 - \pi_t(A_t))$
更新未选中动作 $a \neq A_t$ 的偏好：$H_{t+1}(a) = H_t(a) - \alpha (R_t - \bar{R}_t)\pi_t(a)$
其中 $\alpha$ 是学习率，$\bar{R}_t$ 是奖励基线（如历史平均奖励），用于减小方差。$(R_t - \bar{R}_t)$ 衡量当前奖励的好坏。
优缺: 可处理非平稳环境; 对学习率和基线敏感。

本文参考如下:

[1] Axi's Blog

[2] Hana's Blog

[3] 动手学强化学习

[4] Lou-uo's PDF

[5] Lou-uo's Code: ϵ-贪心、UCB、汤普森采样

RL学习笔记（1）: 强化学习简介

Sun, 03 May 2026 00:00:00 GMT

import { Aside } from '@/components/user' /* - note - 蓝色信息提示

tip - 紫色技巧提示
caution - 黄色警告提示
danger - 红色危险提示 */

什么是强化学习？

假如你第一次玩一款游戏。你不知道地图，不知道敌人会出现在哪里，也不知道怎样才能通关。

于是你开始不断尝试：

往左走，掉进陷阱；
往右走，拿到奖励；
某次操作虽然短期吃亏，却帮助你后面成功通关。

经过大量“尝试—反馈—调整”之后，你逐渐学会了如何获得更高的分数。

这个过程，其实就是强化学习（Reinforcement Learning, RL）的核心思想。

强化学习是一种让 智能体（Agent） 通过与 动态、开放的环境（Environment） 不断交互，并根据 奖励（Reward） 反馈，自主学习 策略（Policy） 的方法。

与传统机器学习不同，强化学习并没有“标准答案”直接告诉智能体应该怎么做。智能体只能通过不断 试错（Trial-and-Error） ，从成功和失败中总结经验，最终学会如何在复杂环境中做出更优决策。

如果说：

监督学习像“老师带着做题”；那么强化学习更像“自己在游戏中摸索通关”。

智能体需要自己探索：

哪些行为是有效的；哪些选择会导致失败；如何在长期过程中获得最大的收益。

强化学习最核心的目标并不是追求“当前最好的结果”，而是：

在连续决策过程中，最大化长期累积奖励（Cumulative Reward） 。

这意味着，智能体有时需要放弃眼前的小收益，去换取未来更大的回报。

例如：

围棋中主动弃子；
游戏中绕路获取关键装备；
自动驾驶中提前减速避险；

这些行为虽然短期看似“吃亏”，但从长期来看却是更优的决策。

强化学习的基本框架：智能体与环境的交互

广泛地讲，强化学习是机器通过与环境交互来实现目标的一种计算方法。

交互过程 (The Loop)

感知：智能体在某种程度上感知环境的状态(State) $S_t$，从而知道自己所处的现状。
决策：智能体根据当前的状态 $S_t$，计算出达到目标需要采取的动作(Action) $A_t$。
- 环境根据 $S_t$ 和 $A_t$ 转换到新的状态 $S_{t+1}$。
反馈：环境根据智能体的决策，返回奖励（Reward） $R_{t+1}$ 作为反馈。
- 智能体接收到新的状态 $S_{t+1}$ , 循环继续。

序贯决策 (Sequential Decision Making)

智能体的动作有长远影响。现在的选择决定了未来的状态，进而限制了未来的选择。

解决思路：需要引入 马尔可夫决策过程(Markov Decision Process, MDP) 来数学化描述这个过程，并通过 动态规划(Dynamic Programming) 或 时序差分(Temporal Difference, TD) 算法来学习最优策略。

经历 (Experience)与轨迹 (Trajectory)

一次完整的交互（从开始到结束）称为一个 回合(Episode) 或 轨迹(Trajectory)。
交互产生序列数据：$(S_0, A_0, R_0, S_1, A_1, R_1, \ldots, S_{T-1}, A_{T-1}, R_{T-1}, S_T)$ 。RL算法利用这些序列进行学习。

关联任务 vs 非关联任务

非关联任务 (Non-associative)：无需区分状态，目标是找到全局最优的单个动作或追踪变化环境中的最优动作。典型例子是多臂老虎机 (multi-armed bandit)。
关联任务 (Associative)：动作选择需与当前状态 (State) 或情境 (Context) 关联。智能体需学习从状态到最优动作的映射。上下文老虎机 (Contextual Bandit) 是简单例子，而完整的 RL 问题（如导航）是典型的关联任务。

强化学习的关键要素

历史 (History)与状态 (State)

历史 (History)$H_t$: 从开始到时间t为止的所有观测 (Observation)、动作、奖励序列: $H_t = (O_1, R_1, A_1, \ldots, A_{t-1}, O_t, R_t)$。包括了智能体进行$A_t$前的全部原始信息。
状态 (State)$S_t$: 是对历史的总结，包含决定未来所需的所有信息。状态是历史的一种函数 $S_t = f(H_t)$
环境状态 (Environment State)$S^e_t$: 环境内部决定下一状态 / 奖励的完整信息，但是不一定对智能体可见。
智能体状态 (Agent State)$S^a_t$: 智能体内部用于决策的信息，是历史的一种函数 $S^a_t = f(H_t)$。RL算法基于 $S^a_t$ 学习。

环境的可观测性 (Observability)

完全可观测环境 (Fully Observable Environment): 智能体可以观察到环境的所有状态信息$O_t=S^e_t$。当前的观测就包含所有决策需要的历史信息。
- 这类问题通常用 马尔可夫决策过程 (Markov Decision Process, MDP) 建模。
- 马尔可夫性质 (Markov Property): 未来只依赖当前状态，与历史路径无关，即 $P[S_{t+1} | S_t] = P[S_{t+1} | S_1, \ldots, S_t]$。
- 环境状态 $S^e_t$ 通常满足马尔可夫性质。在完全可观测时，智能体状态 $S^a_t = S^e_t$ 也满足。
部分可观测环境 (Partially Observable Environment)：智能体只能观察到环境的部分状态信息 ($O_t \neq S^e_t$)。当前观测不足以确定状态，历史信息变得重要。
- 这类问题用 部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 建模。
- 处理办法: 智能体需要构建状态估计 $S^a_t$。常用方法包括使用历史 $H_t$、循环神经网络 (RNN) 或维护信念状态 (Belief State) $b(s^e) = P(S^e_t = s^e | H_t)$ (即关于真实状态的概率分布)。

奖励信号 (Reward Signal) $R_t$

奖励 $R_t$ 是一个标量反馈信号，表明智能体在 t 时刻动作后的即时“好坏”程度。
目的: 定义 RL 的目标。智能体旨在最大化累积奖励。
奖励设计 (Reward Shaping) 非常关键，直接引导学习方法。例如：
- 游戏胜利：高正奖励。
- 游戏失败：高负奖励。
- 触发特定事件（如吃金币）：小正奖励。
- 无事发生：零奖励或小的负奖励（鼓励效率）。

回报 (Return) 与折扣 (Discounting)

回报 (Return)$G_t$: 从时间 $t$ 开始的未来奖励累积。它衡量了当前状态或状态-动作对在长期来看的价值。
- 分幕式任务 (Episodic Tasks): 有明确终止状态 $T$。$G_t := R_{t+1} + R_{t+2} + \ldots + R_T = \sum_{k=t+1}^T R_k$
- 持续式任务 (Continuous Tasks): 无明确终止状态。
折扣回报 (Discounted Return)$G_t$ (或 $U_t$): 为了处理无限和以及权衡近期与远期奖励，引入折扣因子 (Discount Factor) $γ \in [0, 1)$。$G_t := R_{t+1} + γ R_{t+2} + γ^2 R_{t+3} + \ldots = \sum_{k=0}^∞ γ^k R_k$ 此定义统一适用于分幕式 (令 $R_k = 0$ for $k > T $) 和持续式任务。
- 为什么需要折扣因子 $γ$？
  1. 数学便利：确保回报有界，利于算法收敛。
  2. 模型不确定性：远期奖励预测难度大，折扣降低其影响。
  3. 偏好即时奖励：符合直觉，现在的奖励通常更有价值。
  4. 模拟终止概率：可视为每步有 $1 - γ$ 的概率终止。

折扣因子的影响：

$γ \approx 0$: 智能体更关注近期奖励，远期奖励被折扣化。

$γ \approx 1$: 智能体更关注远期奖励，近期奖励被折扣化。

回报的递归关系: 折扣回报满足重要的递归性质：$G_t = R_{t+1} + γ G_{t+1}$ 回报的随机性: 由于未来的动作和状态可能随机，未来的奖励也是随机的。因此，$G_t$ 是一个随机变量。算法通常使用实际观测到的回报值来估计其期望。

环境模型 (Environment Model)

模型描述环境行为，预测环境对动作的响应。包含：
1. 状态转移概率 (State Transition Probability) $p(s'|s, a)$: 在状态 $s$ 下，执行动作 $a$ 后，环境状态转移为 $s'$ 的概率。$p(s'|s, a) = \mathbb{P}(S_{t+1} = s' | S_t = s, A_t = a)$
2. 奖励函数 (Reward Function) $r(s, a)$ 或 $R^a_t$: 在状态 $s$ 下，执行动作 $a$ 后，期望获得的立即奖励。$R^a_s = \mathbb{E}[R_{t+1} | S_t = s, A_t = a]$
引出两种主要方法类型：
- 基于模型 (Model-Based): 尝试学习或利用环境模型。
- 无模型 (Model-Free): 不依赖显式模型，直接从经验中学习。

随机性来源 (Randomness)

RL 中存在多个随机源：
1. 动作随机性 (Stochastic Action): 智能体的策略 $\pi(a|s)$输出概率分布，$A_t ∼ \pi(a|s)$。
2. 状态随机性 (Stochastic State): 环境状态本身可能随机，$S_{t+1} ∼ p(\cdot|S_t, A_t) $。
3. 奖励随机性: 奖励 $R_{t+1}$ 也可能依赖于 $(S_t, A_t, S_{t+1})$ 并且是随机的。

强化学习智能体的核心组成

一个典型的 RL 智能体通常包含以下一个或多个组件：

策略 (Policy) $\pi$

策略是智能体的“大脑”，定义了智能体在给定状态下如何选择动作。
确定性策略 (Deterministic Policy): $a = \pi (s)$。
随机性策略 (Stochastic Policy): $\pi (a|s) = P(A_t = a | S_t = s)$，输出动作的概率分布。随机策略在探索和处理不确定性时有优势。
目标: 找到最优策略 $\pi^*$，使得期望累计奖励最大化。
策略的价值可以等价转换成奖励函数在策略的占用度量上的期望，即：
$最优策略 = \argmax_{策略}\mathbb{E}_{(状态, 动作) ∼ 策略的占用度量} [奖励函数(状态, 动作)]$

价值函数 (Value Function) $V^{π}(s), Q^{π}(s, a)$

价值函数用于评估状态或状态-动作对的“好坏”程度（长期价值），即遵循特定策略 $\pi$ 能获得的期望回报。
状态价值函数 (State Value Function) $V^{π}(s)$: 策略 $\pi$ 下的状态价值函数，衡量状态 $s$ 在长期来看的价值。$V^{π}(s) = \mathbb{E}[G_t | S_t = s]$
动作价值函数 (Action Value Function) $Q^{π}(s, a)$: 策略 $\pi$ 下的动作价值函数，衡量状态 $s$ 下执行动作 $a$ 的价值。$Q^{π}(s, a) = \mathbb{E}[G_t | S_t = s, A_t = a]$
关系: $V^{π}(s)$ 是 $Q^{π}(s, a)$ 在策略 $\pi$ 下的期望值：
- 离散动作：$V^{π}(s) = \sum_{a \in A} \pi(a|s) Q^{π}(s, a)$
- 连续动作：$V^{π}(s) = \int_{a \in A} \pi(a|s) Q^{π}(s, a) da$
价值函数帮助评估和改进策略。

模型 (Model)

模型是对环境动态的模拟。如果智能体拥有或学习了模型，就可以进行规划 (Planning)。

强化学习的关键挑战与权衡

探索 (Exploration) vs 利用 (Exploitation)

RL 的核心困境: 是利用当前已知的最好选择，还是探索未知区域以发现更好的策略？

利用: 选择当前估计价值最高的动作，最大化短期收益。
探索: 尝试非最优或未充分尝试的动作，收集信息，可能发现长期更优的策略，但可能牺牲短期收益。
平衡: 是关键。过度利用可能陷入局部最优，过度探索则效率低下。常用策略有 $ϵ$-greedy、UCB、乐观初始值等。

预测 (Prediction) vs 控制 (Control)

RL 的两大任务类型：

预测 (Prediction) / 策略评估 (Policy Evaluation):
- 问题: 给定策略 $\pi$，评估其价值。
控制 (Control) / 策略优化 (Policy Optimization):
- 问题: 找到最优策略 $\pi^*$。
- 目标: 最大化长期回报，找到最优价值函数 $V^(s)$, $Q^(s, a)$和最优策略 $\pi^*$。
关系: 控制问题通常通过迭代地进行预测和改进来解决，这个过程称为广义策略迭代 (Generalized Policy Iteration, GPI)。

学习 (Learning) vs 规划 (Planning)

学习 (Learning):
- 环境模型未知。
- 通过与真实环境交互，收集经验。
- 直接从经验中改进策略或价值函数。
规划 (Planning):
- 环境模型已知或已学习。
- 利用模型进行模拟计算（思考/推演），产生模拟经验。
- 基于模拟经验改进策略或价值函数，无需与真实环境交互。
- 例子：动态规划 (DP)、蒙特卡洛树搜索 (MCTS)。
结合: 许多方法（如 Dyna-Q）结合两者，通过真实交互学习模型，再利用模型进行规划加速学习。

强化学习方法分类

RL 算法课从不同维度分类:

基于价值 (Value-Based):
- 学习价值函数 $V(s)$ 或 $Q(s, a)$。
- 策略隐式。
- 代表: Q-Learning、SARSA、DQN。
基于策略 (Policy-Based):
- 直接学习策略 $\pi (a|s)$。
- 可处理连续动作空间，能学习随机策略。
- 代表: REINFORCE, Policy Gradients。
演员-评论家 (Actor-Critic):
- 结合前两者。演员 (Actor) 学策略，评论家 (Critic) 学价值函数指导演员。
- 代表: A2C、A3C、DDPG、SAC。
无模型 (Model-Free):
- 不学习环境模型，直接从经验学习。
- 样本效率通常较低。
- 包括上述大部分方法。
基于模型 (Model-Based)：
- 学习环境模型，并利用模型进行规划或生成模拟数据。
- 样本效率通常较高，但受模型精度限制。
- 代表：Dyna-Q, MCTS 相关方法。

强化学习常用符号

$S$: 状态空间(State Space)
$S_t, s$: 当前状态(State at time t, a specific state) - 大写为随机变量，小写为具体值
$A$: 动作空间(Action Space)
$A_t, a$: 当前动作 (Action at time t, a specific action) - 大写为随机变量，小写为具体值
$R_t, r$: 奖励 (Reward at time t, a specific reward value) - 大写为随机变量，小写为具体值
$\pi$: 策略(Policy)或模型(Model)
$V^{π}(s)$: 策略 $\pi$ 下的动作价值函数 (Action-value function under policy $\pi$)
$Q^{π}(s, a)$: 策略 $\pi$ 下的动作价值函数 (Action-value function under policy $\pi$)
$G_t$: 回报 (Return, cumulative future reward from t) - 随机变量
$γ$: 折扣因子 (Discount factor)
$p(s'|s, a)$: 状态转移概率 (State transition probability)
$\mathbb{E}[\cdot]$: 期望 (Expectation)
$H_t$: 历史 (History)

本文参考如下：

[1] Axi's Blog

[2] Hana's Blog

[3] 动手学强化学习

[4] Lou-uo's repo

Paper Reading: Agent Memory 1

Tue, 05 May 2026 00:00:00 GMT

import { ArxivRating } from '@/components/advanced' import { Aside } from '@/components/user'

PERMA

PersonaLens

Persona2Web

ATM

Paper Reading: World Model 1

Mon, 04 May 2026 00:00:00 GMT

import { ArxivRating } from '@/components/advanced' import { Aside } from '@/components/user'

World Models

我应该会有一段比较长的时间不会更新 World Model 的内容了。在写这个 Blog 时，我进行了很多的调研，发现其实现在大多数的世界模型都有种套壳的感觉，学术界似乎并不能划清不同方向与 World Model 的界限。像 World Models 这篇开山之作，目前只有 DeepMind 的 Dreamer 属于这种潜在空间的强化学习的延伸。其他像 LeCun 支持用稀疏表征建模的 JEPA、李飞飞主张像素级重建世界的 Marble 还有具身智能中的应用……实在是太多了，不适合一个人进行 Paper Reading 的工作。我还是需要去选择一个或几个做一些实在的研究或复现，才能理清楚 World Model 的实质。有缘再会！

本文参考如下：

[1] 浙江大学-大模型导论

GitHub + Vercel 部署（推荐）

Sun, 11 Jan 2026 00:00:00 GMT

1. 为什么推荐 GitHub + Vercel

PR 预览：每个分支/PR 都能拿到可访问的预览链接
自动构建：push 即部署
HTTPS / CDN：默认就有

详细流程与说明：Website on Vercel

2. 部署前检查

本地先跑通：

pnpm install
pnpm build

配置域名（建议至少填主域名）：

src/site.config.ts → theme.personal.domains.main

3. Vercel 部署要点

主题会读取 DEPLOYMENT_PLATFORM 来选择适配器与输出：

vercel（默认）：Vercel adapter，输出通常为 server
github：用于 GitHub Pages，输出为 static
cloudflare：用于 Cloudflare Pages，输出为 static

在 Vercel 项目里设置环境变量：

DEPLOYMENT_PLATFORM=vercel

构建命令建议使用：

pnpm build

输出目录（Output Directory）保持默认即可（Astro 会由适配器处理）。

4. 静态站点（可选）

如果你希望生成纯静态站点（例如 GitHub Pages），使用：

DEPLOYMENT_PLATFORM=github

并确保你的部署平台支持静态产物 dist/。

Axi Theme 基础使用与配置

Sun, 11 Jan 2026 00:00:00 GMT

1. 前置条件

Node.js 18+（建议 20+）
包管理器：pnpm

pnpm install
pnpm dev

2. 目录结构（最常用）

src/site.config.ts：主题配置入口（站点信息、导航、集成配置等）
src/content/blogs/<slug>/index.mdx：中文文章
src/content/blogs/<slug>/index-en.mdx：英文文章（可选，没有则英文列表会回退到中文）
public/：静态资源（/images/*、/avatar/* 等）

3. 配置站点信息（`src/site.config.ts`）

常改字段：

theme.title / theme.description：站点标题/描述
theme.personal.domains.main：主域名（用于生成绝对链接、RSS 等）
theme.header.menu：导航菜单
integ.pagefind：站内搜索（Pagefind）
integ.waline：评论系统（见 Waline 文档）

4. 写一篇文章（中英双语）

新建文件夹：src/content/blogs/my-first-post/
写中文：src/content/blogs/my-first-post/index.mdx
写英文：src/content/blogs/my-first-post/index-en.mdx（可选）

最小 Frontmatter（两种语言都要有）：

---
title: My Title
publishDate: 2026-01-11
description: Short summary.
tags: ['docs']
---

5. 构建与产物

pnpm build
pnpm preview

构建产物默认在 dist/
astro.config.mjs 会根据 DEPLOYMENT_PLATFORM 选择适配器与输出模式（详见部署文档）

6. 部署推荐（GitHub + Vercel）

建议使用 GitHub 托管代码 + Vercel 自动部署（PR 预览、回滚、CDN、HTTPS 都更省心）。

部署思路与注意事项：Website on Vercel

Friend Circle（朋友圈）：接入与配置

Sun, 11 Jan 2026 00:00:00 GMT

1. Friend Circle 是什么

“朋友圈”页面会展示友链站点的最新文章聚合，适合在 Links 页让访问者快速看到朋友们的新内容。

本主题的 Links 页集成入口在：

src/pages/links/index.astro

2. 先准备数据源（Friend-Circle-Lite）

本主题使用 Friend-Circle-Lite 的接口数据（all.json 等）。搭建与使用方式建议参考：

Friend Circle 参考文档

你需要得到一个可访问的域名，例如：

fc.example.com

并确保以下地址可访问：

https://fc.example.com/all.json

3. 在主题中启用

编辑 src/site.config.ts，设置：

theme.personal.domains.friendCircle = 'fc.example.com'

配置完成后，/links 页面会自动显示 “Small Circle / 朋友圈” 区块。

4. 友链 RSS 建议

如果某个站点在友链里但朋友圈里没有内容，通常是该站点未提供 RSS 或 RSS 不可访问。建议为友链站点补全 RSS。

MDX 组件使用：User & Advanced

Sun, 11 Jan 2026 00:00:00 GMT

import { Aside, Tabs, TabItem, Spoiler } from '@/components/user' import { GithubCard, LinkPreview, QRCode, ImageGroup, WebVideo } from '@/components/advanced'

1. 必须使用 MDX

.md 文章无法 import 组件；请使用 .mdx（如 src/content/blogs/<slug>/index.mdx）。

2. User 组件示例

3. Advanced 组件示例

GitHub 卡片

链接预览

二维码

图片组（等高拼图）

内嵌视频

Waline 评论系统：部署与接入

Sun, 11 Jan 2026 00:00:00 GMT

1. 部署 Waline 服务端

请参考这篇完整教程（包含服务端部署与配置项说明）：

Waline Comments: Deploy & Integrate

部署完成后你会得到一个服务端地址，例如：

https://waline.example.com/

2. 在主题中启用 Waline

编辑 src/site.config.ts：

integ.waline.enable: 设为 true
integ.waline.server: 填你的 Waline Server URL

示例：

waline: {
  enable: true,
  server: 'https://waline.example.com/',
}

3. 常见说明

评论区组件：src/components/advanced/Comment.astro
页面访问量/评论数：部分页面会加载 Waline 的 pageview 统计（见 src/pages/*）
单篇文章是否显示评论：由文章 Frontmatter 的 comment 控制（默认 true）

写作指南：Markdown / MDX

Sun, 11 Jan 2026 00:00:00 GMT

1. Markdown 支持范围

主题默认启用了常用扩展：

GFM：表格、删除线、任务列表等
数学公式：KaTeX（ $...$ / $$...$$）
代码高亮：Shiki（支持标题、差异标注等）

2. 数学公式（KaTeX）

行内：

欧拉公式：$e^{i\\pi}+1=0$

块级：

$$
\\int_0^1 x^2 dx = \\frac{1}{3}
$$

3. 代码块增强（差异/高亮）

你可以在代码中使用注释标记来展示变更（示例来自主题的高亮 transformer）：

const a = 1 // [!code --]
const a = 2 // [!code ++]

也可以做行高亮：

const token = 'secret' // [!code highlight]

4. 什么时候用 MDX

当你需要在文章里使用组件（例如 Aside、Tabs、GithubCard 等）时，请使用 .mdx，并在文件顶部 import 组件。

组件用法示例文档：见 “MDX 组件使用”。