Exponential Moving Average
Adam EMA GAE
Adam EMA GAE
蒙特卡洛采样 (Monte Carlo Sampling) MCMC Monte Carlo Tree Search (MCTS) Denoising Score Matching
重要性采样 (Importance Sampling) GRPO/PPO中的重要性采样 Partial filter
信赖域方法 (Trust Region Method) 的数学原理与实现 Levenberg-Marquardt算法 TRPO和PPO SQP 问题的信赖域方法(trajopt)
随机微分方程 (SDE) 一般的微分方程可以表示为: $$\frac{d\textbf{x}}{dt} = f(\textbf{x},t)$$几乎所有更高阶的微分方程都可以转化为这种一阶形式。例如,一个二阶系统(如牛顿第二定律 $F=ma$)可以通过引入辅助变量(令速度 $v = \dot{x}$),将其改写为两个一阶方程组成的向量形式: $$\frac{d}{dt} \begin{bmatrix} x \\ v \end{bmatrix} = \begin{bmatrix} v \\ \frac{F}{m} \end{bmatrix}$$ 然而,在许多现实世界的系统中,存在随机性或不确定性,这时我们需要引入随机微分方程 (SDE) 来描述这些系统。 随机微分方程在传统微分方程的基础上,加入了一个随机过程项,通常表示为Wiener过程, SDE 的一般形式可以写成: \begin{equation}\label{eq:SDE_general} d\textbf{x} = f(\textbf{x},t)dt + g(\textbf{x},t)d\textbf{W}_t \end{equation} 其中$f(\mathbf{x}_t, t)$ 是漂移项。$g(t)$ 是扩散项。$d\mathbf{W}_t$是标准维纳过程: 维纳过程具有以下核心统计特性,增量 $d\textbf{W}_t = \textbf{W}_{t+dt} - \textbf{W}_t$ 服从均值为向量零、协方差矩阵为 $\textbf{I}dt$ 的正态分布: $$d\textbf{W}_t \sim \mathcal{N}(\textbf{0}, \textbf{I}dt)$$ 具体来说,它的期望和协方差可以分别表示为: $$\mathbb{E}[d\textbf{W}_t] = \textbf{0}$$ $$\text{Var}(d\textbf{W}_t) = \mathbb{E}[d\textbf{W}_t d\textbf{W}_t^T] = \textbf{I}dt$$例如通常在 SLAM 系统中,IMU 传感器的 bias(零偏)可以建模为一个随机游走(Random Walk)过程,其连续时间导数由强度为 $\sigma_b$ 的高斯白噪声 $\mathbf{n}_b(t)$驱动: ...