Hexo

intro

Hugging Face Transformers：源码入门指南 Hugging Face transformers 库对于任何使用当前最先进的自然语言处理 (NLP) 模型的人来说，都是一个极其强大的工具。虽然使用库的高级 API，如 pipeline 或 AutoModel.from_pretrained 非常直接，但深入研究源代码可以让你获得更深层次的理解，实现定制化，并更有效地调试问

2025-04-16

policy_gradient

本文将细致推导策略梯度算法：我们的目的是将策略给参数化，即用神经网络来建模策略，在离散动作空间内，这个建模是比较好进行的，比如 Q-learning（虽然不直接对策略建模，但是值函数的估计就内在给策略建模了）输入当前状态 sss 输出离散动作集内每个动作的 QQQ 值。但是这样对于连续动作空间是不可同样处理的，即我们需要找到一个方法将连续动作空间的策略给参数化。有很多解决方式，比如类似 VA

2025-03-15

planning

Planning：概念、分类与价值引言在强化学习领域，“planning”（规划）是智能体通过内部模拟环境进行决策的能力。与直接通过环境交互的试错学习不同，规划让智能体能够在「想象」中预演未来可能发生的场景。即：Planning 指智能体利用环境模型（model）在内部生成虚拟经验，通过模拟状态转移和奖励反馈来优化策略的过程。其本质是通过「思维实验」降低对真实环境交互的依赖 1

2025-02-27

ViT-Adapter复现

ViT-Adapter 复现好久没被工程问题折磨了，又被折磨了好惨，不过每次折磨总是能学到新东西不要轻易尝试重构代码我在复现 ViT-Adapter/segmentation at main · czczup/ViT-Adapter 这个仓库的时候，由于官方 repo 给出的 mmcv 环境太老，必须使用 cuda=11.1 的环境，但是服务器的版本是 cuda=12.2，并不能

2025-02-27

value_eval

值函数估计在前面我们进行了 MDP 的理论推导，可以发现 value-based 算法的核心在于值函数的估计，状态值函数 Vπ(s)V^\pi(s)Vπ(s) 的定义为： Vπ(s)=Eπ[∑k=0∞γkrt+k+1∣st=s]V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k r_{t+k+1} \bigg| s_t =

2025-02-17

强化学习综括环境特性分类矩阵维度特征白盒环境（显式模型）黑盒环境（隐式模型）静态环境（单步决策）运筹优化方法：- 线性/非线性规划- 组合优化- 凸优化黑盒优化方法：- 代理模型优化（神经网络）- 贝叶斯优化- 模拟退火算法动态环境（序贯决策）动态规划方法：- 状态空间搜索（树/图搜索）- 马尔可夫决策过程(MDP)解析求解强化学习方法：- 策略梯度优化-

2025-02-16

MDP的进一步思考

MDP的进一步思考序列回报的形式：问题描述：为何序列回报 GtG_tGt 的形式是通过指数加权求和衰减，即是通过将当前时刻及之后的所有奖励进行加权求和得到的： Gt=Rt+γRt+1+γ2Rt+2+⋯=∑k=0∞γkRt+kG_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots = \sum_{k=0}^{\infty} \gam

2025-02-16

intro

GNN 在之前学过的模型中，我们习惯于处理序列化数据，例如：图像、文本和表格数据——这些结构规整的信息可以被轻松地输入卷积神经网络（CNN）或循环神经网络（RNN）。然而，现实世界中存在着大量非欧几里得数据：社交网络中的用户关系、蛋白质分子的原子连接、交通路网的动态车流…这些数据本质上由节点（实体）和边（关系）构成，形成了一个个复杂的图结构。图神经网络（Graph Neural Networ

2025-02-06

prob_graphical_models(1)

概率图模型在算力有限的过往时期，机器学习模型主要聚焦于针对特定数据分布 p(x)p(x)p(x) 来估计条件概率 p(y∣x)p(y|x)p(y∣x) 。而迈入 GPT-3 时代后，算力与模型规模的大幅提升，使得模型能够拟合更强的数据分布 p(x)p(x)p(x)（无监督学习），进而构建出强大的基座模型。此后，仅需在各具体任务上进行少量微调，便可实现模型的有效迁移根据 No Fre

2025-02-06

learning_theory2

VC 维打散（shattering）定义：称一个模型类 H\mathcal{H}H 可以打散为一个数据点集 x(1),x(2),…,x(n)x^{(1)}, x^{(2)}, \dots, x^{(n)}x(1),x(2),…,x(n)，若对于这些点上可能存在的每个标签，在该模型类中均存在获得零训练误差的模型。即先抽取一个样本集合，对其中的样本点随意加标签，模型都能够正确分类，

2025-02-05