planning Planning:概念、分类与价值 引言 在强化学习领域,“planning”(规划)是智能体通过内部模拟环境进行决策的能力。与直接通过环境交互的试错学习不同,规划让智能体能够在「想象」中预演未来可能发生的场景。 即:Planning 指智能体利用环境模型(model)在内部生成虚拟经验,通过模拟状态转移和奖励反馈来优化策略的过程。其本质是通过「思维实验」降低对真实环境交互的依赖 1 2025-02-27
ViT-Adapter复现 ViT-Adapter 复现 好久没被工程问题折磨了,又被折磨了好惨,不过每次折磨总是能学到新东西 不要轻易尝试重构代码 我在复现 ViT-Adapter/segmentation at main · czczup/ViT-Adapter 这个仓库的时候,由于官方 repo 给出的 mmcv 环境太老,必须使用 cuda=11.1 的环境,但是服务器的版本是 cuda=12.2,并不能 2025-02-27
detection_survey Loss函数的视角 分类 loss: Focal loss:用 Rankings 定位 loss: IoU loss: 模型的发展 Anchor Based 方法 双阶段检测模型 核心思想:通过“粗筛候选区域”与“精细优化”两阶段提升检测精度。 R-CNN: 使用上古传统算法(如Selective Search)生成约2000个候选区域,对每个区域独立提取CNN特征; 通过 2025-02-25
value_eval 值函数估计 在前面我们进行了 MDP 的理论推导,可以发现 value-based 算法的核心在于值函数的估计,状态值函数 Vπ(s)V^\pi(s)Vπ(s) 的定义为: Vπ(s)=Eπ[∑k=0∞γkrt+k+1∣st=s]V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k r_{t+k+1} \bigg| s_t = 2025-02-17
强化学习综括 环境特性分类矩阵 维度特征 白盒环境(显式模型) 黑盒环境(隐式模型) 静态环境(单步决策) 运筹优化方法:- 线性/非线性规划- 组合优化- 凸优化 黑盒优化方法:- 代理模型优化(神经网络)- 贝叶斯优化- 模拟退火算法 动态环境(序贯决策) 动态规划方法:- 状态空间搜索(树/图搜索)- 马尔可夫决策过程(MDP)解析求解 强化学习方法:- 策略梯度优化- 2025-02-16
MDP的进一步思考 MDP的进一步思考 序列回报的形式: 问题描述:为何序列回报 GtG_tGt 的形式是通过指数加权求和衰减,即是通过将当前时刻及之后的所有奖励进行加权求和得到的: Gt=Rt+γRt+1+γ2Rt+2+⋯=∑k=0∞γkRt+kG_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots = \sum_{k=0}^{\infty} \gam 2025-02-16
intro GNN 在之前学过的模型中,我们习惯于处理序列化数据,例如:图像、文本和表格数据——这些结构规整的信息可以被轻松地输入卷积神经网络(CNN)或循环神经网络(RNN)。然而,现实世界中存在着大量非欧几里得数据:社交网络中的用户关系、蛋白质分子的原子连接、交通路网的动态车流…这些数据本质上由节点(实体)和边(关系)构成,形成了一个个复杂的图结构。图神经网络(Graph Neural Networ 2025-02-06
prob_graphical_models(1) 概率图模型 在算力有限的过往时期,机器学习模型主要聚焦于针对特定数据分布 p(x)p(x)p(x) 来估计条件概率 p(y∣x)p(y|x)p(y∣x) 。而迈入 GPT-3 时代后,算力与模型规模的大幅提升,使得模型能够拟合更强的数据分布 p(x)p(x)p(x)(无监督学习) ,进而构建出强大的基座模型。此后,仅需在各具体任务上进行少量微调,便可实现模型的有效迁移 根据 No Fre 2025-02-06