强化学习综括 环境特性分类矩阵 维度特征 白盒环境(显式模型) 黑盒环境(隐式模型) 静态环境(单步决策) 运筹优化方法:- 线性/非线性规划- 组合优化- 凸优化 黑盒优化方法:- 代理模型优化(神经网络)- 贝叶斯优化- 模拟退火算法 动态环境(序贯决策) 动态规划方法:- 状态空间搜索(树/图搜索)- 马尔可夫决策过程(MDP)解析求解 强化学习方法:- 策略梯度优化-
MDP的进一步思考
MDP的进一步思考 序列回报的形式: 问题描述:为何序列回报 GtG_tGt 的形式是通过指数加权求和衰减,即是通过将当前时刻及之后的所有奖励进行加权求和得到的: Gt=Rt+γRt+1+γ2Rt+2+⋯=∑k=0∞γkRt+kG_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots = \sum_{k=0}^{\infty} \gam
intro
GNN 在之前学过的模型中,我们习惯于处理序列化数据,例如:图像、文本和表格数据——这些结构规整的信息可以被轻松地输入卷积神经网络(CNN)或循环神经网络(RNN)。然而,现实世界中存在着大量非欧几里得数据:社交网络中的用户关系、蛋白质分子的原子连接、交通路网的动态车流…这些数据本质上由节点(实体)和边(关系)构成,形成了一个个复杂的图结构。图神经网络(Graph Neural Networ
prob_graphical_models(1)
概率图模型 在算力有限的过往时期,机器学习模型主要聚焦于针对特定数据分布 p(x)p(x)p(x) 来估计条件概率 p(y∣x)p(y|x)p(y∣x) 。而迈入 GPT-3 时代后,算力与模型规模的大幅提升,使得模型能够拟合更强的数据分布 p(x)p(x)p(x)(无监督学习) ,进而构建出强大的基座模型。此后,仅需在各具体任务上进行少量微调,便可实现模型的有效迁移 根据 No Fre
learning_theory2
VC 维 打散(shattering) 定义:称一个模型类 H\mathcal{H}H 可以打散为一个数据点集 x(1),x(2),…,x(n)x^{(1)}, x^{(2)}, \dots, x^{(n)}x(1),x(2),…,x(n),若对于这些点上可能存在的每个标签,在该模型类中均存在获得零训练误差的模型。 即先抽取一个样本集合,对其中的样本点随意加标签,模型都能够正确分类,
神经网络学习理论-1
网络学习理论 在这一章中,我们用严谨的数学语言建模各种问题的可学性,以及在可学的情况下,模型对未见数据的泛化误差(即模型的泛化能力)。同时,我们对模型的学习能力进行定量描述,研究目标为: 学习问题本身,包括采样的数据量的复杂度,这在 PAC 学习和 ERM 边界中描述 模型固有的表达能力,这在 VC 维中描述 归纳(Inductive)与直推(Transductive) 两种学习范式
神经网络学习理论-1
网络学习理论 在这一章中,我们用严谨的数学语言建模各种问题的可学性,以及在可学的情况下,模型对未见数据的泛化误差(即模型的泛化能力)。同时,我们对模型的学习能力进行定量描述,研究目标为: 学习问题本身,包括采样的数据量的复杂度,这在 PAC 学习和 ERM 边界中描述 模型固有的表达能力,这在 VC 维中描述 归纳(Inductive)与直推(Transductive) 两种学习范式
multi_task
多任务学习 多任务学习(Multitask Learning, MTL)是一种机器学习方法,它试图通过同时学习多个相关任务来提高模型的性能。这种方法基于一个假设:即不同任务之间存在一定的关联或共享信息,通过共同学习这些任务可以互相帮助,提升彼此的表现 单一任务 vs. 多任务学习 定义一个单一任务:从单一输入源中学习单个输出目标。该任务的目标函数为: minwL(X,y,w)\min_w