meta_intro 元学习入门 元学习(meta-learning)被称为“学习如何学习”,旨在让模型通过学习多个任务的经验,获得快速适应新任务的能力。其核心目标是提高模型在面对新任务时的学习效率和泛化能力 Meta-learning 的几个分支 (1) 基于优化的元学习(Optimization-Based) 思想:直接优化模型参数,使其在少量迭代中收敛。 经典方法: MAML:通过二阶梯度优化模型 2025-02-05
learning_theory2 VC 维 打散(shattering) 定义:称一个模型类 H\mathcal{H}H 可以打散为一个数据点集 x(1),x(2),…,x(n)x^{(1)}, x^{(2)}, \dots, x^{(n)}x(1),x(2),…,x(n),若对于这些点上可能存在的每个标签,在该模型类中均存在获得零训练误差的模型。 即先抽取一个样本集合,对其中的样本点随意加标签,模型都能够正确分类, 2025-02-05
神经网络学习理论-1 网络学习理论 在这一章中,我们用严谨的数学语言建模各种问题的可学性,以及在可学的情况下,模型对未见数据的泛化误差(即模型的泛化能力)。同时,我们对模型的学习能力进行定量描述,研究目标为: 学习问题本身,包括采样的数据量的复杂度,这在 PAC 学习和 ERM 边界中描述 模型固有的表达能力,这在 VC 维中描述 归纳(Inductive)与直推(Transductive) 两种学习范式 2025-02-03
神经网络学习理论-1 网络学习理论 在这一章中,我们用严谨的数学语言建模各种问题的可学性,以及在可学的情况下,模型对未见数据的泛化误差(即模型的泛化能力)。同时,我们对模型的学习能力进行定量描述,研究目标为: 学习问题本身,包括采样的数据量的复杂度,这在 PAC 学习和 ERM 边界中描述 模型固有的表达能力,这在 VC 维中描述 归纳(Inductive)与直推(Transductive) 两种学习范式 2025-02-03
multi_task 多任务学习 多任务学习(Multitask Learning, MTL)是一种机器学习方法,它试图通过同时学习多个相关任务来提高模型的性能。这种方法基于一个假设:即不同任务之间存在一定的关联或共享信息,通过共同学习这些任务可以互相帮助,提升彼此的表现 单一任务 vs. 多任务学习 定义一个单一任务:从单一输入源中学习单个输出目标。该任务的目标函数为: minwL(X,y,w)\min_w 2025-01-31
nohup&tmux nohup的问题 在我使用 nohup 命令启动后台的训练任务的时候,发现了 nohup 命令的一些坑,特此记录和警醒自己 12345678910111213141516171819202122232425262728WARNING:torch.distributed.elastic.agent.server.api:Received 1 death signal, shutting dow 2025-01-17
拉格朗日凸优化 拉格朗日凸优化 一般而言,非线性规划的问题有如下形式: PA:{minxf(x)subject to:hi(x)=0, i=1,2,⋯ ,mgj(x)≤0, j=1,2,⋯ ,lP_A: \begin{cases} \min_{\boldsymbol x} & f( \boldsymbol{x}) & \\ \text{subject to:} &h_i( \bo 2025-01-07
data_discri 数据降维 数据降维是处理高维数据时常用的技术,它旨在减少数据集的特征数量同时尽可能保留原始数据的关键信息。常见的降维算法可以分为线性方法和非线性方法两大类,常见的线性降维算法有 PCA(Principal Component Analysis 无监督),LDA(Linear Discriminant Analysis 有监督)。非线性降维算法有 SNE(t-distributed Stoch 2025-01-02
矩阵求导总结 矩阵求导总结 这篇文章是为了总结矩阵求导和反向传播推导的, 求导布局 求导布局包括:分子布局或分母布局。 分子布局:求导结果的维度以分子为主。结果矩阵的行对应于分母(输入)变量,列对应于分子(输出)变量。例如: ∂f2×1(x)∂x3×1T=[∂f1∂x1∂f1∂x2∂f1∂x3∂f2∂x1∂f1∂x2∂f2∂x3]2×3\frac{\partial {\boldsymbol{f} 2024-12-31