DQN-1 DQN-1 Q-learning算法中,我们以矩阵的方式建立了一张存储每个状态下所有动作 的 Q 值的表格。表格中的每一个动作价值 Q(s,a)Q(s, a)Q(s,a) 表示在状态s 下选择动作 aaa 然后继续遵循某一策 略预期得到的期望回报。然而,这种用表格存储动作价值的做法只在环境的状态和动作都是离散 的,并且空间都比较小的情况下适用 对于这种情况,我们需要用函数拟合的方法来估计 2024-05-18
奈奎斯特判据推导 奈奎斯特判据推导 对于线性定常系统,我们之前最初判断稳定性的方式是:判断闭环传递函数所有根(即所有闭环极点)的实部是否全部为负。奈奎斯特判据的目标是,通过一种共性映射将原复平面(记为 sss 平面)映射到新的平面(记为 FFF 平面),通过辐角原理在新的复平面上研究闭环极点的新位置反推原复平面内闭环极点的位置情况 辐角原理 设复平面上的回路 Γs\Gamma_sΓs 的内部为 I(Γ 2024-05-14
n维欧拉公式 欧拉公式在n维的推广 我们知道 ez=er(cosθ+sinθ)e^{z} = e^r(cos \theta + sin\theta)ez=er(cosθ+sinθ) 为最熟悉的欧拉公式形式,而复数的表示可以用二元的矩阵取代,因此我们可以将复数形式的欧拉公式改写为矩阵形式,因此很自然的一个想法是,这个公式是否能推广到 nnn 维欧式空间 欧拉公式的意义 以一个线性微分方程组为例: {d 2024-05-07
Rewrite the Stars论文精读 Why do element-wise mutiplication work? 我们常常注意到在神经网络中,element-wise multiplication 往往能够取得很好的效果。之前不同领域中文章往往也应用了这一点并且提出了各自的概念或解释(例如gating mechanism,high-order, modulation mechanism, visual-attention等等 2024-05-04
cuda-4-计时 写CUDA,追求的就是加速比,想要得到准确的时间,计时函数就是必不可少 计时通常分为两种情况: 直接得到接口函数的时间,一般用于得到加速比;可以使用CPU计时函数和GPU计时函数 获得接口函数内核函数、内存拷贝函数等所耗时间,一般用于优化代码时;可以使用nvprof工具 CPU计时函数 在利用CPU计时函数时,要考虑的一个问题是:核函数的执行是异步执行的,所以必须加上核函数同步函数, 2024-04-28
cuda-3-错误 cuda CUDA运行时API大多支持返回错误代码,返回值类型:cudaError_t 运行时API成功执行,返回值为cudaSuccess 运行时API返回的执行状态值是枚举变量,对应官方文档查看错误代码可以知道错误来源 捕捉主机函数错误: CUDA代码在主机端(CPU)和设备端(GPU)的错误检测方法并不相同 在主机端(CPU)执行的CUDA代码主要包括对CUDA API函数的调 2024-04-27
Java GUI Java GUI——Java图形用户界面 Java GUI概述 早期,电脑向用户提供的是单调、枯燥、纯字符状态的“命令行界面(CLI),在今天,一个应用软件没有良好的GUI是无法让用户接受的。Java语言提供了一套可以轻松构建GUI的工具 AWT 是 Java最早的界面库(java.awt:Abstract Windows ToolKit(抽象窗口工具包),需要调用本地系统方法来实现功能,属重 2024-04-26
Mamba pytorch复现 Mamba pytorch复现 代码思路是:MambaBlock -> ResidualBlock -> Mamba 其中MambaBlock就是最基础的单个Mamba块,如下图最左侧的部分: ResidualBlock就是Mamba块加上Normalize和残差连接的块,Mamba就是多个ResidualBlock叠加起来,再加上LLM最基本的Embedding等组成的 2024-04-24
Manba论文解读 Manba论文解读 自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加 32 倍时,计算量可能会增长 1000 倍,计算效率非常低。 而就在最近 2024-04-23
概率论熵 概率论中的熵 我们直接给出定义: 信息量(Information Content) 信息量是指一个随机事件提供的信息量大小。一个事件发生的概率越小,它提供的信息量就越大。信息量的定义是概率对数的相反数,即: I(X)=−logb(p)I(X) = -log_b(p) I(X)=−logb(p) 其中 ppp 是该事件发生的概率 熵(Entropy) 熵是衡量随机变量不确定性的一个量 2024-04-20