Wataの锟斤拷
  • 首页
  • 归档
  • 分类
  • 标签

Mamba pytorch复现

Mamba pytorch复现 ​ 代码思路是:MambaBlock -> ResidualBlock -> Mamba ​ 其中MambaBlock就是最基础的单个Mamba块,如下图最左侧的部分: ​ ResidualBlock就是Mamba块加上Normalize和残差连接的块,Mamba就是多个ResidualBlock叠加起来,再加上LLM最基本的Embedding等组成的
2024-04-24

Manba论文解读

Manba论文解读 ​ 自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加 32 倍时,计算量可能会增长 1000 倍,计算效率非常低。 ​ 而就在最近
2024-04-23

概率论熵

概率论中的熵 我们直接给出定义: 信息量(Information Content) ​ 信息量是指一个随机事件提供的信息量大小。越是出乎意料或发生概率越低的事件,一旦发生,则提供的信息量越大。信息量的定义是概率对数的相反数,即: I(X)=−log⁡b(p)I(X) = -\log_b(p) I(X)=−logb​(p) 其中 ppp 是事件发生的概率,bbb 代表信息量的单位(用什么衡量信息
2024-04-20

cuda-2-程序框架

cuda 程序框架 12345678910111213头文件包含常量定义(或者宏定义)C++ 自定义函数和CUDA核函数的声明(原型)int main(void){ 分配主机与设备内存 初始化主机中的数据 将某些数据从主机复制到设备 调用核函数在设备中进行计算 将某些数据从设备复制到主机 释放主机与设备内存}C++自定义函数与CUDA核函数
2024-04-19

cuda-1(兼容性)

cuda程序兼容性问题 先了解cuda程序编译的流程:先从C/C++代码编译为PTX,再从PTX编译为cudin代码 C/C++源码转化为PTX这一步骤与硬件无关 PTX指令转化为二进制cubin代码与具体的GPU架构有关 指定虚拟架构计算能力 C/C++源码编译为PTX时,可以指定虚拟架构的计算能力,用于确定代码中可以使用的CUDA功能 编译指令(指定虚拟架构计算能力): 1
2024-04-19

Java面向对象细碎知识

Java面向对象细碎知识 基础知识 引用变量: ​ 引用类型变量(Reference Type Variable)是一种编程概念,主要存在于面向对象语言如Java、C#等中。引用类型变量并不直接存储对象的值,而是存储对该对象的引用或者说地址。这意味着它是一个指针或者句柄,指向内存中某个位置——存储了实际的对象数据 ​ 在Java中,除了基本数据类型(如int、char、double等)以外,
2024-04-13

JDBC简介

JDBC简介 DBC是什么? ​ 由于数据库的厂商有很多,例如MySQL,Oracle等厂商,数据可能来自多个数据库或者我们需要切换数据库,DBC就是为了降低数据库与应用之间的耦合度而诞生的,下图是没有DBC的示意图: ​ 下图为有DBC(JDBC)的示意图,JDBC API相对于JDBC Driver Manager来说为更高级的模块: JDBC的意义 ODBC(Open Data
2024-04-12

Java异常处理

Exception 的概念 Exception 是在程序运行时打断正常程序流程的异常的情况 为了保证程序的正常运行,Java 专门提供了异常处理机制 Error:很难恢复的严重错误,一般不由程序处理。 RuntimeException:程序设计或实现上的问题,如数组越界、空指针等。正常的策略是纠正错误。 其它异常:通常是由环境因素引起的,如文件不存在、无效URL等。 可以在异常处
2024-04-12

Java高级特性

Java高级特性 Static关键字 静态变量(Static Variables): 当 static 修饰一个成员变量时,这个变量就成为静态变量,也称为类变量。静态变量存储在Java方法区中,且仅有一个副本,供所有类的实例共享 静态变量在类加载时初始化,其生命周期贯穿整个程序执行过程,直到JVM停止运行(类似于全局变量) 可以通过类名直接访问静态变量,无需创建类的实例 静态方法(St
2024-04-09

Wandb教程(3)

Wandb教程(3) ​ 本篇文章用于介绍Wandb如何进行网格超参数搜索,主要使用了Wandb中的Sweep功能: Sweep配置: 定义 Sweeps 配置 ​ Wandb的配置文件支持YAML和Python等多种文件格式,关于如何配置Sweep可见[官方文档](Define sweep configuration for hyperparameter tuning. (wandb.ai
2024-04-06
Pytorch学习
1…7891011…13

搜索