LLama-Omni论文阅读 LLama-Omni论文阅读 论文介绍了 LLaMA-Omni 模型,这是一种新颖的模型架构,设计用于实现与大型语言模型(LLMs)之间的低延迟(low latency)、高质量语音交互。LLaMA-Omni 集成了预训练的 audio encoder、audio adaptor、LLM 以及 streaming audio decoder(流式语音解码器),从而消除了对语音转录的需求,能够 2024-09-16
MMEvol论文阅读 MMEvol 论文地址:MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct 该论文的工作在于提出 MMEvol 的新框架(有点像教师-学生模型训练方法),一个用于多模态大语言模型(MLLMs)的图像-文本指令数据进化的框架。其主要目标是通过自动化生成开放域的图像-文本指令数据,来增强现有数据集的多样 2024-09-16
合并mmseg的backbone和encoder 合并mmseg的backbone和encoder 问题来源 由于我的这段科研工作主要围绕上下采样同时建模(协同上下采样)来展开的,我在小模型上跑出了很好的效果,想在大模型大数据集上进一步验证他的有效性,我选择了 mask2former 模型作为分割任务的 baseline,我尝试从 mask2former 官方 repo 下载代码后在他上面修改,但是这个代码封装极其深而且工程化,这个仓库是 2024-09-08
torch.autograd.Function torch.autograd.Function解析 pytorch的灵活性体现在它可以任意拓展我们所需要的内容,包括自定义模型(nn.Module)、自定义函数(nn.Function)、自定义损失函数(nn.Module)、自定义求导方式(torch.autograd.Function),本节内容介绍torch.autograd.Function自定义求导的使用方法 为什么需要torc 2024-08-24
差分卷积——边缘检测 差分卷积——边缘检测 参考论文: Searching central difference convolutional networks for face anti-spoofing Pixel Difference Networks for Efficient Edge Detection 这两篇论文是同一个作者的工作,后面一篇论文是前面论文的延续和拓展工作,我们直接介绍后面 2024-08-12
Guided Filtering Guided Filtering Guided Filtering是一种图像处理技术,它主要用于边缘保留平滑,即在去除噪声或细节的同时保持图像中的重要边缘,引导滤波(Guided Filtering)和双边滤波(BF)、最小二乘滤波(WLS)是三大边缘保持(Edge-perserving)滤波器。当然,引导滤波的功能不仅仅是边缘保持,只有当引导图是原图的时候,它就成了一个边缘保持滤波器 2024-07-29
Segformer Segformer 代码来自 lucidrains/segformer-pytorch 这个仓库(Lucidrains 的代码写的太漂亮了,我的 VIT 代码也是抄他的) 本仓库是用于复现 Segformer 的,只写了模型部分,Segformer 的模型结构图如下: 先不看赏析的代码,如果是自己写代码,那我们该如何优美地设计模块? 整个模型分为 Encoder 与 Decode 2024-07-24
环境踩坑日记1 配置环境踩坑日记(1) 本期的主角是Efficient-Segmentation-Networks: Lightweight models for real-time semantic segmentationon PyTorch这个仓库,我想使用这个仓库的 SegNet 在 CamVid 上跑的结果,于是想要复现这个仓库,下面分析这个仓库的 README 写的问题 前情提要:原仓库说环 2024-07-23
外微分 外微分 引入外微分的目的是将Stocks公式,Green公式和Gauss公式用一种方式描述,我们先从Green公式考虑: 对于一个第二型曲面积分: ∬Df(x,y)dxdy=∬D−f(x,y)dydx{\iint }_{D}f\left( {x,y}\right) {dxdy} = {\iint }_{D} - f\left( {x,y}\right) {dydx} ∬Df(x,y)dx 2024-06-10
Actor-Critic算法 Actor-Critic 在 REINFORCE 算法中,每次需要根据一个策略采集一条完整的轨迹,并计算这条轨迹上的回报。由于采样方式的方差比较大,学习效率也比较低。我们可以借鉴时序差分学习的思想,使用动态规划方法来提高采样的效率,即从状态 sss 开始的总回报可以通过当前动作的即时奖励 r(s,a)r(s,a)r(s,a) 和下一个状态 s′s's′ 的值函数来近似估计 演员-评 2024-06-07