swin_backbone Swin Transformer Swin Transformer 是一种用于 CV 的通用的 backbone。与传统的卷积神经网络(CNN)不同,Swin Transformer 综合了 CNN 和 VIT 的优点,在局部区域进行 self-attention 计算,捕捉长距离依赖关系也注重于局部信息。 Swin Transformer 的名称来源于其核心组件——滑动窗口(Slidi 2024-09-30
Deformable Attention Deformable Attention Deformable Attention 是一种改进的注意力机制,传统的 CNN 和注意力机制在处理图像数据时,通常使用固定的网格或窗口来提取特征,这限制了模型对不同尺度和形状的目标进行有效建模的能力。Deformable Attention 就是将 deformable convolution 和 VIT 缝合在一起了,以更好地捕捉目标的形状和结构 2024-09-29
多线程显存与内存管理 多线程显存与内存管理 问题背景: 需求是要制作一个文本模态和语音模态对齐的数据集,我需要做的仅仅是选一个效果很好的 TTS 模型将文本转语音就行了,我们需要从 1000k 条 conversation 里面挑选 40k 条数据进行转换(格式类似于 llava_instruct_150k.json 文件,是 human 和 gpt 文本对话的格式),由于单个模型一条一条地转化太耗时了,而且模 2024-09-24
MULTIMODAL LEARNING ACROSS LANGUAGES论文阅读 MULTIMODAL LEARNING ACROSS LANGUAGES 本文提出了一种有效的训练范式MPM(Multilingual language models can Pivot zero-shot Multimodal learning across languages),用于非英语语言的大规模多模态模型训练。MPM展示了如何利用强大的多语言大语言模型,使得仅在英文图像文本数据上预 2024-09-16
LLama-Omni论文阅读 LLama-Omni论文阅读 论文介绍了 LLaMA-Omni 模型,这是一种新颖的模型架构,设计用于实现与大型语言模型(LLMs)之间的低延迟(low latency)、高质量语音交互。LLaMA-Omni 集成了预训练的 audio encoder、audio adaptor、LLM 以及 streaming audio decoder(流式语音解码器),从而消除了对语音转录的需求,能够 2024-09-16
MMEvol论文阅读 MMEvol 论文地址:MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct 该论文的工作在于提出 MMEvol 的新框架(有点像教师-学生模型训练方法),一个用于多模态大语言模型(MLLMs)的图像-文本指令数据进化的框架。其主要目标是通过自动化生成开放域的图像-文本指令数据,来增强现有数据集的多样 2024-09-16
合并mmseg的backbone和encoder 合并mmseg的backbone和encoder 问题来源 由于我的这段科研工作主要围绕上下采样同时建模(协同上下采样)来展开的,我在小模型上跑出了很好的效果,想在大模型大数据集上进一步验证他的有效性,我选择了 mask2former 模型作为分割任务的 baseline,我尝试从 mask2former 官方 repo 下载代码后在他上面修改,但是这个代码封装极其深而且工程化,这个仓库是 2024-09-08
torch.autograd.Function torch.autograd.Function解析 pytorch的灵活性体现在它可以任意拓展我们所需要的内容,包括自定义模型(nn.Module)、自定义函数(nn.Function)、自定义损失函数(nn.Module)、自定义求导方式(torch.autograd.Function),本节内容介绍torch.autograd.Function自定义求导的使用方法 为什么需要torc 2024-08-24
差分卷积——边缘检测 差分卷积——边缘检测 参考论文: Searching central difference convolutional networks for face anti-spoofing Pixel Difference Networks for Efficient Edge Detection 这两篇论文是同一个作者的工作,后面一篇论文是前面论文的延续和拓展工作,我们直接介绍后面 2024-08-12
Guided Filtering Guided Filtering Guided Filtering是一种图像处理技术,它主要用于边缘保留平滑,即在去除噪声或细节的同时保持图像中的重要边缘,引导滤波(Guided Filtering)和双边滤波(BF)、最小二乘滤波(WLS)是三大边缘保持(Edge-perserving)滤波器。当然,引导滤波的功能不仅仅是边缘保持,只有当引导图是原图的时候,它就成了一个边缘保持滤波器 2024-07-29