deephub

2024年11月21日

LLM2CLIP：使用大语言模型提升CLIP的文本处理，提高长文本理解和跨语言能力

摘要：在人工智能迅速发展的今天，多模态系统正成为推动视觉语言任务前沿发展的关键。CLIP（对比语言-图像预训练）作为其中的典范，通过将文本和视觉表示对齐到共享的特征空间，为图像-文本检索、分类和分割等任务带来了革命性突破。然而其文本编码器的局限性使其在处理复杂长文本和多语言任务时显得力不从心。大型语言模阅读全文

posted @ 2024-11-21 09:55 deephub 阅读(95) 评论(0) 推荐(0)

2024年11月20日

解读双编码器和交叉编码器：信息检索中的向量表示与语义匹配

摘要：在信息检索领域（即从海量数据中查找相关信息），双编码器和交叉编码器是两种至关重要的工具。它们各自拥有独特的工作机制、优势和局限性。本文将深入探讨这两种核心技术。双编码器：高效的大规模检索双编码器分别处理文档和搜索查询。可以将其类比为两个人独立工作：一人负责概括文档，另一人则专注于搜索查询，两者之阅读全文

posted @ 2024-11-20 10:00 deephub 阅读(89) 评论(0) 推荐(0)

2024年11月19日

使用Pytorch构建视觉语言模型（VLM）

摘要：视觉语言模型（Vision Language Model，VLM）正在改变计算机对视觉和文本信息的理解与交互方式。本文将介绍 VLM 的核心组件和实现细节，可以让你全面掌握这项前沿技术。我们的目标是理解并实现能够通过指令微调来执行有用任务的视觉语言模型。总体架构 VLM 的总体架构包括：图像编码阅读全文

posted @ 2024-11-19 09:49 deephub 阅读(301) 评论(0) 推荐(0)

2024年11月18日

使用 PyTorch-BigGraph 构建和部署大规模图嵌入的完整教程

摘要：当涉及到图数据时，复杂性是不可避免的。无论是社交网络中的庞大互联关系、像 Freebase 这样的知识图谱，还是推荐引擎中海量的数据量，处理如此规模的图数据都充满挑战。尤其是当目标是生成能够准确捕捉这些关系本质的嵌入表示时，更需要一种不会在庞大数据量下崩溃的解决方案。 PyTorch-BigGra 阅读全文

posted @ 2024-11-18 11:25 deephub 阅读(75) 评论(0) 推荐(0)

2024年11月17日

25 个值得关注的检索增强生成 (RAG) 模型和框架

摘要：大型语言模型 (LLM) 如 GPT-4 彻底革新了自然语言处理 (NLP) 领域，在生成类人文本、回答问题和执行各种语言相关任务方面展现出卓越的能力。然而，这些模型也存在一些固有的局限性：知识截止：LLM 的训练数据通常截止于特定时间点，使其无法获取训练后发生的事件或信息。静态知识库：LLM 阅读全文

posted @ 2024-11-17 11:02 deephub 阅读(85) 评论(0) 推荐(0)

2024年11月16日

利用PyTorch的三元组损失Hard Triplet Loss进行嵌入模型微调

摘要：本文介绍如何使用 PyTorch 和三元组边缘损失 (Triplet Margin Loss) 微调嵌入模型，并重点阐述实现细节和代码示例。三元组损失是一种对比损失函数，通过缩小锚点与正例间的距离，同时扩大锚点与负例间的距离来优化模型。 https://avoid.overfit.cn/post/4 阅读全文

posted @ 2024-11-16 09:57 deephub 阅读(151) 评论(0) 推荐(0)

2024年11月15日

告别Print，使用IceCream进行高效的Python调试

摘要：在Python开发实践中，调试是一个不可或缺的环节。如果采用 print() 语句来追踪程序执行流程，可能会遇到一个持续出现的异常情况，并且经过多次代码审查问题的根源仍然难以确定，这可能是因为随着终端输出信息的不断增加，这种调试方式的局限性逐渐显现。本文将介绍IceCream库，这个专门用于调试的工阅读全文

posted @ 2024-11-15 18:29 deephub 阅读(47) 评论(0) 推荐(0)

2024年11月14日

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

摘要：在深度学习领域，卷积神经网络（CNN）曾经是计算机视觉的代名词。自2012年AlexNet在ImageNet竞赛中取得突破性成功以来，CNN在图像识别、目标检测等领域掀起了一场革命。然而，纵观近年的顶会论文和研究热点，我们不得不承认一个现实：CNN相关的研究论文正在减少，曾经的"主角"似乎正逐渐淡出阅读全文

posted @ 2024-11-14 10:03 deephub 阅读(67) 评论(0) 推荐(0)

2024年11月13日

SMoA: 基于稀疏混合架构的大语言模型协同优化框架

摘要：在大语言模型(LLM)快速发展的背景下，研究者们越来越关注如何通过多代理系统来增强模型性能。传统的多代理方法虽然避免了大规模再训练的需求，但仍面临着计算效率和思维多样性的挑战。本文提出的稀疏代理混合(Sparse Mixture-of-Agents, SMoA)框架，通过借鉴稀疏专家混合(Spars 阅读全文

posted @ 2024-11-13 09:52 deephub 阅读(118) 评论(0) 推荐(0)

2024年11月12日

TSMamba：基于Mamba架构的高效时间序列预测基础模型

摘要：在当今数据驱动的世界中，时间序列预测在多个领域扮演着关键角色。从医疗保健分析师预测患者流量，到金融分析师预测股市趋势，再到气候科学家预测环境变化，准确的时间序列预测都至关重要。然而，传统的预测模型面临着三个主要挑战：数据获取难度：对于新兴模式的预测，相关训练数据往往难以获取或收集。例如，LOTSA 阅读全文

posted @ 2024-11-12 10:00 deephub 阅读(522) 评论(0) 推荐(0)

overfit深度学习

公告