deephub

2022年7月3日

ArgMiner：一个用于对论点挖掘数据集进行处理、增强、训练和推理的 PyTorch 的包

摘要：论点挖掘(Argument Mining）是一项从文本中提取论点成分的任务，通常作为自动写作评估系统的一部分。这是自然语言处理中一个非常热门的领域。一个好的 AM 模型可以将一段原始将一段原始文本的序列标记为它们所属的论点内容。虽然历史上这一问题被视为一个语义分割问题，最先进的(SOTA) AM技术阅读全文

posted @ 2022-07-03 11:51 deephub 阅读(101) 评论(0) 推荐(0)

2022年7月2日

Github Copilot 值得购买吗？使用GitHub Copilot进行快速EDA的示例

摘要：经过几个月的测试GitHub Copilot终于开始收费了，每月10美元到底值不值呢，我想通过本篇文章作为例子来演示如何将Copilot用于探索性分析。希望这篇文章能成为一些新初学者的指南，因为在我看来 Copilot的确让编程体验更好!最后我也会写一些我的看法，至于买还是不买还是要看你的选择本文阅读全文

posted @ 2022-07-02 09:40 deephub 阅读(534) 评论(0) 推荐(0)

2022年7月1日

基于图的 Affinity Propagation 聚类计算公式详解和代码示例

摘要：谱聚类和AP聚类是基于图的两种聚类，在这里我介绍AP聚类。 Affinity Propagation Clustering（简称AP算法）是2007提出的，当时发表在Science上《single-exemplar-based》。特别适合高维、多类数据快速聚类，相比传统的聚类算法，该算法算是比较新的阅读全文

posted @ 2022-07-01 11:01 deephub 阅读(232) 评论(0) 推荐(0)

2022年6月30日

零样本和少样本学习

摘要：在本篇文章中，我们将讨论机器学习和深度学习的不同领域中的一个热门话题:零样本和少样本学习(Zero and Few Shot learning)，它们在自然语言处理到计算机视觉中都有不同的应用场景。少样本学习在监督分类器中，所有的模型试图学习的是区分不同的对象的的特征，无论数据是什么形式存在的，阅读全文

posted @ 2022-06-30 11:40 deephub 阅读(494) 评论(0) 推荐(0)

2022年6月29日

一个简单但是能上分的特征标准化方法

摘要：一般情况下我们在做数据预处理时都是使用StandardScaler来特征的标准化，如果你的数据中包含异常值，那么效果可能不好。这里介绍的方法叫Robust Scaling，正如它的名字一样能够获得更健壮的特征缩放结果。与StandardScaler缩放不同，异常值根本不包括在Robust Scal 阅读全文

posted @ 2022-06-29 09:46 deephub 阅读(77) 评论(0) 推荐(0)

2022年6月28日

基于趋势和季节性的时间序列预测

摘要：时间序列预测是基于时间数据进行预测的任务。它包括建立模型来进行观测，并在诸如天气、工程、经济、金融或商业预测等应用中推动未来的决策。本文主要介绍时间序列预测并描述任何时间序列的两种主要模式(趋势和季节性)。并基于这些模式对时间序列进行分解。最后使用一个被称为Holt-Winters季节方法的预测模阅读全文

posted @ 2022-06-28 11:15 deephub 阅读(283) 评论(0) 推荐(0)

2022年6月27日

100+数据科学面试问题和答案总结 - 机器学习和深度学习

摘要：来自Amazon，谷歌，Meta, Microsoft等的面试问题，本文接着昨天的文章整理了机器学习和深度学习的问题机器学习 54、什么是机器学习? 机器学习是一门多学科交叉专业，涵盖概率论知识，统计学知识，近似理论知识和复杂算法知识，使用计算机作为工具并致力于真实实时的模拟人类学习方式，并将现有阅读全文

posted @ 2022-06-27 10:55 deephub 阅读(235) 评论(0) 推荐(0)

2022年6月26日

100+数据科学面试问题和答案总结 - 基础知识和数据分析

摘要：来自Amazon，google，Meta, Microsoft等的面试问题，问题很多所以对问题进行了分类整理，本文包含基础知识和数据分析相关问题基础知识 1、什么是数据科学?列出监督学习和非监督学习的区别。数据科学是各种工具、算法和机器学习方法的混合，其目标是从原始数据中发现隐藏的模式。这与统计阅读全文

posted @ 2022-06-26 13:08 deephub 阅读(260) 评论(0) 推荐(0)

2022年6月25日

使用“BERT”作为编码器和解码器(BERT2BERT)来改进Seq2Seq文本摘要模型

摘要： BERT是一个著名的、强大的预先训练的“编码器”模型。让我们看看如何使用它作为“解码器”来形成编码器-解码器架构。 Transformer 架构由两个主要构建块组成——编码器和解码器——我们将它们堆叠在一起形成一个 seq2seq 模型。从头开始训练基于Transformer 的模型通常很困难，因为阅读全文

posted @ 2022-06-25 10:38 deephub 阅读(461) 评论(0) 推荐(0)

2022年6月24日

如何比较两个或多个分布：从可视化到统计检验的方法总结

摘要：比较一个变量在不同组中的分布是数据科学中的一个常见问题。当我们想要评估一项策略(用户体验功能、广告活动、药物等)的因果效应时，因果推断的黄金标准便是随机对照试验，也就是所谓的A /B测试。在实践中，我们为研究选择一个样本，并将其随机分为对照组（control group）和实验组（treatment 阅读全文

posted @ 2022-06-24 12:05 deephub 阅读(418) 评论(0) 推荐(0)

overfit深度学习

公告