数据探索工具Dataprep.eda

数据探索工具Dataprep.eda 来源: https://www.biaodianfu.com Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的分析框架与当前EDA的最佳实践背道而驰。 Dataprep.eda(2020)是一个 Python 库,它支持迭代和以任务为中心的分析,就像 EDA 注定要做的那样。dat...

Pandas基础教程之替换SQL

Pandas基础教程之替换SQL 来源: https://www.biaodianfu.com 对于很多数据分析的同学来说,最熟悉的莫过于SQL,针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据,今天就一起来学习Pandas。 使用Pandas代替SQL 选择列 ## select COL1, COL2 from TABLE; # df.loc[:, ["COL1", "COL2"]] pandas中loc与iloc区别 在Pandas中,iloc和loc是两种...

统计学基础之摘要统计

统计学基础之摘要统计 来源: https://www.biaodianfu.com 什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类指标:集中趋势的度量和离散程度的度量。 集中趋势的度量: 平均值(Mean):数据集合中所有数值的总和除以数值的数量。 中位数(Median):将数据集合按数值大小排列后处于中间位置的数值。 众数(Mode):在数据集合中出现次数最多的数值。 离散程度的度量: 极差(Range):数据集中最大值与最小值的...

探索性数据分析详解

探索性数据分析详解 来源: https://www.biaodianfu.com 什么是探索性数据分析? 探索性数据分析(Exploratory Data Analysis,简称EDA) 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别: 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人...

机器学习/数据分析之缺失值处理

机器学习/数据分析之缺失值处理 来源: https://www.biaodianfu.com 在机器学习数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享。 数据缺失类型 完全随机丢失(MCAR,Missing Completely at Random) :某个变量是否缺失与它自身的值无关,也与其他任何变量的值无关。例如,由于测量设备出故障导致某些值缺失。 随机丢失(MAR,Missing at Random) : 在控制了其他变量已观测到的值后,某个变量是否缺失与它自身的值无关。例如,人们是否透露收入可能与性别、教育程度、职业等因素...

机器学习算法之XGBoost

机器学习算法之XGBoost 来源: https://www.biaodianfu.com 什么是XGBoost? 全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿大学博士) 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支持自定义损失函数等等。 缺点:算法参数过多,调参负责,对原理不清楚的很难使用好XGBoost。不适合处理超高维特征数据。 项目地址:https://github.com/dmlc/xgboost XGBoost的原理 XGBoost 所应用的算法就...

实证分析: T检验、方差分析(ANOVA)和卡方检验的对比分析

以下是T检验、方差分析(ANOVA)和卡方检验的对比分析,以及它们在不同应用领域的详细描述。 统计方法 T检验 方差分析(ANOVA) 卡方检验 目的 比较两个组的均值差异 比较多个组的均值差异 比较分类变量的频数分布 数据类型 连续变量(通常是正态分布) 连续变量(通常是正态分布) 分类变量 适用条件 样本数量较小,正态分布,方差齐性 样本数量较大,正态分布,方差齐性 样本独立,预期频数不宜过低(通常每个单元格≥5) 类型 独立样本T检验、配对样本T检验 单因素ANOVA、双因素ANOVA、重复测量ANOVA 独立性检验、配对卡方检验、拟合优度检验 统计量计算 ...

机器学习算法之K-近邻(KNN)

机器学习算法之K-近邻(KNN) 来源: https://www.biaodianfu.com 什么是K-近邻算法? K近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新的数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出...

关联分析算法之FP-Growth

关联分析算法之FP-Growth 来源: https://www.biaodianfu.com 在Apriori算法的学习中,我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对,I/O是很大的瓶颈。为了解决这个问题,FP-Growth利用了巧妙的数据结构,无论多少数据,只需要扫描两次数据集,大大降低了Aproir挖掘算法的代价。FP-Growth算法主要包含有两个步骤: 建立一个精简的数据结构:FP-tree(frequent-pattern tree, 频繁模式树) 从FP-tree中提取频繁项集 FP-Growth算法原理 为了减少I/O次数,FP...

相关性分析:Pearson、Kendall、Spearman

相关性分析:Pearson、Kendall、Spearman 来源: https://www.biaodianfu.com 在分析特征间相关性时,常使用的方法是pandas.DataFrame.corr: DataFrame.corr(self, method=’pearson’, min_periods=1) 其中包含的方法主要为: pearson:Pearson相关系数 kendall:Kendall秩相关系数 Spearman:Spearman等级相关系数 Pearson相关系数 在统计学中,皮尔逊相关系数相关系数(英语:Pearson product-moment corre...

机器学习算法之线性回归

机器学习算法之线性回归 来源: https://www.biaodianfu.com 线性回归是统计学总最常用的算法之一。从根本上来说,当你想表示两个变量间数学关系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、因变量或标签)和预测变量(有时称为自变量、解释变量或特征)之间存在线性关系。当然这种线性关系也可能存在于一个输出变量和数个预测变量之间。输出变量于预测变量之间存在线性关系是一个大胆的假设,同时也是一个最简单的假设。从数学表示形式来看,线性函数比非线性函数更加简单。线性模型作为最简单的参数化方法,始终值得关注。这是因为很多问题,甚至本质是非线性的问题,也...

机器学习算法之逻辑回归

机器学习算法之逻辑回归 来源: https://www.biaodianfu.com 逻辑回归算法的名字里虽然带有“回归”二字,但实际上逻辑回归算法是用来解决分类问题的。简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用(逻辑回归是基于分布假设建立的,假设在现实案例中并不是那么容易满...

机器学习算法之朴素贝叶斯

机器学习算法之朴素贝叶斯 来源: https://www.biaodianfu.com 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。 贝叶斯定理 贝叶斯定理实际上就是计算“条件概率” 的公式。条件概率(Conditional Probability)是指在事件 B 发生的情况下,事件 A 发生的概率,用 P (A|B) 表示,读作在 B 条件下的 A 的概率。 根据上图,可以很清楚地看到在事件 B 发生的情况下,事件 A 发生的概率就是 $P(A cap B)$除以 $P (B)$。 $...

机器学习算法之支持向量机SVM

机器学习算法之支持向量机SVM 来源: https://www.biaodianfu.com 什么是支持向量机(SVM)? 支持向量机(support vector machines, SVM)是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。 支持向量机学习方...

机器学习算法之主成分分析PCA

机器学习算法之主成分分析PCA 来源: https://www.biaodianfu.com 主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 首先考虑一个问题:对于正交属性空间中的样本点,如何用一个超平面(直线的高维推广)对所有样本进行恰当的表达? 可以想到,若存在这样的超平面,那么它大概具有这样的性质: 最近重构性 :样本点到这个超平面的距离都足够近,即下图中所有红线(即投影造成的损失)加...