机器学习算法核心教程与Python实践

算法选择快速参考 在深入了解每个算法的细节之前,您可以根据您的任务类型和应用场景,使用下表进行快速参考: 任务类型 算法 典型应用场景 分类 (Classification) 逻辑回归 (Logistic Regression) 二分类问题、广告点击率预测、信用评分 K-近邻 (KNN) 图像识别、推荐系统(基于用户的相似性) 支持向量机 (SVM) 高维数据分类、文本分类、人脸识别 决策树 (Decision Tree) 规则清晰的分类问题、客户流失预测 随机森林 (Random Forest) 高精度分类、特征重要性评估、疾病预测 梯度提升系列 ...

2012 – 2024年各国轨道发射数据图

马斯克转发的 轨道发射数据图!统计了2012 - 2024年各国轨道发射数据,直观展现航天实力变迁👇 美国(含SpaceX)发射量一路飙升,总次数628次,送58名宇航员;中国紧追不舍,468次发射+32名航天员,展现强劲航天力🚀 美国(不含SpaceX)201次发射,仅送2名宇航员,对比超明显~ 换言之,要是没有马斯克和他的spaceX,中国航天实际上早就碾压美国了。 数据能看出,SpaceX带动美国发射频次爆发,中国航天也稳步崛起,在探索太空路上疯狂“上分”!每次发射都是人类向宇宙迈的步,这些数字背后,是无数航天人的心血~

【美团】可信实验白皮书系列03:随机对照实验

可信实验白皮书系列03:随机对照实验 2025年06月05日 作者: 履约数据&外卖数据 文章链接 18881字 38分钟阅读 本文系《可信实验白皮书》系列的第三篇文章,第一篇文章我们介绍了为什么要写AB实验白皮书,第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识,以及提高实验功效的一些常见方法。 备注 :本篇排版为图文混合排版,如果想获得更好的阅读体验,建议访问「美团技术团队」知乎官方账号《可信实验白皮书系列03:随机对照实验》。 在美团到家业务场景中,经常会碰到随机分流的实验场景,比如全城AOI(Area of Inte...

【美团】可信实验白皮书系列02:AB实验基础

可信实验白皮书系列02:AB实验基础 2025年05月23日 作者: 履约数据&外卖数据 文章链接 2807字 6分钟阅读 2.1 实验基础原理概述 AB实验原理源于统计学中经典的Rubin潜在结果模型(也称反事实因果推断框架)。考虑最简单的情况,当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示,最理想的方案是面向同一拨用户或者全部用户,假设存在两个完全相同的平行时空,平行时空一中所有用户体验实验策略B,类似的平行时空二中所有用户体验对照策略A,那么直接对比2个平行空间用户行为指标表现,则可决定哪个策略胜出以及观测真实的平均实验效应。 然而,现实世界中不存在两个平行时...

两种学科的故事:对统计学与大数据相互作用的详尽分析

引言 21世纪的黎明以数据的洪流为标志,将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式,常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。 本报告旨在论证,这种观点是一种简单化的误读。统计学与大数据并非竞争对手,而是两个截然不同但又紧密相连的智力与技术潮流。统计学为推断和方法论的严谨性提供了理论基石,而大数据则以前所未有的规模提供了原始材料和计算能力。它们之间复杂的相互作用——一种分歧、张力与最终融合的动态过程——共同铸就了现代的、跨学科的数据科学领域。 本报告将首先追溯这两个学科各自独立的历史谱系,然后剖析它们在核心哲学和方法论上的差异,从数...

数据库设计范式实例讲解

数据库设计范式实例讲解 原始数据表(违反1NF) 表名:StudentCourses 学生ID 学生姓名 选课信息(课程ID+课程) 成绩 学院 教师 S001 张三 C101-数据库, C102-算法 85 人工智能学院 曾老师 S001 张三 C101-数据库, C102-算法 90 人工智能学院 曾老师 S002 李四 C101-数据库 78 人工智能学院 曾老师 问题: 选课信息 字段包含多个课程ID和课程名称的组合值(非原子性),违反 1NF。 同一学生的多门课程重复存储冗余信息(如学生姓名、学院、教师)。 第一范式(1NF):拆分非原子字段为多行 ...

何同学的“流量密码”:从219个封面测试看视频点击率的优化之道

何同学的“流量密码”:从219个封面测试看视频点击率的优化之道 在短视频与自媒体高度竞争的时代,如何让作品在海量内容中脱颖而出?知名数码博主何同学通过一项针对219个视频封面的系统性测试,揭示了封面设计对点击率的深层影响,并结合自身创作经验总结出一套“流量密码”。本文将从测试方法、核心结论、数据分析原理、封面与内容的辩证关系以及创作者启示五大维度展开分析,为内容创作提供科学参考。 8.79 复制打开抖音,看看【老师好我叫何同学的作品】何同学工作室的绝密数据 我们测试了219个封面的点... https://v.douyin.com/iPXHj9Eq/ U@l.pD 05/05 dAg:/ ...

50个最佳机器学习公共数据集

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知: 一、寻找数据集的意义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。 数据集不应包含太多行或列,否则会难以使用。 数据越干净越好,清理大型数据集可能非常耗时。 应该预设一个有趣的问题,而这个问题又可以用数据来回答。 二、去哪里找数据集 Kaggle:爱竞...

数据探索工具Dataprep.eda

数据探索工具Dataprep.eda 来源: https://www.biaodianfu.com Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的分析框架与当前EDA的最佳实践背道而驰。 Dataprep.eda(2020)是一个 Python 库,它支持迭代和以任务为中心的分析,就像 EDA 注定要做的那样。dat...

Pandas基础教程之替换SQL

Pandas基础教程之替换SQL 来源: https://www.biaodianfu.com 对于很多数据分析的同学来说,最熟悉的莫过于SQL,针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据,今天就一起来学习Pandas。 使用Pandas代替SQL 选择列 ## select COL1, COL2 from TABLE; # df.loc[:, ["COL1", "COL2"]] pandas中loc与iloc区别 在Pandas中,iloc和loc是两种...

统计学基础之摘要统计

统计学基础之摘要统计 来源: https://www.biaodianfu.com 什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类指标:集中趋势的度量和离散程度的度量。 集中趋势的度量: 平均值(Mean):数据集合中所有数值的总和除以数值的数量。 中位数(Median):将数据集合按数值大小排列后处于中间位置的数值。 众数(Mode):在数据集合中出现次数最多的数值。 离散程度的度量: 极差(Range):数据集中最大值与最小值的...

探索性数据分析详解

探索性数据分析详解 来源: https://www.biaodianfu.com 什么是探索性数据分析? 探索性数据分析(Exploratory Data Analysis,简称EDA) 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别: 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人...

实证分析: T检验、方差分析(ANOVA)和卡方检验的对比分析

以下是T检验、方差分析(ANOVA)和卡方检验的对比分析,以及它们在不同应用领域的详细描述。 统计方法 T检验 方差分析(ANOVA) 卡方检验 目的 比较两个组的均值差异 比较多个组的均值差异 比较分类变量的频数分布 数据类型 连续变量(通常是正态分布) 连续变量(通常是正态分布) 分类变量 适用条件 样本数量较小,正态分布,方差齐性 样本数量较大,正态分布,方差齐性 样本独立,预期频数不宜过低(通常每个单元格≥5) 类型 独立样本T检验、配对样本T检验 单因素ANOVA、双因素ANOVA、重复测量ANOVA 独立性检验、配对卡方检验、拟合优度检验 统计量计算 ...

关联分析算法之FP-Growth

关联分析算法之FP-Growth 来源: https://www.biaodianfu.com 在Apriori算法的学习中,我们了解到Apriori算法需要不断生成候选项目队列和不断得扫描整个数据库进行比对,I/O是很大的瓶颈。为了解决这个问题,FP-Growth利用了巧妙的数据结构,无论多少数据,只需要扫描两次数据集,大大降低了Aproir挖掘算法的代价。FP-Growth算法主要包含有两个步骤: 建立一个精简的数据结构:FP-tree(frequent-pattern tree, 频繁模式树) 从FP-tree中提取频繁项集 FP-Growth算法原理 为了减少I/O次数,FP...

机器学习算法之线性回归

机器学习算法之线性回归 来源: https://www.biaodianfu.com 线性回归是统计学总最常用的算法之一。从根本上来说,当你想表示两个变量间数学关系时,就可以使用线性回归。当你使用它时,你首先假设输出变量(有时称为响应变量、因变量或标签)和预测变量(有时称为自变量、解释变量或特征)之间存在线性关系。当然这种线性关系也可能存在于一个输出变量和数个预测变量之间。输出变量于预测变量之间存在线性关系是一个大胆的假设,同时也是一个最简单的假设。从数学表示形式来看,线性函数比非线性函数更加简单。线性模型作为最简单的参数化方法,始终值得关注。这是因为很多问题,甚至本质是非线性的问题,也...