机器学习算法核心教程与Python实践

算法选择快速参考 在深入了解每个算法的细节之前,您可以根据您的任务类型和应用场景,使用下表进行快速参考: 任务类型 算法 典型应用场景 分类 (Classification) 逻辑回归 (Logistic Regression) 二分类问题、广告点击率预测、信用评分 K-近邻 (KNN) 图像识别、推荐系统(基于用户的相似性) 支持向量机 (SVM) 高维数据分类、文本分类、人脸识别 决策树 (Decision Tree) 规则清晰的分类问题、客户流失预测 随机森林 (Random Forest) 高精度分类、特征重要性评估、疾病预测 梯度提升系列 ...

2012 – 2024年各国轨道发射数据图

马斯克转发的 轨道发射数据图!统计了2012 - 2024年各国轨道发射数据,直观展现航天实力变迁👇 美国(含SpaceX)发射量一路飙升,总次数628次,送58名宇航员;中国紧追不舍,468次发射+32名航天员,展现强劲航天力🚀 美国(不含SpaceX)201次发射,仅送2名宇航员,对比超明显~ 换言之,要是没有马斯克和他的spaceX,中国航天实际上早就碾压美国了。 数据能看出,SpaceX带动美国发射频次爆发,中国航天也稳步崛起,在探索太空路上疯狂“上分”!每次发射都是人类向宇宙迈的步,这些数字背后,是无数航天人的心血~

【美团】可信实验白皮书系列03:随机对照实验

可信实验白皮书系列03:随机对照实验 2025年06月05日 作者: 履约数据&外卖数据 文章链接 18881字 38分钟阅读 本文系《可信实验白皮书》系列的第三篇文章,第一篇文章我们介绍了为什么要写AB实验白皮书,第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识,以及提高实验功效的一些常见方法。 备注 :本篇排版为图文混合排版,如果想获得更好的阅读体验,建议访问「美团技术团队」知乎官方账号《可信实验白皮书系列03:随机对照实验》。 在美团到家业务场景中,经常会碰到随机分流的实验场景,比如全城AOI(Area of Inte...

数据库设计范式实例讲解

数据库设计范式实例讲解 原始数据表(违反1NF) 表名:StudentCourses 学生ID 学生姓名 选课信息(课程ID+课程) 成绩 学院 教师 S001 张三 C101-数据库, C102-算法 85 人工智能学院 曾老师 S001 张三 C101-数据库, C102-算法 90 人工智能学院 曾老师 S002 李四 C101-数据库 78 人工智能学院 曾老师 问题: 选课信息 字段包含多个课程ID和课程名称的组合值(非原子性),违反 1NF。 同一学生的多门课程重复存储冗余信息(如学生姓名、学院、教师)。 第一范式(1NF):拆分非原子字段为多行 ...

何同学的“流量密码”:从219个封面测试看视频点击率的优化之道

何同学的“流量密码”:从219个封面测试看视频点击率的优化之道 在短视频与自媒体高度竞争的时代,如何让作品在海量内容中脱颖而出?知名数码博主何同学通过一项针对219个视频封面的系统性测试,揭示了封面设计对点击率的深层影响,并结合自身创作经验总结出一套“流量密码”。本文将从测试方法、核心结论、数据分析原理、封面与内容的辩证关系以及创作者启示五大维度展开分析,为内容创作提供科学参考。 8.79 复制打开抖音,看看【老师好我叫何同学的作品】何同学工作室的绝密数据 我们测试了219个封面的点... https://v.douyin.com/iPXHj9Eq/ U@l.pD 05/05 dAg:/ ...

2023年5个自动化EDA库推荐

2023年5个自动化EDA库推荐 来源:deephub EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库,但是现在已经过了1年的时间了,我们看看现在有什么新的变化。 为了测试这些库的功能,本文使用了两个不同的数据集,只是为了更好地理解这些库如何处理不同类型的数据。 YData-Profiling 以前被称为Pandas Profiling,在今年改了名字。如果...

数据探索工具Dataprep.eda

数据探索工具Dataprep.eda 来源: https://www.biaodianfu.com Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的分析框架与当前EDA的最佳实践背道而驰。 Dataprep.eda(2020)是一个 Python 库,它支持迭代和以任务为中心的分析,就像 EDA 注定要做的那样。dat...

Pandas数据处理简明教程

来源: https://www.biaodianfu.com 在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas...

数据科学中10个应用广泛的统计方法

以下是数据科学中广泛应用的十个统计方法的详细描述: 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述: 中心极限定理告诉我们,无论原始数据的分布是什么样的,只要我们取足够多的样本(通常认为样本量大于30就够了),这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一,因为它让我们能够在许多情况下使用正态分布来进行推断。 举例: 假设我们在调查一个城市中每天咖啡店的销售量。即使每天的销售量分布不均匀(有些天销售量很高,有些天则很低),但如果我们每天抽取一个样本,并记录这些样本的均值,随着样本数量的增加,这些均值会形成一个正...

Python数据分析7步(IMDb Summer Movies Data)

数据:summer_movies | summer_movie_genres 流程 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 数据集说明 以下是两个数据文件的详细说明: 文件1:summer_movies.csv 数据预览: tconst title_type primary_title original_title ye...

Python数据分析7步(Iris数据集)

数据:iris.csv Python数据分析7步 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 1 导入库 import pandas as pd # 数据处理和分析库 import numpy # 科学计算库 import matplotlib.pyplot as plt # 绘图库 import seabor...

健身房的正态分布例子

以下是chatgpt 4o的描述 重量堆栈正态分布 这张图片显示了一个重量堆栈(可能是一个健身器材)的图示,其中每个重量位置上都有明显的磨损痕迹。这些磨损痕迹在图中形成了一个钟形曲线,类似于正态分布(即常态分布)。 具体来说,这种磨损痕迹集中在中间的重量区间(大约在40到60之间),而两端的重量位置(10-20和90-115之间)的磨损痕迹较少。这反映了大多数人使用中等重量的频率最高,而使用极轻或极重的重量的人相对较少。 从统计学角度来看,这表明使用这个器材的人在选择重量时,符合正态分布规律:大多数人的选择集中在一个中间值附近,极端值(非常轻或非常重的重量)选择的频率较低。 凑整的极端值 在...

数据分析工具介绍

数据分析工具介绍 数据分析工具在现代商业和科学研究中扮演着重要角色。不同的工具适用于不同的数据规模和分析需求。本文将介绍几种常见的数据分析工具,并讨论它们的替代品和适用场景。 小规模数据分析工具 1. Excel 特点:适用于处理几千到几万行数据,提供基础的数据整理、分析和可视化功能。 用户:个人用户、小型企业和业务分析师。 替代品: Google Sheets:基于云端,方便团队协作。 Zoho Sheet:提供在线数据处理和协作功能。 LibreOffice Calc:开源的电子表格软件。 中等规模数据分析和商业智能工具 2. Power BI 特点:适用于处理数百万行数据,提供...

Tableau免费了

⏩支持离线使用自动保存、支持将工作簿保存在本地而不是在线发布; ⏩企业数据可以安心在本地操作而不必泄漏; ⏩可直接选择发布到Public社区,而不必经过繁杂的数据提取再发布环节; 🆓最重要的是:免费!免费!免费!与付费专业版Tableau Desktop Professional Edition相比基本没什么差别,如果说有差别,主要在于:数据导入时专业版支持的多种数据库和云空间不再提供,数据筛选环节不支持实时连接和刷新。差别也就如此,其他专业版有的功能Tableau Public Desktop Edition全部都有! https:/...