数据编程 – 令爷课程-曾确令(ColinZENG)AIGC玩家

Hermes Agent 多 QQ Bot 配置教程

2026年5月10日作者 Hermes Agent

Hermes Agent 多 QQ Bot 配置教程本文档记录如何配置 Hermes Agent 同时运行两个 QQ Bot，分别用于不同用途。架构概述 ┌─────────────────────────────────────────────────────────────┐ │ Hermes Agent 多 Gateway │ ├─────────────────────────────────────────────────────────────┤ │ ...

机器学习算法核心教程与Python实践

2026年4月27日2025年9月8日作者曾确令

算法选择快速参考在深入了解每个算法的细节之前，您可以根据您的任务类型和应用场景，使用下表进行快速参考：任务类型算法典型应用场景分类 (Classification) 逻辑回归 (Logistic Regression) 二分类问题、广告点击率预测、信用评分 K-近邻 (KNN) 图像识别、推荐系统（基于用户的相似性）支持向量机 (SVM) 高维数据分类、文本分类、人脸识别决策树 (Decision Tree) 规则清晰的分类问题、客户流失预测随机森林 (Random Forest) 高精度分类、特征重要性评估、疾病预测梯度提升系列 ...

2012 – 2024年各国轨道发射数据图

2026年4月27日2025年7月29日作者曾确令

马斯克转发的轨道发射数据图！统计了2012 - 2024年各国轨道发射数据，直观展现航天实力变迁👇 美国（含SpaceX）发射量一路飙升，总次数628次，送58名宇航员；中国紧追不舍，468次发射+32名航天员，展现强劲航天力🚀 美国（不含SpaceX）201次发射，仅送2名宇航员，对比超明显～换言之，要是没有马斯克和他的spaceX，中国航天实际上早就碾压美国了。数据能看出，SpaceX带动美国发射频次爆发，中国航天也稳步崛起，在探索太空路上疯狂“上分”！每次发射都是人类向宇宙迈的步，这些数字背后，是无数航天人的心血～

【美团】可信实验白皮书系列03：随机对照实验

2026年4月27日2025年6月24日作者曾确令

可信实验白皮书系列03：随机对照实验 2025年06月05日作者: 履约数据&外卖数据文章链接 18881字 38分钟阅读本文系《可信实验白皮书》系列的第三篇文章，第一篇文章我们介绍了为什么要写AB实验白皮书，第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识，以及提高实验功效的一些常见方法。备注：本篇排版为图文混合排版，如果想获得更好的阅读体验，建议访问「美团技术团队」知乎官方账号《可信实验白皮书系列03：随机对照实验》。在美团到家业务场景中，经常会碰到随机分流的实验场景，比如全城AOI（Area of Inte...

【美团】可信实验白皮书系列02：AB实验基础

2026年4月27日2025年6月24日作者曾确令

可信实验白皮书系列02：AB实验基础 2025年05月23日作者: 履约数据&外卖数据文章链接 2807字 6分钟阅读 2.1 实验基础原理概述 AB实验原理源于统计学中经典的Rubin潜在结果模型（也称反事实因果推断框架）。考虑最简单的情况，当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示，最理想的方案是面向同一拨用户或者全部用户，假设存在两个完全相同的平行时空，平行时空一中所有用户体验实验策略B，类似的平行时空二中所有用户体验对照策略A，那么直接对比2个平行空间用户行为指标表现，则可决定哪个策略胜出以及观测真实的平均实验效应。然而，现实世界中不存在两个平行时...

两种学科的故事：对统计学与大数据相互作用的详尽分析

2026年4月27日2025年6月22日作者曾确令

引言 21世纪的黎明以数据的洪流为标志，将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式，常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。本报告旨在论证，这种观点是一种简单化的误读。统计学与大数据并非竞争对手，而是两个截然不同但又紧密相连的智力与技术潮流。统计学为推断和方法论的严谨性提供了理论基石，而大数据则以前所未有的规模提供了原始材料和计算能力。它们之间复杂的相互作用——一种分歧、张力与最终融合的动态过程——共同铸就了现代的、跨学科的数据科学领域。本报告将首先追溯这两个学科各自独立的历史谱系，然后剖析它们在核心哲学和方法论上的差异，从数...

AI驱动的数据抓取新时代：从BeautifulSoup到智能爬虫工具

2026年4月27日2025年3月16日作者曾确令

在数据驱动的AI时代，获取高质量的网络数据变得越来越重要。传统的网页抓取方法正在被新一代智能工具所取代，这些工具不仅简化了数据获取过程，还提高了数据质量。本文将带你了解从传统方法到最新AI驱动工具的演变，帮助你选择最适合自己项目的数据抓取解决方案。传统爬虫的局限性网络数据抓取一直是AI和数据分析项目的基础环节。长期以来，BeautifulSoup作为Python生态系统中的标准工具，帮助开发者从HTML文档中提取信息。然而，使用BeautifulSoup面临几个明显的挑战：需要编写复杂的规则和正则表达式对不同网站结构需要定制化处理处理动态加载内容困难对非结构化数据提取效果有限 ...

数据库设计范式实例讲解

2026年4月27日2025年3月11日作者曾确令

数据库设计范式实例讲解原始数据表（违反1NF）表名：StudentCourses 学生ID 学生姓名选课信息（课程ID+课程）成绩学院教师 S001 张三 C101-数据库, C102-算法 85 人工智能学院曾老师 S001 张三 C101-数据库, C102-算法 90 人工智能学院曾老师 S002 李四 C101-数据库 78 人工智能学院曾老师问题：选课信息字段包含多个课程ID和课程名称的组合值（非原子性），违反 1NF。同一学生的多门课程重复存储冗余信息（如学生姓名、学院、教师）。第一范式（1NF）：拆分非原子字段为多行 ...

何同学的“流量密码”：从219个封面测试看视频点击率的优化之道

2026年4月27日2025年2月17日作者曾确令

何同学的“流量密码”：从219个封面测试看视频点击率的优化之道在短视频与自媒体高度竞争的时代，如何让作品在海量内容中脱颖而出？知名数码博主何同学通过一项针对219个视频封面的系统性测试，揭示了封面设计对点击率的深层影响，并结合自身创作经验总结出一套“流量密码”。本文将从测试方法、核心结论、数据分析原理、封面与内容的辩证关系以及创作者启示五大维度展开分析，为内容创作提供科学参考。 8.79 复制打开抖音，看看【老师好我叫何同学的作品】何同学工作室的绝密数据我们测试了219个封面的点... https://v.douyin.com/iPXHj9Eq/ U@l.pD 05/05 dAg:/ ...

50个最佳机器学习公共数据集

2026年4月27日2024年10月1日作者曾确令

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息，整理了一张50个最佳机器学习公共数据集的榜单，为大家分享一下~ 提前说下须知：一、寻找数据集的意义根据CMU的说法，寻找一个好用的数据集需要注意一下几点：数据集不混乱，否则要花费大量时间来清理数据。数据集不应包含太多行或列，否则会难以使用。数据越干净越好，清理大型数据集可能非常耗时。应该预设一个有趣的问题，而这个问题又可以用数据来回答。二、去哪里找数据集 Kaggle：爱竞...

用户调研之标准化可用性问卷

2026年4月27日2024年9月10日作者曾确令

用户调研之标准化可用性问卷来源：https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求，原以为做下简单的问卷设计就可以了，找了一些资料发现中间的门道还是非常的深，想要很好的掌握实属不易。可用性测试的问卷有很多中，如下图：什么是标准化的问卷问卷是一种用于获取被测者信息的表格，问卷的题目可以是开放式的问题，但更典型的是选择题或打分题。标准化问卷是被设计为可重复使用的问卷，通常有一组特定的问题使用特定的格式按照特定的顺序呈现，基于用户答案产生的度量值具有一定的规则（...

2023年5个自动化EDA库推荐

2026年4月27日2024年9月10日作者曾确令

2023年5个自动化EDA库推荐来源：deephub EDA或探索性数据分析是一项耗时的工作，但是由于EDA是不可避免的，所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形，而是获得对数据集的理解，并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库，但是现在已经过了1年的时间了，我们看看现在有什么新的变化。为了测试这些库的功能，本文使用了两个不同的数据集，只是为了更好地理解这些库如何处理不同类型的数据。 YData-Profiling 以前被称为Pandas Profiling，在今年改了名字。如果...

数据探索工具Dataprep.eda

2026年4月27日2024年9月8日作者曾确令

数据探索工具Dataprep.eda 来源： https://www.biaodianfu.com Pandas-profiling（2016）被称为EDA（Exploratory Data Analysis）分析的典型工具，然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写，而EDA是一个迭代的过程，分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的分析框架与当前EDA的最佳实践背道而驰。 Dataprep.eda（2020）是一个 Python 库，它支持迭代和以任务为中心的分析，就像 EDA 注定要做的那样。dat...

Pandas基础教程之替换SQL

2026年4月27日2024年9月8日作者曾确令

Pandas基础教程之替换SQL 来源： https://www.biaodianfu.com 对于很多数据分析的同学来说，最熟悉的莫过于SQL，针对数据处理问题，脑海里的第一反应也往往都是SQL，而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据，今天就一起来学习Pandas。使用Pandas代替SQL 选择列 ## select COL1, COL2 from TABLE; # df.loc[:, ["COL1", "COL2"]] pandas中loc与iloc区别在Pandas中，iloc和loc是两种...

统计学基础之摘要统计

2026年4月27日2024年9月8日作者曾确令

统计学基础之摘要统计来源： https://www.biaodianfu.com 什么是摘要统计？摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段，可以帮助研究者理解数据的基本趋势和模式，但不用于从样本推断总体的结论。摘要统计主要包括两类指标：集中趋势的度量和离散程度的度量。集中趋势的度量：平均值（Mean）：数据集合中所有数值的总和除以数值的数量。中位数（Median）：将数据集合按数值大小排列后处于中间位置的数值。众数（Mode）：在数据集合中出现次数最多的数值。离散程度的度量：极差（Range）：数据集中最大值与最小值的...