数据科学

  • 【美团】可信实验白皮书系列03:随机对照实验

    可信实验白皮书系列03:随机对照实验 2025年06月05日 作者: 履约数据&外卖数据 文章链接 18881字 38分钟阅读 本文系《可信实验白皮书》系列的第三篇文章,第一篇文章我们介绍了为什么要写AB实验白皮书,第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识,…

    2025年6月24日 7
  • 【美团】可信实验白皮书系列02:AB实验基础

    可信实验白皮书系列02:AB实验基础 2025年05月23日 作者: 履约数据&外卖数据 文章链接 2807字 6分钟阅读 2.1 实验基础原理概述 AB实验原理源于统计学中经典的Rubin潜在结果模型(也称反事实因果推断框架)。考虑最简单的情况,当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示,最理想的方案是面向同一拨…

    2025年6月24日 6
  • 两种学科的故事:对统计学与大数据相互作用的详尽分析

    引言 21世纪的黎明以数据的洪流为标志,将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式,常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。 本报告旨在论证,这种观点是一种简单化的误读。统计学与大数据并非竞争对手,而是两个截然不同但又紧密相连的智力与技术…

    2025年6月22日 9
  • AI爬虫正在摧毁中小网站?开发者被迫封禁整个国家IP自救实录

    「我的网站每分钟被AI爬虫请求上千次,服务器已经快烧起来了!」——这已成为全球独立开发者最真实的噩梦。当科技巨头们疯狂抓取数据训练AI时,无数中小网站正默默承受着这场数据掠夺战的代价。 一、AI爬虫攻击现场直击 1.1 个人开发者的崩溃日记 案例1:技术教育家Xe Iaso的Git服务器遭遇亚马逊爬虫持续轰炸,即使屏蔽巴…

    令爷原创 2025年3月28日 47
  • AI驱动的数据抓取新时代:从BeautifulSoup到智能爬虫工具

    在数据驱动的AI时代,获取高质量的网络数据变得越来越重要。传统的网页抓取方法正在被新一代智能工具所取代,这些工具不仅简化了数据获取过程,还提高了数据质量。本文将带你了解从传统方法到最新AI驱动工具的演变,帮助你选择最适合自己项目的数据抓取解决方案。 传统爬虫的局限性 网络数据抓取一直是AI和数据分析项目…

    令爷原创 2025年3月16日 53
  • 数据库设计范式实例讲解

    数据库设计范式实例讲解 原始数据表(违反1NF) 表名:StudentCourses 学生ID 学生姓名 选课信息(课程ID+课程) 成绩 学院 教师 S001 张三 C101-数据库, C102-算法 85 人工智能学院 曾老师 S001 张三 C101-数据库, C102-算法 90 人工智能学院 曾老师 S002 李四 C101-数据库 78 人工智能学院 曾老师 问题: 选课信息 字…

    令爷原创 2025年3月11日 51
  • Browser Use – 让 AI 像人类一样使用浏览器

    AI时代如果能够通过大模型自动操作浏览器,无论是网页抓取、自动化测试还是数据收集都能大大提高效率。 因为你无须编写和维护复杂的xpath、正则、css选择器脚本。今天,喵将介绍一个非常有趣的工具——browser-use,并结合 DeepSeek 模型,展示通过 AI Agent自动化操作浏览器。 https://www.bilibili.com/video/BV1vVfVYmE…

    令爷收藏 2025年3月4日 45
  • 何同学的“流量密码”:从219个封面测试看视频点击率的优化之道

    何同学的“流量密码”:从219个封面测试看视频点击率的优化之道 在短视频与自媒体高度竞争的时代,如何让作品在海量内容中脱颖而出?知名数码博主何同学通过一项针对219个视频封面的系统性测试,揭示了封面设计对点击率的深层影响,并结合自身创作经验总结出一套“流量密码”。本文将从测试方法、核心结论、数据分析原理、封…

    2025年2月17日 88
  • python爬虫工具集合

    python爬虫工具集合 主要针对python3 常用库 获取目标 chrome/firefox chrome开发者工具小技巧 史上最全的Chrome使用技巧集锦 fiddler project download-unofficial download-official articles Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许你监视,设置断点,甚至修改…

    令爷课程 2024年10月8日 90
  • 50个最佳机器学习公共数据集

    外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知: 一、寻找数据集的意义 根据CMU的说法,寻找一个好用的数据…

    令爷收藏 2024年10月1日 112
  • 用户调研之标准化可用性问卷

    用户调研之标准化可用性问卷 来源:https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。可用性测试的问卷有很多中,如下图: 什么是标准化的问卷 问…

    2024年9月10日 131
  • 2023年5个自动化EDA库推荐

    2023年5个自动化EDA库推荐 来源:deephub EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化…

    2024年9月10日 108
  • 数据探索工具Dataprep.eda

    数据探索工具Dataprep.eda 来源: https://www.biaodianfu.com Pandas-profiling(2016)被称为EDA(Exploratory Data Analysis)分析的典型工具,然而Pandas-profiling的一个主要缺点是它提供的是数据集的侧写,而EDA是一个迭代的过程,分析过程中会对对数据不断进行质疑、理解、处理、转换等。 Pandas-profiling严格的…

    2024年9月8日 113
  • Pandas基础教程之替换SQL

    Pandas基础教程之替换SQL 来源: https://www.biaodianfu.com 对于很多数据分析的同学来说,最熟悉的莫过于SQL,针对数据处理问题,脑海里的第一反应也往往都是SQL,而在日常的工作中往往也需要在Pandas的DataFrame数据上处理和分析数据,今天就一起来学习Pandas。 使用Pandas代替SQL 选择列 ## select COL1, COL2 from …

    2024年9月8日 94
  • 统计学基础之摘要统计

    统计学基础之摘要统计 来源: https://www.biaodianfu.com 什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类指标:集中趋势的度量和离散程度的度量。 集中趋…

    2024年9月8日 101

联系我们

15602395067

在线咨询:点击这里给我发消息

邮件:eden7@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code