【美团】可信实验白皮书系列03:随机对照实验

可信实验白皮书系列03:随机对照实验 2025年06月05日 作者: 履约数据&外卖数据 文章链接 18881字 38分钟阅读 本文系《可信实验白皮书》系列的第三篇文章,第一篇文章我们介绍了为什么要写AB实验白皮书,第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识,以及提高实验功效的一些常见方法。 备注 :本篇排版为图文混合排版,如果想获得更好的阅读体验,建议访问「美团技术团队」知乎官方账号《可信实验白皮书系列03:随机对照实验》。 在美团到家业务场景中,经常会碰到随机分流的实验场景,比如全城AOI(Area of Inte...

【美团】可信实验白皮书系列02:AB实验基础

可信实验白皮书系列02:AB实验基础 2025年05月23日 作者: 履约数据&外卖数据 文章链接 2807字 6分钟阅读 2.1 实验基础原理概述 AB实验原理源于统计学中经典的Rubin潜在结果模型(也称反事实因果推断框架)。考虑最简单的情况,当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示,最理想的方案是面向同一拨用户或者全部用户,假设存在两个完全相同的平行时空,平行时空一中所有用户体验实验策略B,类似的平行时空二中所有用户体验对照策略A,那么直接对比2个平行空间用户行为指标表现,则可决定哪个策略胜出以及观测真实的平均实验效应。 然而,现实世界中不存在两个平行时...

两种学科的故事:对统计学与大数据相互作用的详尽分析

引言 21世纪的黎明以数据的洪流为标志,将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式,常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。 本报告旨在论证,这种观点是一种简单化的误读。统计学与大数据并非竞争对手,而是两个截然不同但又紧密相连的智力与技术潮流。统计学为推断和方法论的严谨性提供了理论基石,而大数据则以前所未有的规模提供了原始材料和计算能力。它们之间复杂的相互作用——一种分歧、张力与最终融合的动态过程——共同铸就了现代的、跨学科的数据科学领域。 本报告将首先追溯这两个学科各自独立的历史谱系,然后剖析它们在核心哲学和方法论上的差异,从数...

用户调研之标准化可用性问卷

用户调研之标准化可用性问卷 来源:https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求,原以为做下简单的问卷设计就可以了,找了一些资料发现中间的门道还是非常的深,想要很好的掌握实属不易。可用性测试的问卷有很多中,如下图: 什么是标准化的问卷 问卷是一种用于获取被测者信息的表格,问卷的题目可以是开放式的问题,但更典型的是选择题或打分题。标准化问卷是被设计为可重复使用的问卷,通常有一组特定的问题使用特定的格式按照特定的顺序呈现,基于用户答案产生的度量值具有一定的规则(...

统计学基础之摘要统计

统计学基础之摘要统计 来源: https://www.biaodianfu.com 什么是摘要统计? 摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段,可以帮助研究者理解数据的基本趋势和模式,但不用于从样本推断总体的结论。摘要统计主要包括两类指标:集中趋势的度量和离散程度的度量。 集中趋势的度量: 平均值(Mean):数据集合中所有数值的总和除以数值的数量。 中位数(Median):将数据集合按数值大小排列后处于中间位置的数值。 众数(Mode):在数据集合中出现次数最多的数值。 离散程度的度量: 极差(Range):数据集中最大值与最小值的...

实证分析: T检验、方差分析(ANOVA)和卡方检验的对比分析

以下是T检验、方差分析(ANOVA)和卡方检验的对比分析,以及它们在不同应用领域的详细描述。 统计方法 T检验 方差分析(ANOVA) 卡方检验 目的 比较两个组的均值差异 比较多个组的均值差异 比较分类变量的频数分布 数据类型 连续变量(通常是正态分布) 连续变量(通常是正态分布) 分类变量 适用条件 样本数量较小,正态分布,方差齐性 样本数量较大,正态分布,方差齐性 样本独立,预期频数不宜过低(通常每个单元格≥5) 类型 独立样本T检验、配对样本T检验 单因素ANOVA、双因素ANOVA、重复测量ANOVA 独立性检验、配对卡方检验、拟合优度检验 统计量计算 ...

《动手学大模型》系列编程实践教程

About 《动手学大模型Dive into LLMs》系列编程实践教程 sjtullm.gitbook.io/dive-into-llms 项目动机 《动手学大模型》系列编程实践教程,由上海交通大学2024年春季《人工智能安全技术》课程(NIS3353)讲义拓展而来(教师:张倬胜),旨在提供大模型相关的入门编程参考。通过简单实践,帮助同学快速入门大模型,更好地开展课程设计或学术研究。 教程目录 教程内容 简介 地址 微调与部署 预训练模型微调与部署指南:想提升预训练模型在指定任务上的性能?让我们选择合适的预训练模型,在特定任务上进行微调,并将微调后的模型部署成方便使用的De...

AI黑盒研究的突破性进展:Anthropic详解大模型的「思维」特征

AI黑盒研究的突破性进展:Anthropic详解大模型的「思维」特征 一直以来 AI 都是一个黑盒子(black box),其内部运作机制是不可见的。人们输入数据并得到结果,但无法检查输出结果的逻辑或者系统的代码。 而就在刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。 Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。 研究论文:https://transformer-circuits.pub/2024/scalin...

投稿时需要附上CRediT Author Statement,怎么写?

CRediT Author Statement 意为作者署名声明或论文贡献作者角色说明,也称作Author Statement或Authorship Contribution ,论文发表过程中越来越多的期刊要求提供论文贡献作者角色说明,用以阐述当前学术论文中每位作者的具体贡献。大部分期刊都要求作者在首次投稿的时候就添加这部分内容,也有一些仅要求在发表之前提交。 CRediT(贡献者角色分类法)是一种高级分类法,该方法将作者的贡献划分为14个类别,并对每个类别的角色详细精确地定义了作者的贡献。 CRediT(贡献者角色分类法) 2012年,美国国家信息标准协会(National Informat...

从思维链(CoT),到思维树(ToT),再到思维图(GoT):用LLMs解决复杂问题!

从思维链(CoT),到思维树(ToT),再到思维图(GoT):用LLMs解决复杂问题! 首发: **AINLPer 微信公众号( 每日论文干货分享!!** ) 编辑: ShuYini 校稿: ShuYi-ni 时间: 2023-09-04 引言 为了提高大型语言模型(LLM)上下文学习能力,今天给大家分享的这篇文章提出了思维图(GoT),其性能超过了思维链(CoT)、思维树(ToT)等。思维图(GoT)的关键是能够将 LLM 生成的信息建模为任意图,其中信息单位是顶点,边代表顶点之间的依赖关系。这种方法优点能够将任意LLM的思维组合在一起,提炼出整个思维图内容。实验结果显示:相比目前的思维...

ChatGPT 做定性研究的质量怎么样?用定量方法来研究下!附prompt

ChatGPT 做定性研究的质量怎么样?用定量方法来研究下!附prompt 来源:[AIGC研究社] ChatGPT 作为语言模型,最擅长的就是文本的理解和处理。这正好是用户研究工作中定性研究所需要的技能。 相信很多人自己也使用过 ChatGPT 来对访谈材料进行总结,对主观题进行分类,但总结和分类的质量怎么样,跟人类比又如何,目前还很少看到响应的定量结论。 最近发现了一篇研究( https://measuringu.com/classification-agreement-between-ux-researchers-and-chatgpt/),作者对比了3 个人类研究员和 3 次 Chat...