学术 – 令爷课程-曾确令(ColinZENG)AIGC玩家

【美团】可信实验白皮书系列03：随机对照实验

2026年4月27日2025年6月24日作者曾确令

可信实验白皮书系列03：随机对照实验 2025年06月05日作者: 履约数据&外卖数据文章链接 18881字 38分钟阅读本文系《可信实验白皮书》系列的第三篇文章，第一篇文章我们介绍了为什么要写AB实验白皮书，第二篇文章讲解了AB实验的理论原理及其背后的统计学基础。本篇我们将重点介绍随机对照实验相关的一些基础知识，以及提高实验功效的一些常见方法。备注：本篇排版为图文混合排版，如果想获得更好的阅读体验，建议访问「美团技术团队」知乎官方账号《可信实验白皮书系列03：随机对照实验》。在美团到家业务场景中，经常会碰到随机分流的实验场景，比如全城AOI（Area of Inte...

【美团】可信实验白皮书系列02：AB实验基础

2026年4月27日2025年6月24日作者曾确令

可信实验白皮书系列02：AB实验基础 2025年05月23日作者: 履约数据&外卖数据文章链接 2807字 6分钟阅读 2.1 实验基础原理概述 AB实验原理源于统计学中经典的Rubin潜在结果模型（也称反事实因果推断框架）。考虑最简单的情况，当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示，最理想的方案是面向同一拨用户或者全部用户，假设存在两个完全相同的平行时空，平行时空一中所有用户体验实验策略B，类似的平行时空二中所有用户体验对照策略A，那么直接对比2个平行空间用户行为指标表现，则可决定哪个策略胜出以及观测真实的平均实验效应。然而，现实世界中不存在两个平行时...

两种学科的故事：对统计学与大数据相互作用的详尽分析

2026年4月27日2025年6月22日作者曾确令

引言 21世纪的黎明以数据的洪流为标志，将“大数据”一词推入了商业、技术和科学领域的词典核心。这个看似源于硅谷和软件的新范式，常常被认为是在挑战甚至取代拥有数百年历史、以严谨著称的统计学。本报告旨在论证，这种观点是一种简单化的误读。统计学与大数据并非竞争对手，而是两个截然不同但又紧密相连的智力与技术潮流。统计学为推断和方法论的严谨性提供了理论基石，而大数据则以前所未有的规模提供了原始材料和计算能力。它们之间复杂的相互作用——一种分歧、张力与最终融合的动态过程——共同铸就了现代的、跨学科的数据科学领域。本报告将首先追溯这两个学科各自独立的历史谱系，然后剖析它们在核心哲学和方法论上的差异，从数...

用户调研之标准化可用性问卷

2026年4月27日2024年9月10日作者曾确令

用户调研之标准化可用性问卷来源：https://www.biaodianfu.com/summary-of-examined-usability-surveys.html 最近收到了对两个平台进行对比调研的需求，原以为做下简单的问卷设计就可以了，找了一些资料发现中间的门道还是非常的深，想要很好的掌握实属不易。可用性测试的问卷有很多中，如下图：什么是标准化的问卷问卷是一种用于获取被测者信息的表格，问卷的题目可以是开放式的问题，但更典型的是选择题或打分题。标准化问卷是被设计为可重复使用的问卷，通常有一组特定的问题使用特定的格式按照特定的顺序呈现，基于用户答案产生的度量值具有一定的规则（...

统计学基础之摘要统计

2026年4月27日2024年9月8日作者曾确令

统计学基础之摘要统计来源： https://www.biaodianfu.com 什么是摘要统计？摘要统计是一种用来描述、概括和呈现数据集特征的统计学工具。它们通常用于数据分析的初步阶段，可以帮助研究者理解数据的基本趋势和模式，但不用于从样本推断总体的结论。摘要统计主要包括两类指标：集中趋势的度量和离散程度的度量。集中趋势的度量：平均值（Mean）：数据集合中所有数值的总和除以数值的数量。中位数（Median）：将数据集合按数值大小排列后处于中间位置的数值。众数（Mode）：在数据集合中出现次数最多的数值。离散程度的度量：极差（Range）：数据集中最大值与最小值的...

实证分析： T检验、方差分析（ANOVA）和卡方检验的对比分析

2026年4月27日2024年9月8日作者曾确令

以下是T检验、方差分析（ANOVA）和卡方检验的对比分析，以及它们在不同应用领域的详细描述。统计方法 T检验方差分析（ANOVA）卡方检验目的比较两个组的均值差异比较多个组的均值差异比较分类变量的频数分布数据类型连续变量（通常是正态分布）连续变量（通常是正态分布）分类变量适用条件样本数量较小，正态分布，方差齐性样本数量较大，正态分布，方差齐性样本独立，预期频数不宜过低（通常每个单元格≥5）类型独立样本T检验、配对样本T检验单因素ANOVA、双因素ANOVA、重复测量ANOVA 独立性检验、配对卡方检验、拟合优度检验统计量计算 ...

《动手学大模型》系列编程实践教程

2026年4月27日2024年7月13日作者曾确令

About 《动手学大模型Dive into LLMs》系列编程实践教程 sjtullm.gitbook.io/dive-into-llms 项目动机《动手学大模型》系列编程实践教程，由上海交通大学2024年春季《人工智能安全技术》课程（NIS3353）讲义拓展而来（教师：张倬胜），旨在提供大模型相关的入门编程参考。通过简单实践，帮助同学快速入门大模型，更好地开展课程设计或学术研究。教程目录教程内容简介地址微调与部署预训练模型微调与部署指南：想提升预训练模型在指定任务上的性能？让我们选择合适的预训练模型，在特定任务上进行微调，并将微调后的模型部署成方便使用的De...

AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征

2026年4月27日2024年5月29日作者曾确令

AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征一直以来 AI 都是一个黑盒子（black box），其内部运作机制是不可见的。人们输入数据并得到结果，但无法检查输出结果的逻辑或者系统的代码。而就在刚刚，Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。 Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性，具有里程碑意义。研究论文：https://transformer-circuits.pub/2024/scalin...

投稿时需要附上CRediT Author Statement，怎么写？

2026年4月27日2023年10月28日作者曾确令

CRediT Author Statement 意为作者署名声明或论文贡献作者角色说明，也称作Author Statement或Authorship Contribution ，论文发表过程中越来越多的期刊要求提供论文贡献作者角色说明，用以阐述当前学术论文中每位作者的具体贡献。大部分期刊都要求作者在首次投稿的时候就添加这部分内容，也有一些仅要求在发表之前提交。 CRediT（贡献者角色分类法）是一种高级分类法，该方法将作者的贡献划分为14个类别，并对每个类别的角色详细精确地定义了作者的贡献。 CRediT（贡献者角色分类法） 2012年，美国国家信息标准协会（National Informat...

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

2026年4月27日2023年9月8日作者曾确令

从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！首发: **AINLPer 微信公众号（每日论文干货分享！！** ）编辑: ShuYini 校稿: ShuYi-ni 时间: 2023-09-04 引言为了提高大型语言模型（LLM）上下文学习能力，今天给大家分享的这篇文章提出了思维图（GoT），其性能超过了思维链（CoT）、思维树（ToT）等。思维图（GoT）的关键是能够将 LLM 生成的信息建模为任意图，其中信息单位是顶点，边代表顶点之间的依赖关系。这种方法优点能够将任意LLM的思维组合在一起，提炼出整个思维图内容。实验结果显示：相比目前的思维...

ChatGPT 做定性研究的质量怎么样？用定量方法来研究下！附prompt

2026年4月27日2023年8月15日作者曾确令

ChatGPT 做定性研究的质量怎么样？用定量方法来研究下！附prompt 来源：[AIGC研究社] ChatGPT 作为语言模型，最擅长的就是文本的理解和处理。这正好是用户研究工作中定性研究所需要的技能。相信很多人自己也使用过 ChatGPT 来对访谈材料进行总结，对主观题进行分类，但总结和分类的质量怎么样，跟人类比又如何，目前还很少看到响应的定量结论。最近发现了一篇研究( https://measuringu.com/classification-agreement-between-ux-researchers-and-chatgpt/)，作者对比了3 个人类研究员和 3 次 Chat...