Transformer – 令爷课程-曾确令(ColinZENG)AIGC玩家

AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征

2026年4月27日2024年5月29日作者曾确令

AI黑盒研究的突破性进展：Anthropic详解大模型的「思维」特征一直以来 AI 都是一个黑盒子（black box），其内部运作机制是不可见的。人们输入数据并得到结果，但无法检查输出结果的逻辑或者系统的代码。而就在刚刚，Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。 Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性，具有里程碑意义。研究论文：https://transformer-circuits.pub/2024/scalin...

黄仁勋集齐Transformer论文七大作者，对话一小时

2026年4月27日2024年5月25日作者曾确令

文 / 腾讯科技郭晓静 2017年，一篇具有里程碑意义的论文——《Attention is All You Need》横空出世，它首次引入了基于自注意力机制的Transformer模型，这一创新架构摆脱了传统的RNN和CNN的束缚，通过并行处理的注意力机制，有效克服了长距离依赖的难题，并显著提升了序列数据处理的速度。Transformer的编码器-解码器结构和多头注意力机制在人工智能领域掀起了一场风暴，大热的ChatGPT正是基于这一架构构建的。想象一下，Transformer模型就像是你的大脑在和朋友交谈时，能够同时关注对方说的每个词，并理解这些词之间的联系。它赋予了计算机类似人类的语...

普通人也能理解的 Transformer

2026年4月27日2024年4月16日作者曾确令

普通人也能理解的 Transformer 闪念基因引言如今爆火的大模型，GPT-3，BERT 等，通过大量的参数和数据，为我们提供了前所未有的自然语言处理能力，使得机器能够更好地理解和生成人类的语言。而注意力机制无疑是重要的基石之一，作为一种新的神经网络结构，使得模型能够更好地捕捉序列中的长距离依赖关系，从而大大提高了模型的性能。本文将从通俗和学术两个角度，详细介绍大模型和注意力机制的基础知识。无论你是对人工智能感兴趣的初学者，还是寻求深入理解的开发者，都能在本文中找到你需要的内容。我们将从 RNN 开始，介绍其原理和局限性，然后介绍 LSTM 如何解决这些问题，接着我们将深入探讨注意力...