提前体验火上热搜的 Kimi 探索版,我感觉 AI 搜索和百度们完全不是一个物种了

提前体验火上热搜的 Kimi 探索版,我感觉 AI 搜索和百度们完全不是一个物种了 谁能最先用 AI 颠覆搜索,至今还悬而未决。 年初,在体验当下几款热门的 AI 搜索引擎后,我和同事都一致认为,即便百度、Google 等搜索引擎巨头被群狼环视,但还是难以被撼动。 最近发布的 Kimi 探索版带来了很大的惊喜。相比于 AI 搜索更懂人类,我们更希望 AI 搜索引擎能够一步到位,最好就是成为一个带脑子的人类。 先来一剂预防针,目前 Kimi 探索版并未向所有用户开放。 昨天,在探索版上线之后,「Kimi 崩了」这一词条也迅速登上了热搜。不过,Kimi 官方也说了,预计将于下周一向所有用户全量...

50个最佳机器学习公共数据集

外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知: 一、寻找数据集的意义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点: 数据集不混乱,否则要花费大量时间来清理数据。 数据集不应包含太多行或列,否则会难以使用。 数据越干净越好,清理大型数据集可能非常耗时。 应该预设一个有趣的问题,而这个问题又可以用数据来回答。 二、去哪里找数据集 Kaggle:爱竞...

2023年5个自动化EDA库推荐

2023年5个自动化EDA库推荐 来源:deephub EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库,但是现在已经过了1年的时间了,我们看看现在有什么新的变化。 为了测试这些库的功能,本文使用了两个不同的数据集,只是为了更好地理解这些库如何处理不同类型的数据。 YData-Profiling 以前被称为Pandas Profiling,在今年改了名字。如果...

探索性数据分析详解

探索性数据分析详解 来源: https://www.biaodianfu.com 什么是探索性数据分析? 探索性数据分析(Exploratory Data Analysis,简称EDA) 是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。 探索性数据分析(EDA)与传统统计分析(Classical Analysis)的区别: 传统的统计分析方法通常是先假设样本服从某种分布,然后把数据套入假设模型再做分析。但由于多数数据并不能满足假设的分布,因此,传统统计分析结果常常不能让人...

机器学习聚类算法之K-Means

来源: https://www.biaodianfu.com 机器学习聚类算法之K-Means 根据训练样本中是否包含标签信息,机器学习可以分为监督学习和无监督学习。聚类算法是典型的无监督学习,其训练的样本中值包含样本的特征,不包含样本的标签信息。在聚类算法中。利用样本的特征,将具有相似属性的样本划分到统一类别中,它有点像全自动分类。 K-Means算法 K-Means算法,也被称为K-平均或K-均值算法,是一种广泛使用的聚类算法。K-Means算法是聚焦于相似的无监督的算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。之所...

机器学习之类别特征处理

来源: https://www.biaodianfu.com 类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。 Label encoding Label Encoding是使用字典的方式,将每个类别标签与不断增加的整数相关联,即生成一个名为class_的实例数组的索引。 Scikit-learn中的LabelEncoder是用来对分类型特征值进行编码,即对不连续的数值或文本进行编码。其中包含以下常用方法: ...

机器学习之特征选择方法

来源: https://www.biaodianfu.com 特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant)的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“ 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 ”,由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。 特征选择是一个过程,您可以自动选择数据中您感兴趣的对预测变量...

Pandas数据处理简明教程

来源: https://www.biaodianfu.com 在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas...

数据科学中10个应用广泛的统计方法

以下是数据科学中广泛应用的十个统计方法的详细描述: 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述: 中心极限定理告诉我们,无论原始数据的分布是什么样的,只要我们取足够多的样本(通常认为样本量大于30就够了),这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一,因为它让我们能够在许多情况下使用正态分布来进行推断。 举例: 假设我们在调查一个城市中每天咖啡店的销售量。即使每天的销售量分布不均匀(有些天销售量很高,有些天则很低),但如果我们每天抽取一个样本,并记录这些样本的均值,随着样本数量的增加,这些均值会形成一个正...

几行乱码让大模型获得科学思维:超级提示

https://github.com/NeoVertex1/SuperPrompt#superprompt 不过两三天的时间,仅有两个 Markdown 文件的 GitHub 项目为何竟能收获 1.9k star? 仔细一看,其中一个 Markdown 文件是一个流程图,另一个 Readme 文件的主要内容则是一大篇大模型提示词(prompt。而如果你细读这个 prompt,却发现里面仅有寥寥数句人类能懂的话,其余都是一些奇怪的 XML 标签、符号与函数定义。 超级提示 这是一个我决定开源的项目,因为我认为它可能有助于其他人了解人工智能代理。 这个提示花了我几个月的时间,仍然处于永久测试阶段...

机器学习入门

拥抱人工智能,从机器学习开始 背景: 自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。 人工智能的火爆离不开互联网、云计算、大数据、芯片和软件等技术的发展,而深度学习的进步却是当今人工智能大爆炸的核心驱动。 作为一个跨学科产物,人工智能的内容浩如烟海,各种复杂的模型和算法更让人望而生畏。那么作为一个普通程序员,在已有语言技能的前提下,该如何拥抱变化,向人工智能靠拢?如何在自己的工作中应用人工智能?学习人工智能应该从哪里开始? 人工智能并非遥不可及,人人都可以做人工智能! 人工智能是让机器...

Cursor + Claude 3.5 Sonnet 案例

Cursor太火了,很多人都放弃 GitHub Copilot ,转投 Cursor了。 Cursor + Claude 3.5 Sonnet 彻底改变了大家编程的体验,网友们几个惊艳的例子↓ 第一个就很震惊! 8 岁的孩子能在 45 分钟内构建了一个由Cloudflare Workers AI 驱动的聊天机器人 11k 行代码,685 次提交,整整 3 周,一个视频编辑器 Cursor+V0创建一个漂亮的界面 CURSOR + REPLIT + VOICE单手完成应用开发 几分钟创建Figma插件 30分钟创建一个web版photoshop 8-10小时构建一个Chrome扩展 通过对话...

[转载]使用Cursor,2个晚上做了一个PDF转Markdown的工具

来源:https://blog.vcvit.me/2024/08/11/use-cursor-2-nights-built-pdf-to-markdown-tool/ 今天使用 Cursor,2 个晚上做了一个 PDF 转 Markdown 的工具,真的是一行代码都没有写。我不禁重新思考,这何尝不是一种 0 代码?程序员真的可以被替代么?以前我的个人感受是 GPT 确实能帮助很多会用的人,提高 80%的效率。但是今天真的有一个程序,100%是 AI 生成的,这个感受还是有些不一样的。未来一定是有更宽泛知识面的程序员能吃上这碗饭,你要懂更多的编程概念,前端,后端,数据库,权限,交互,体验等等,...

黄铮:我的中学和大学(转载)

黄铮:我的中学和大学(转载) Colin 黄峥 2016-02-18 我的小学在杭州市郊,应该算是很一般的,但是我非常狗屎运地考进了杭州有点特别的一所中学,杭州外国语学校。据我小学老师说,我是我们小学前后9年里唯一一个考进这所中学的。人生有时候是比较戏剧性的,我当时是因为奥数得了个奖,然后老师让我去考的。去考之前,我几乎不知道这所中学是干嘛的,更没有什么复习、准备、做模拟题什么的。拿到录取通知书之后,我还和老师说,我不想去,读名字以为它是一所完全学外语的学校。我说我想要进另外数理化强的中学。后来,被小学校长叫去,劝我去读,我才去了。后来回想起来,还好去了! 杭外是所好中学。老...

黄铮:把“资本主义”倒过来

黄峥 2017-09-26 巴菲特是一位让人敬佩的资本家,他是一位纯粹的资本家。他的整个事业可以描述为孜孜不倦地、专注地、理性地挪动钱来享受复利的果实。我喜欢读他写给股东的信,几十年来重复着同样的简单,重复着不容易的纯粹。他的帝国里一手是保险,一手是投资;一手卖的是抗风险能力,收起来的是钱,另一边则是把钱放进有护城河,能产生复利的果园里。 本来,开写公众号的时候很想写一篇关于保险的文章,拟的题目叫“保险,资本主义的极致”。大致想说的是保险很有意思,也很体现资本主义。“富人”有资本、“钱多”,因此抗风险能力强;“穷人”“钱少”抗风险能力弱。于是“穷人”需要向“富人”购买这种抗风险能力。虽说保险确...