Pandas数据处理简明教程

来源: https://www.biaodianfu.com 在使用Python处理分析数据的时候,用的最多的算是Pandas时,由于Pandas是个非常强大的工具,涉及到的功能非常多,所以平常使用的时候经常需要查询文档。这里记载了自己常用的一些功能及知识点。 Pandas简介 Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas...

数据科学中10个应用广泛的统计方法

以下是数据科学中广泛应用的十个统计方法的详细描述: 1️⃣ 中心极限定理 (Central Limit Theorem, CLT) 描述: 中心极限定理告诉我们,无论原始数据的分布是什么样的,只要我们取足够多的样本(通常认为样本量大于30就够了),这些样本的均值分布会趋向于正态分布。这个理论是统计学的基石之一,因为它让我们能够在许多情况下使用正态分布来进行推断。 举例: 假设我们在调查一个城市中每天咖啡店的销售量。即使每天的销售量分布不均匀(有些天销售量很高,有些天则很低),但如果我们每天抽取一个样本,并记录这些样本的均值,随着样本数量的增加,这些均值会形成一个正...

几行乱码让大模型获得科学思维:超级提示

https://github.com/NeoVertex1/SuperPrompt#superprompt 不过两三天的时间,仅有两个 Markdown 文件的 GitHub 项目为何竟能收获 1.9k star? 仔细一看,其中一个 Markdown 文件是一个流程图,另一个 Readme 文件的主要内容则是一大篇大模型提示词(prompt。而如果你细读这个 prompt,却发现里面仅有寥寥数句人类能懂的话,其余都是一些奇怪的 XML 标签、符号与函数定义。 超级提示 这是一个我决定开源的项目,因为我认为它可能有助于其他人了解人工智能代理。 这个提示花了我几个月的时间,仍然处于永久测试阶段...

机器学习入门

拥抱人工智能,从机器学习开始 背景: 自“阿尔法狗”(AlphaGo)完胜人类围棋顶尖高手后,有关人工智能(AI)的讨论就从未停歇。工业4.0方兴未艾,人工智能引领的工业5.0时代却已悄然苏醒。 人工智能的火爆离不开互联网、云计算、大数据、芯片和软件等技术的发展,而深度学习的进步却是当今人工智能大爆炸的核心驱动。 作为一个跨学科产物,人工智能的内容浩如烟海,各种复杂的模型和算法更让人望而生畏。那么作为一个普通程序员,在已有语言技能的前提下,该如何拥抱变化,向人工智能靠拢?如何在自己的工作中应用人工智能?学习人工智能应该从哪里开始? 人工智能并非遥不可及,人人都可以做人工智能! 人工智能是让机器...

Cursor + Claude 3.5 Sonnet 案例

Cursor太火了,很多人都放弃 GitHub Copilot ,转投 Cursor了。 Cursor + Claude 3.5 Sonnet 彻底改变了大家编程的体验,网友们几个惊艳的例子↓ 第一个就很震惊! 8 岁的孩子能在 45 分钟内构建了一个由Cloudflare Workers AI 驱动的聊天机器人 11k 行代码,685 次提交,整整 3 周,一个视频编辑器 Cursor+V0创建一个漂亮的界面 CURSOR + REPLIT + VOICE单手完成应用开发 几分钟创建Figma插件 30分钟创建一个web版photoshop 8-10小时构建一个Chrome扩展 通过对话...

从电力革命到AI:组织创新驱动下的生产力飞跃

1.谷歌前CEO说现在像电力革命前夕 在2024年8月13日,谷歌前CEO埃里克·施密特在斯坦福大学的演讲中指出,尽管AI技术已经取得了显著的进步,并在许多领域得到了广泛应用,但其真正的潜力尚未完全释放。他强调,当前的AI应用大多集中在替代或辅助人类完成特定任务上,而未能引发深刻的组织变革。这种情况类似于19世纪末期电力刚被引入工厂时的情景,当时工厂只是简单地用电动机替代了蒸汽机,工厂布局和生产流程并未发生实质性的改变,直到数十年后,分布式电力系统彻底重塑了生产方式,才带来了生产力的飞跃。 施密特的观点为我们思考AI时代的未来提供了一个重要视角:要想真正释放AI的潜力,关键在于组织创新。本文将...

Python数据分析7步(IMDb Summer Movies Data)

数据:summer_movies | summer_movie_genres 流程 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 数据集说明 以下是两个数据文件的详细说明: 文件1:summer_movies.csv 数据预览: tconst title_type primary_title original_title ye...

Python数据分析7步(Iris数据集)

数据:iris.csv Python数据分析7步 graph LR A[1导入库] --> B[2导入数据] B --> C[3数据探索与处理] C --> D[4数据可视化] D --> E[5特征工程] E --> F[6模型训练与评估] F --> G[7预测新数据] 1 导入库 import pandas as pd # 数据处理和分析库 import numpy # 科学计算库 import matplotlib.pyplot as plt # 绘图库 import seabor...

[转载]使用Cursor,2个晚上做了一个PDF转Markdown的工具

来源:https://blog.vcvit.me/2024/08/11/use-cursor-2-nights-built-pdf-to-markdown-tool/ 今天使用 Cursor,2 个晚上做了一个 PDF 转 Markdown 的工具,真的是一行代码都没有写。我不禁重新思考,这何尝不是一种 0 代码?程序员真的可以被替代么?以前我的个人感受是 GPT 确实能帮助很多会用的人,提高 80%的效率。但是今天真的有一个程序,100%是 AI 生成的,这个感受还是有些不一样的。未来一定是有更宽泛知识面的程序员能吃上这碗饭,你要懂更多的编程概念,前端,后端,数据库,权限,交互,体验等等,...

黄铮:我的中学和大学(转载)

黄铮:我的中学和大学(转载) Colin 黄峥 2016-02-18 我的小学在杭州市郊,应该算是很一般的,但是我非常狗屎运地考进了杭州有点特别的一所中学,杭州外国语学校。据我小学老师说,我是我们小学前后9年里唯一一个考进这所中学的。人生有时候是比较戏剧性的,我当时是因为奥数得了个奖,然后老师让我去考的。去考之前,我几乎不知道这所中学是干嘛的,更没有什么复习、准备、做模拟题什么的。拿到录取通知书之后,我还和老师说,我不想去,读名字以为它是一所完全学外语的学校。我说我想要进另外数理化强的中学。后来,被小学校长叫去,劝我去读,我才去了。后来回想起来,还好去了! 杭外是所好中学。老...

黄铮:把“资本主义”倒过来

黄峥 2017-09-26 巴菲特是一位让人敬佩的资本家,他是一位纯粹的资本家。他的整个事业可以描述为孜孜不倦地、专注地、理性地挪动钱来享受复利的果实。我喜欢读他写给股东的信,几十年来重复着同样的简单,重复着不容易的纯粹。他的帝国里一手是保险,一手是投资;一手卖的是抗风险能力,收起来的是钱,另一边则是把钱放进有护城河,能产生复利的果园里。 本来,开写公众号的时候很想写一篇关于保险的文章,拟的题目叫“保险,资本主义的极致”。大致想说的是保险很有意思,也很体现资本主义。“富人”有资本、“钱多”,因此抗风险能力强;“穷人”“钱少”抗风险能力弱。于是“穷人”需要向“富人”购买这种抗风险能力。虽说保险确...

Mermaid图表示例

关于 Mermaid mindmap root((图表类型)) flow 描述(流程图,用于展示流程或步骤的顺序。) sequence 描述(时序图,展示对象之间的交互和消息传递。) class 描述(类图,用于展示类、对象和它们之间的关系。) state 描述(状态图,用于展示对象或系统的状态变化。) er 描述(实体关系图,用于展示实体及其关系。) gantt 描述(甘特图,用于项目管理,展示任务、进度和时间线。) UserJourney 描述(用...

表情符号(emoji)来表示 token

为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下 让模型知道自己擅长什么、不擅长什么是一个很重要的问题。 还记得这些天大模型被揪出来的低级错误吗? 不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。 嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么? 大家普遍认为,是 Token 化(Tokenization)的锅。 在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 to...

健身房的正态分布例子

以下是chatgpt 4o的描述 重量堆栈正态分布 这张图片显示了一个重量堆栈(可能是一个健身器材)的图示,其中每个重量位置上都有明显的磨损痕迹。这些磨损痕迹在图中形成了一个钟形曲线,类似于正态分布(即常态分布)。 具体来说,这种磨损痕迹集中在中间的重量区间(大约在40到60之间),而两端的重量位置(10-20和90-115之间)的磨损痕迹较少。这反映了大多数人使用中等重量的频率最高,而使用极轻或极重的重量的人相对较少。 从统计学角度来看,这表明使用这个器材的人在选择重量时,符合正态分布规律:大多数人的选择集中在一个中间值附近,极端值(非常轻或非常重的重量)选择的频率较低。 凑整的极端值 在...

垂直领域的开源模型、数据集及评测基准。

Awesome Domain LLM https://github.com/luban-agi/Awesome-Domain-LLM 自以ChatGPT为代表的大语言模型出现以后,掀起了新一轮研究和应用浪潮,出现了许多包括LLaMA、ChatGLM、Baichuan、Qwen等在内的通用模型。 随后,来自不同领域的从业人员在通用模型的基础上通过持续预训练/指令微调将其应用于垂直领域。 本项目旨在收集和梳理垂直领域的 开源模型 、数据集及 评测基准 。 欢迎大家贡献本项目未收录的开源模型、数据集、评测基准等内容,一起推动大模型赋能各行各业! [2023/11/26] 增强网络安全大模型S...