RAG基础:Markdown指南 – 专业文档结构化的破局之道

RAG基础:Markdown指南 - 专业文档结构化的破局之道 当非结构化文档成为RAG的阿喀琉斯之踵 在金融、法律、医疗等专业领域,每天产生的PDF技术白皮书、Word版行业报告、PPT培训文档堆积如山。这些看似规范的专业文档,在RAG系统中却如同布满荆棘的迷宫——当我们尝试用LlamaIndex构建证券行业知识库时,发现PDF中的三线表格被解析为离散的文字碎片,Word文档里的流程图变成无序的段落代码,最终导致知识召回率不足35%。 这种现象暴露了传统文档格式的致命缺陷:它们本质上是为人类视觉设计的"视觉结构化"格式,而非机器可理解的"逻辑结构化"数...

垂直领域的开源模型、数据集及评测基准。

Awesome Domain LLM https://github.com/luban-agi/Awesome-Domain-LLM 自以ChatGPT为代表的大语言模型出现以后,掀起了新一轮研究和应用浪潮,出现了许多包括LLaMA、ChatGLM、Baichuan、Qwen等在内的通用模型。 随后,来自不同领域的从业人员在通用模型的基础上通过持续预训练/指令微调将其应用于垂直领域。 本项目旨在收集和梳理垂直领域的 开源模型 、数据集及 评测基准 。 欢迎大家贡献本项目未收录的开源模型、数据集、评测基准等内容,一起推动大模型赋能各行各业! [2023/11/26] 增强网络安全大模型S...

【案例】我是如何用Coze搭建乔尔事务所Bot的

我是如何用Coze搭建乔尔事务所Bot的 [乔尔事务所]() Albert是乔尔事务所的第一个bot,这篇文章梳理了搭建bot的思路,内容大多来自于对Albert的采访,重新排版整理后穿插了一些设计过程中的想法。 为什么要制作Bot 知道Coze是在灵感买家俱乐部的买房群里看到饭团的推荐。上手还算比较简单,可以免费使用8k版本的GPT-4,入门可以参考这个飞书文档[1]。 Bot是以自然语言进行交互的机器人。最初设计这个Bot的目的是作为我的「买房智囊」,毕竟买房是一个涉及宏观经济、城市规划、社会人口、金融政策等等领域的复杂问题,需要摄入大量碎片信息才能培养起一点市场认知。 在调试第一版Bo...

企业内部如何更好落地大模型

企业内部如何更好落地大模型 在微软推出 Copilot 后,工作场景中如何落地 LLM 很快成为业内关注的重点。钉钉、飞书等办公软件也快速在最新版本中集成 AI 功能。 对于软件企业而言,在已有的软件上增加 AI 功能,并带来新产值,已经被 Notion、多邻国等产品所验证。除此之外,在企业生产场景中,集成 LLM 的能力,并为企业组织赋能,也成为人们关注 AI 落地的一个视角。 Founder Park 研究中心访谈了多位第一批尝试用新技术在企业内部搭建应用的实践者。我们观察到,随着大模型技术话题的广泛破圈,相较于以往的技术升级,来自不同领域、行业的企业都更有意愿进行在内部生产环境中尝试 L...

OpenAgents: 现实世界的开放平台的语言智能体

https://github.com/xlang-ai/OpenAgents/blob/main/README_ZH.md 当前的语言代理框架旨在促进构建概念证明语言智能体(Language Agent)的搭建,但是同时忽视了非专家用户的使用,对应用级设计也关注较少。 我们创建了OpenAgents,一个用于在日常生活中使用和托管语言智能体的开放平台。 我们现在在OpenAgents中实现了三个智能体,并在demo上免费托管他们! 数据智能体-用于用Python/SQL和数据工具进行数据分析; 插件智能体-具有200多个日常工具,并且可供拓展; 网络智能体-用于自动上网。 OpenAgents...

15小时、几千元训完中文版LLaMA2!低成本方案全面开源,支持商用

训练大模型,几千块就能实现了! 现在, 15小时、几千块钱、85亿 token数据 ,即可训出中文LLaMA2。 综合性能达到开源社区同规模从头预训练SOTA模型水平。 方案 完全开源 ,包括全套训练流程、代码及权重。 而且 无商业限制 ,还可迁移应用到任意垂类领域和从头预训练大模型的低成本构建。 要知道,从头预训练大模型此前被戏称“要5000万美元才能入局”,让许多开发者和中小企业都望而却步。 这一回 Colossal-LLaMA-2 ,把大模型门槛打下来了。 ChatGPT正式联网,能给出答案出处[/caption] 同时开源团队还提供了一个完整的 评估体系框架ColossalEval ...

复习考试、准备面试的AI好帮手

#AI开源项目推荐:examor 复习考试、准备面试的好帮手。 另类文档对话工具:借助AI把你的学习资料、学习笔记生成考试问题,然后你可以基于这些问题进行回复对话,AI对你的回复进行打分和点评。 https://github.com/codeacme17/examor

Meta AI发布了一款专门用于编程的模型:Code Llama

它能够根据自然语言提示和代码提示生成代码。 Code Llama还可以解释代码的功能或结构。例如,如果你给它一个复杂的代码片段,它可以用普通语言解释这段代码是做什么的。 Code Llama是基于Llama 2构建的,并提供了三个模型版本: Code Llama - 基础代码模型 Code Llama - Python - 专门针对Python进行优化 Code Llama - Instruct - 专门用于理解自然语言指令 它支持许多流行的编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。 Code Llama提供了三种不同大...

什么是LangChain? LangChain有什么用?

从Auto-GPT说起 Auto-GPT可以调用本地电脑工具处理复杂信息; Auto-GPT可以围绕目标查阅资 料、“独立思考”、及时反馈、并 及时调整下一步操作… Auto-GPT的诞生,创造了大家 对“将LLM作为智慧大脑来高效 处理综合复杂任务”的想象; 首次尝试串联大语言模型的思维链,“chains together LLM “thoughts”,逐步 拆解任务并执行,从而使得整个应用程序更加靠近人类意图; 首次将大语言模型接入本地工具,通过工具集的拓展,进一步拓展了大语言模型的能力; 能够通过内置的提示模版修改人类提示语句,从而大幅简化提示难度; 拥有“记忆”,通过模型外的存储策略...

深度拆解 AI 全能导师 Mr. Ranedeer 的提示词

来源 ElfeXu [南瓜博士 ]() 2023-08-30 著名的 AI 全能导师 Mr. Ranedeer 的提示词中,有三条值得借鉴的技巧和两个要避开的坑。 *经验 1:用对格式 AI 记忆力和稳定性就能大幅提升 避坑 1:严谨的 json 表达会让 GPT 丢失一些创造力* 经验 2:对 AI 编程只需伪到极致的伪代码 经验 3:用 code interpreter 的内存大幅增强 AI 的记忆力 避坑 2:专业领域的 know how 比 prompt 技巧更重要 早在五月初,一位澳洲 17 岁的少年推出了 个性化 AI 全能导师,惊艳全网。很多文章对这个 prompt 的介绍聚...

官方的Code Llama开源:免费商用,神秘版本接近GPT-4

机器之心报道 编辑:杜伟、陈萍 GPT-4:在代码生成这块,你们依然是「弟弟」。 今日,Meta 的开源 Llama 模型家族迎来了一位新成员 —— 专攻代码生成的基础模型 Code Llama。 作为 Llama 2 的代码专用版本,Code Llama 基于特定的代码数据集在其上进一步微调训练而成。 Meta 表示,Code Llama 的开源协议与 Llama 2 一样,免费用于研究以及商用目的。 相关论文《Code Llama: Open Foundation Models for Code》已经公布,足足有 47 页,作者有 25 位。 论文地址: https://ai.me...

DoctorGPT是一个大型语言模型,可以通过美国医生执照考试

DoctorGPT是一个大型语言模型,可以通过美国医生执照考试。这是一个开源项目,其使命是为每个人提供自己的私人医生。DoctorGPT 是 Meta 的Llama2 70 亿参数大型语言模型的一个版本,它在医疗对话数据集上进行了微调,然后使用强化学习和宪法人工智能进一步改进。 由于该模型的大小只有 3 GB,因此它适合任何本地设备,因此无需支付 API 即可使用它。它是免费的,专为离线使用而设计,可以保护患者的隐私,并且可以在 iOS、Android 和 Web 上使用。鼓励对功能添加和改进提出请求。 为了训练模型,可以在本地运行 Training.ipynb ,也可以通过 Google C...