分类 artificial intelligence 下的文档

智能体

Agent速查手册

2025年10月05日 · 智能体 · 35 分钟阅读

一、Agent 的工作循环（Perception–Thinking–Action）几乎所有 Agent 框架都遵循同一个主循环：while not done: observe(state) think(plan or react) act(action) reflect(feedback)这与经典的认知科学模型如 Sense → Think → Act → Reflect 一致。现代 LLM-Ag...

Large language Model

deepseek原理笔记(1)

2025年10月05日 · Large language Model · 50 分钟阅读

deepseek原理综述🔢 核心思想：下一个词的预测大型语言模型的本质是一个概率模型。给定一个词序列（即上下文或提示），其根本任务是预测下一个最可能出现的词。基本设定：设有一个词序列(w_1, w_2, w_3, \dots, w_{t-1})，其中每个(w_i)来自一个庞大的词汇表 (V)。核心目标：计算在给定上文的情况下，下一个词 (w_t) 是词汇表中任意一个词的条件概率：$$ P(w_t ...

智能体

AI-Agent 技术学习提纲

2025年10月04日 · 智能体 · 50 分钟阅读

第一部分：AI-Agent 基础概念1.1 人工智能（AI）简介1.1.1 基本定义人工智能（Artificial Intelligence, AI）是指使计算机、机器等具备模仿人类智能的能力的学科。具体来说，它涉及到通过算法、数据和模型，使得机器能够执行智能任务，如感知、推理、学习、理解、决策等。AI的目标是使机器能够执行复杂的任务，而这些任务通常需要人类智慧才能完成。1.1.2 发展历史人工智...

智能体

🐪如何用 PPO 微调 LLM 作为 Agent

2025年10月03日 · 智能体 · 17 分钟阅读

使用 PPO（Proximal Policy Optimization）微调大语言模型（LLM）作为智能体（Agent），适用于任务型对话、工具调用、自主规划等场景。我们将结合 Hugging Face Transformers + TRL（Transformer Reinforcement Learning）库 + 自定义环境，以一个简化但完整的例子说明整个流程。🎯 目标场景示例任务：让 LLM...

Large language Model

📘 LangChain 速查手册（2024）

2025年10月01日 · Large language Model · 22 分钟阅读

✅ 基于 LangChain 0.2+（2024 年主流版本） 📌 导入惯例：from langchain import ... 或 from langchain_core import ...🧱 一、核心概念概念说明LLM大语言模型接口（如 OpenAI、Anthropic、Ollama）ChatModel支持对话格式的模型（messages 输入）PromptTemplate构建结构化提示词C...

分类 "artificial intelligence" 下的文章