分类 artificial intelligence 下的文档

🐪如何用 PPO 微调 LLM 作为 Agent

2025年10月03日 · 智能体 · 17 分钟阅读

使用 PPO（Proximal Policy Optimization）微调大语言模型（LLM）作为智能体（Agent），适用于任务型对话、工具调用、自主规划等场景。我们将结合 Hugging Face Transformers + TRL（Transformer Reinforcement Learning）库 + 自定义环境，以一个简化但完整的例子说明整个流程。🎯 目标场景示例任务：让 LLM...

📘 LangChain 速查手册（2024）

2025年10月01日 · Large language Model · 22 分钟阅读

✅ 基于 LangChain 0.2+（2024 年主流版本） 📌 导入惯例：from langchain import ... 或 from langchain_core import ...🧱 一、核心概念概念说明LLM大语言模型接口（如 OpenAI、Anthropic、Ollama）ChatModel支持对话格式的模型（messages 输入）PromptTemplate构建结构化提示词C...

扩散模型的基本原理

2025年09月18日 · artificial intelligence · 21 分钟阅读

扩散模型的核心数学公式揭示了其从噪声中生成数据的机制，这些公式构成了DDPM（去噪扩散概率模型）的基础理论框架。扩散模型通过前向扩散过程逐步添加噪声，再通过反向去噪过程学习逆转这一过程，最终实现高质量的数据生成。这些公式不仅展示了扩散模型的数学严谨性，也解释了为何它能够稳定训练并生成逼真样本。一、前向扩散过程公式前向扩散过程是扩散模型的基础，它通过T个时间步逐步向原始数据添加高斯噪声，直到最终得到...

A Research Review of Transfer Learning: Paradigms, Applications, and Frontiers

2025年09月18日 · artificial intelligence · 198 分钟阅读

Section 1: Introduction to the Transfer Learning Paradigm1.1 The Core Imperative: Overcoming Data and Computational BottlenecksModern machine learning, particularly in the realm of deep learning, is c...

Dify本地知识库搭建入门教程

2025年09月18日 · 智能体 · 14 分钟阅读

基础配置配置文件示例def detailed_env_config(): """ 详细的环境变量配置示例 """ print("\n=== 详细环境变量配置示例 ===\n") env_example = """ ### PostgreSQL配置 POSTGRES_HOST=db POST...

分类 "artificial intelligence" 下的文章