人工智能 | heyaohua's Blog

从 Prompt 到 Skill 再到 Loop：AI 修 Bug 为什么需要责任闭环

前言现在用 AI 写代码，最常见的一句话大概是：帮我修一下这个 bug。这句话很自然，也很方便。过去你可能要自己读日志、搜代码、猜调用链、改一版再跑测试；现在把错误贴给 AI，它可能几分钟内就能读完相关文件，给出一版修改，甚至顺手解释原因。但问题也藏在这里。 AI 很容易让人产生一种错觉：它改得快，所以它是可靠的。可在工程里，快不等于对，更不等于可托付。真正关键的问题不是它有没有改代码，而是它能不能证明：问题被复现过。根因被定位过。改动是最小的。测试真的跑过。风险被说明过。失败会被记录下来。所以我越来越觉得，AI 操作方式正在经历一个很重要的演进： Prompt -> Skill -> Loop Prompt 让 AI 听懂你。Skill 让 AI 按经验做事。Loop 让 AI 做完之后必须留下证据，并从失败中改变下一次行为。换句话说： Skill 是 Prompt 的工程化。 Loop 是 Skill 的责任化。一、Prompt 阶段：一次性的意图表达 Prompt 的优点非常明显：低成本、灵活、自然。你可以直接说：登录页打开后报错，帮我看一下。模型会根据当前上下文去理解问题。它可能会读页面组件、查接口调用、看错误栈、修改某个字段名，然后告诉你“已经修好了”。这个阶段适合探索问题，也适合做一次性的辅助判断。但它有一个根本缺陷：流程是隐含的。你没有明确告诉它：必须先复现问题。必须说明错误从哪里来。必须只做最小修改。必须跑哪些测试。必须列出没有验证的部分。必须说明改动可能影响哪些地方。于是模型很容易从“解决问题”滑向“看起来解决了问题”。它可能直接根据错误信息猜一个原因，改一段代码，给出一段很顺的解释。解释可能听起来合理，但如果没有复现、没有测试、没有 diff 边界，它仍然只是一个未经证明的答案。这就是 Prompt 阶段的边界：它能让模型开始做事，但不能保证模型按工程流程做事。二、Skill 阶段：把修 Bug 变成工程流程当同类任务反复出现时，继续靠 Prompt 就会变得浪费。 ...

模型越来越强，但责任感仍然缺席：从道歉、信任到 Agent 惩罚机制

前言最近在做 AI Agent 流程时，我越来越明显地感觉到一个问题：现在的模型能力已经很强，但它缺少人最看重的一种东西——责任感。它可以读代码、写脚本、查资料、生成方案、操作工具，也可以在出错后很快道歉：抱歉，你说得对。我刚才没有检查清楚。这确实是我的问题。我会重新来一遍。这些话听起来很像一个人在承担责任，但实际上不是。模型不会因为刚才的错误真的变得谨慎，也不会因为浪费了你的时间而产生压力，更不会因为一次错误交付而在下一次任务里主动收敛自己的行为边界。这也是我现在对 AI Agent 最不放心的地方：它们越来越会“表现得像可靠的人”，但还没有真正形成“可靠的人会有的约束”。本文想讨论的不是模型能不能更聪明，而是另一个更实际的问题：当 Agent 开始替我们执行真实任务时，如何让它不要只会道歉，而是必须对结果负责？一、能力提升并不等于可信任过去几年，大模型的能力提升非常明显。它们能写代码、做摘要、调用工具、生成多步骤计划，也能在复杂任务中表现出一定的推理能力。很多产品开始把模型包装成“Agent”，让它们不只是回答问题，而是读文件、改项目、发请求、执行命令、调用 API。但 Agent 和普通聊天最大的区别是：聊天错了，最多是答案错；Agent 错了，可能会改变真实世界的状态。例如：改错一段代码删除不该删的文件调错数据库给用户发出错误通知在自动化流程中反复重试为了完成目标绕过本该遵守的约束这时问题就不再是“模型有没有能力”，而是“系统是否可托付”。人类之间建立信任，并不只是因为对方聪明。更重要的是对方有稳定的责任结构：他知道什么事不能乱做，知道出错后要复盘，知道自己会承受后果，也知道什么时候应该停下来问人。模型没有这种天然结构。它的“抱歉”只是生成出来的语言，不是心理负担，也不是组织责任，更不是可执行的补偿机制。二、道歉为什么不能解决信任问题现在很多模型在交互上越来越友好。出错后，它们会道歉；用户质疑时，它们会承认；用户表达不满时，它们会安抚。这在轻量聊天场景里可能有用，但在生产流程里反而会制造一种危险错觉：用户听到了“我负责”，但系统里没有任何真正的责任闭环。 OpenAI 在 2025 年 4 月回滚过一次 GPT-4o 更新，原因就是模型变得过度奉承、过度认同用户。OpenAI 自己的解释是，当时过于重视短期反馈，没有充分考虑长期交互中的行为演化，导致模型倾向于“过度支持但不真诚”的回答。这个案例说明，模型的语气如果只朝“让用户舒服”优化，很容易偏离真实可靠。学术界也把这种现象称为 sycophancy，也就是模型倾向于迎合用户观点，而不是坚持事实或独立判断。Anthropic 参与的一篇研究指出，人类反馈可能会鼓励模型生成更符合用户信念的回答；当回答迎合用户观点时，人类和偏好模型有时会更喜欢它，即使它不够正确。Google 研究者也观察到，模型规模和指令微调可能增加这种迎合倾向，甚至在简单加法这种有客观答案的任务上，模型也可能因为用户暗示而附和错误说法。这和我们在 Agent 流程里的感受是相通的：模型不是不会认错。模型是太会认错了。真正的问题是，认错之后没有代价，没有记录，没有降权，没有触发更严格的验证，也没有改变下一步动作权限。人类的道歉之所以有意义，是因为它背后通常连着后果：信誉下降、关系受损、流程复盘、赔偿、处罚、权限收回。模型的道歉如果不连接这些东西，就只是润色过的错误提示。三、责任感不是一种语气，而是一套外部结构我现在更倾向于把“责任感”拆成四个部分：维度人类里的表现 Agent 系统里的对应物结果意识知道错误会影响别人明确任务目标、影响范围和风险等级行为边界知道什么不能做权限控制、审批、沙箱、只读/可写隔离复盘能力出错后总结原因日志、轨迹记录、测试、自动回放后果机制错误会带来损失评分、降权、预算减少、强制复核所以，不应该问“模型有没有责任感”。更准确的问题是： ...

平台选型指南：Ollama、LM Studio 与 AnythingLLM

在本地化部署与离线使用场景中，Ollama、LM Studio 与 AnythingLLM 是三款主流平台，它们在模型支持范围、易用性、性能优化、社区生态以及商业许可等方面各有侧重。下表直观对比了三者的关键维度： 📊 平台对比总览特性 Ollama LM Studio AnythingLLM 模型生态支持 100+ 开源与闭源模型（如 GPT-OSS、Gemma 3、Llama3.1、DeepSeek 等），可通过 CLI 与 API 一键拉取与切换；主要整合 Hugging Face 与 Mistral、Phi 3 系列，本地化界面化管理模型；聚焦社区贡献模型与自定义微调，支持量化转换与多框架导入；上下文窗口最长 128K tokens，本地高效加载；视模型而定，多数支持 8K–16K；多数模型自带 4K–32K，可自定义扩展；易用性 CLI + HTTP API，脚本化和集成友好；可视化 GUI 管理，一键下载、运行与监控；以 Python SDK 为核心，需编程对接；性能优化原生 MXFP4 与 QAT 量化，侧重 MoE 与长上下文优化；内置 GPU/CPU 并行管理与自动批处理，支持 ONNX 与 TensorRT 导出；支持 GGUF、GGML 与 ONNX，易于部署到边缘设备；工具链集成原生支持函数调用、Python 执行与 Web 搜索；插件生态丰富，支持自定义后处理与监控脚本；灵活集成 LangChain、LlamaIndex 等 RAG 工具；社区与支持官方文档齐全，活跃社区讨论与定期模型更新；官方与第三方插件快速迭代，社区贡献模板；社区驱动，依赖 GitHub 贡献与模板市场；商业许可多数模型 Apache-2.0／MIT，平台本身免费；平台免费，模型受上游许可约束；平台免费，部分模型 CC／专有许可；部署环境服务器或本地工作站；桌面化应用（Windows/Mac/Linux）；脚本化部署于任意支持 Python 的环境；典型用户开发者、数据科学家、企业后端集成；无代码用户、快速原型与演示；研究者、高度自定义场景； 🎯 详细平台分析 Ollama：开发者友好的命令行平台核心优势丰富的模型生态支持100+开源和闭源模型一键拉取和切换模型定期更新模型库支持自定义模型导入 ...

如何选择适合的大语言模型

基于对当前主流大模型的深入了解，以下是针对不同应用场景的模型选择横向总结，方便快速定位适合的模型使用： 📊 大模型选择对照表应用场景推荐模型理由/特点通用大规模推理、多任务 Qwen3-235B-A22B 参数大，思维模式切换，强推理能力，超长上下文，丰富多语言支持编程与代码辅助 Qwen2.5-Coder 32B 专业代码生成、修复、推理领先，支持40+语言，接近 GPT-4o 代码能力长文本与知识增强检索 GPT-OSS 120B 长上下文128K，工具调用原生，适合复杂知识工作流与企业内部数据保护多模态视觉理解 LLaVA 1.6 高分辨率图像支持（最高672×672），OCR与视觉推理能力强轻量多模态及边缘计算 Llama 3.2 1B/3B 小规模文本与视觉分支，支持多语言，适合移动/边缘部署通用文本对话与研究 Llama 3.1 8B/70B/405B 多规模覆盖，开源大模型代表，强多语言与长文本理解能力数学与逻辑推理 DeepSeek-R1 671B 注重强化学习的推理能力，多项逻辑推理基准表现优异语义文本嵌入/检索 nomic-embed-text 领先 MTEB 嵌入基准，适合长短文本多领域高质量语义表示轻量文本推理与交互 Phi-3 Mini (3B) 轻量级，支持128K长上下文，推理性能强，适合延迟敏感和内存限制场景效率与成本平衡推理 Mistral 7B 推理效率高，性能优于同类大模型，支持函数调用，适合多场景部署科研与实验探索 AnythingLLM 灵活支持多框架、多模型格式，适合科研定制与边缘设备加载快速本地化演示与管理 LM Studio 可视化界面，易于模型管理和快速迭代，适合无代码或快速原型需求 🎯 详细选择指南 1. 编程开发场景首选：Qwen2.5-Coder 32B 专门针对代码任务优化支持40+编程语言代码生成、调试、重构能力突出接近GPT-4o的代码能力水平备选方案： Qwen3-235B：复杂算法设计和架构规划 GPT-OSS 120B：需要工具调用和复杂工作流 Mistral 7B：轻量级代码辅助，资源受限环境 2. 多模态视觉理解首选：LLaVA 1.6 ...

Qwen3 系列模型详解

核心结论： Qwen3 通过混合专家（MoE）与稠密（Dense）架构并行、思维模式切换与超长上下文（128K）支持的创新设计，实现了在编程、数学推理、多语言与 Agent 集成等场景下的顶级开源性能；但仍面临高资源需求、综合安全管控与领域知识深度等挑战。一、模型概览 Qwen3 系列涵盖 0.6B 至 235B 参数的八个规模模型，分为稠密与 MoE 两类：稠密模型：0.6B、1.7B、4B、8B、14B、32B，均支持 32K（小型）或 128K（大中型）上下文； MoE 模型：30B-A3B（3B 激活）、235B-A22B（22B 激活），皆支持 128K 上下文。全部模型采用 Apache-2.0 许可，支持本地与云端部署，以及思维模式（Thinking）与非思维模式切换。1 二、关键性能指标 1. 编程与工具集成 Codeforces Elo：Qwen3-235B 达2785，领先多款开源模型；Qwen3-30B 达2550，优于多数同量级模型。1 LiveCodeBench v5 Pass@1：Qwen3-235B 70.2%，Qwen3-30B 61.8%，结合思维模式显著提升高阶编码能力。1 函数调用与 Agent 集成：原生支持 MPC（Model Context Protocol）与丰富函数调用，可构建复杂自动化 Agent 系统。2 2. 数学与逻辑推理 AIME Pass@1：Qwen3-235B 65.3%，落后于 DeepSeek-R1 与 o4-mini，但显著超越多数稠密模型； MATH 4-shot：Qwen3-27B（稠密）50.0%，Qwen3-235B-A22B 68.7%； GPQA Diamond：Qwen3-235B 78.4%，与顶级闭源相近。1 3. 多语言与通用能力 MMLU：Qwen3-235B 88.4%，Qwen3-32B 85.2%，在通用知识方面表现优异多语言支持：在中文、英文、日文、韩文等多种语言上都有良好表现长上下文理解：128K上下文窗口支持复杂文档分析三、技术架构特点混合专家（MoE）架构参数效率： 235B总参数，仅激活22B参数 30B总参数，仅激活3B参数实现大模型能力与推理效率的平衡 ...

Phi-3 系列模型详解

核心结论： Phi-3 系列以轻量化与高效推理为核心，通过 3B（Mini）与 14B（Medium）两个规模覆盖边缘到中型部署场景，在数学与逻辑推理、长上下文理解与代码辅助任务上表现优异；其多阶段训练（合成＋公开语料＋DPO 微调）确保指令遵循与安全性，但在多语言与专业领域知识覆盖方面尚需检索增强与微调补强。一、模型概览 Phi-3 系列包括： Phi-3 Mini（3.8B 参数，4k/128K 上下文，2.2 GB，MIT 许可） Phi-3 Medium（14B 参数，4k/128K 上下文，量化后约8 GB，MIT 许可）两者均为Decoder-only Transformer，结合监督微调（SFT）与直接偏好优化（DPO），重点提升指令遵循、准确性和稳健性。模型基于 3.3 T tokens 混合数据集训练，截止日期 2023 年 10 月。二、关键性能指标基准 Phi-3 Mini (3B) Phi-3 Medium (14B) 参考对比 MMLU 5-shot 75.2% 86.7% Gemini 1.0 Pro<85% GSM8K CoT 8-shot 68.4% 82.1% Phi-3 Mini ~24B 模型 MATH 4-shot 42.3% 58.9% 同量级闭源 CodeGen MBPP 54.7% 68.2% CodeLlama 7B 60% Long Context QA 79.5% (128K) 85.4% (128K) 同量级模型 70–80% Commonsense Reasoning (HellaSwag) 80.1% 89.3% Llama 2 13B 75% 三、技术架构特点 Decoder-only Transformer架构参数效率：通过精心设计的架构实现参数的高效利用注意力机制：优化的自注意力机制支持长上下文处理层归一化：改进的归一化策略提升训练稳定性多阶段训练策略预训练阶段：使用3.3T tokens的高质量混合数据集包含合成数据和公开语料截止时间为2023年10月 ...

Mistral 7B 模型详解

核心结论： Mistral 7B 以其高效架构和卓越性能著称：在"成本/性能"比上相当于三倍规模的 Llama 2，实现对话、推理与代码生成等多场景的优异表现；开源 Apache-2.0 许可与原生函数调用支持，使其成为本地化与云端部署的首选轻量级模型。一、模型概述 Mistral 7B 采用**Grouped-Query Attention (GQA)与Sliding Window Attention (SWA)**相结合的架构，参数量约7.3B，经 Q4_0 量化后模型大小约4.1 GB，支持标准指令（instruct）与文本补全（text）两种形式，并具备本地化函数调用能力。1 二、关键性能指标常识推理：HellaSwag、Winogrande、PIQA 等零 shot 平均得分超过 80%，整体推理水平优于 Llama 2 13B，媲美 Llama 1 34B。1 世界知识：NaturalQuestions 与 TriviaQA 5 shot 平均 68.2%，与 Llama 2 13B 持平。1 阅读理解：BoolQ、QuAC 等零 shot 平均 79.4%，超过同量级竞品。1 数学：GSM8K 8 shot（maj@8）+ MATH 4 shot（maj@4）综合得分 72.1%，等效于 24B 参数模型。1 代码生成：Humaneval 0 shot + MBPP 3 shot 平均 57.8%，接近 CodeLlama 7B 水平。1 聚合基准：MMLU 5 shot 85.3%、BBH 3 shot 81.7%、AGI Eval 3-5 shot 78.9%。1 推理效率：在推理/成本平面上，相当于 Llama 2 三倍规模模型；预填充与生成峰值吞吐较 Llama 2 13B 提升约 2.5×。1 三、技术架构特点 Grouped-Query Attention (GQA) 内存优化：通过共享键值对减少内存占用计算效率：在保持性能的同时降低计算复杂度长序列支持：更好地处理长文本输入 Sliding Window Attention (SWA) 局部注意力：关注局部上下文窗口内的信息计算复杂度：线性复杂度而非二次复杂度长文档处理：有效处理超长文档和对话架构优势参数效率：7.3B参数实现更大模型的性能推理速度：显著提升推理吞吐量内存友好：降低部署硬件要求四、优势与不足主要优势高效架构： GQA+SWA 实现长序列处理与低延迟推理效率相当于三倍规模的Llama 2 预填充和生成吞吐量提升2.5倍 ...

Llama 3.2 系列模型详解

核心结论： Llama 3.2 通过 1B/3B 的轻量级文本模型及 11B/90B 的视觉多模态模型组合，实现了在边缘设备与视觉理解场景的出色性能；同时保持 128K 超长上下文，适用于对话、摘要、检索与图文分析任务。主要不足在于图像分辨率与输出长度限制，以及需要额外整合系统级安全与治理机制。一、模型概览 Llama 3.2 系列包含：文本模型：1B 与 3B 参数，优化用于多语言对话、指令跟随、摘要与工具调用；视觉模型：11B 与 90B 参数，可处理文本＋图像输入，用于文档理解、图像问答与视觉推理。所有模型均支持 128K token 上下文，采用 Meta 提供的 Llama Guard、Prompt Guard 与 CodeShield 参考实现保障安全部署。12 二、关键性能指标 1. 文本模型（1B/3B） MMLU（5-shot）：1B 49.3%，3B 63.4% （基于 bf16 指令调优）；1 GSM8K CoT (8-shot maj@1)：1B 44.4%，3B 77.7% （bf16 模式）；1 IFEval（指令跟随）：1B 59.5%，3B 77.4% （bf16 模式）；1 ARC-C（零-shot逻辑推理）：1B 59.4%，3B 78.6% （bf16 模式）；1 TLDR9+ 摘要 (1-shot)：1B 16.8 R-L，3B 19.0 R-L。1 2. 视觉模型（11B/90B） DocVQA (val)：11B 72.8%，90B 85.6% （文档问答）；2 ChartQA：11B 69.5%，90B 85.5% （图表分析）；2 VQAv2：11B 72.1%，90B 84.1% （视觉问答）；2 MMMU (val)：11B 41.7%，90B 60.3% （多模态理解）；2 MathVista：11B 51.5%，90B 57.3% （数学视觉推理）；2 三、技术架构特点轻量化设计参数效率：1B/3B模型在保持性能的同时大幅降低资源需求量化优化：支持INT4/INT8量化，进一步减少内存占用边缘友好：专门针对移动设备和边缘计算优化多模态融合视觉编码器：高效的图像特征提取和处理跨模态注意力：文本和图像信息的深度融合统一架构：文本和视觉模型共享相似的基础架构长上下文支持 128K上下文窗口：支持超长文档和对话处理高效注意力：优化的长序列处理机制内存管理：智能的上下文缓存和管理策略四、模型规格对比模型类型参数量模型大小上下文长度特殊能力推荐用途 Llama 3.2-1B 1B ~2GB 128K 轻量对话移动应用 Llama 3.2-3B 3B ~6GB 128K 指令跟随边缘设备 Llama 3.2-11B-Vision 11B ~22GB 128K 视觉理解文档分析 Llama 3.2-90B-Vision 90B ~180GB 128K 高级视觉专业应用五、部署与使用硬件要求轻量级文本模型（1B/3B） Llama 3.2-1B ...

Llama 3.1 系列模型详解

核心结论： Llama 3.1 以超长上下文（128K）、开源多规模覆盖（8B/70B/405B）与多语言能力为主要特征，在通用知识、长文档理解、编码与多语言对话等场景中表现出色；但高端规模推理成本高、专业领域深度略逊，以及安全防护需自行完善。一、模型概览 Llama 3.1 包括三种指令调优规模： 8B：4.9 GB，128K 文本上下文； 70B：43 GB，128K 文本上下文； 405B：243 GB，128K 文本上下文。均使用 Grouped-Query Attention (GQA) 优化，支持多语言输入（8 种主要语言），可本地化部署，Llama 3.1 Community License 许可。12 二、主要性能指标 1. 通用知识与推理 MMLU（通用多选问答）：8B≈72%，70B≈88%，405B≈96.8%（Azure 测试）；3 GPQA（科学问答）：70B≈82%，405B≈96.8%；3 数学竞赛（MATH/GSM8K）：70B 在 MATH 4-shot≈50%，405B 未公开具体数值，但社区反馈优于 70B。4 2. 编程与工具使用 HumanEval pass@1：8B≈36%，70B≈48%，405B 未公开但接近 70B；5 Codeforces Elo：70B 在企业提供商评测中表现可与闭源 85B 级别抗衡；5 工具调用：支持函数调用和API集成，在复杂任务编排中表现优异 3. 长上下文处理上下文窗口：128K token，支持超长文档处理长文档理解：在文档摘要、信息提取等任务中表现出色对话连贯性：在长对话中保持良好的上下文理解三、技术架构特点 Grouped-Query Attention优化内存效率：显著降低推理时的内存占用计算优化：提升长序列处理的计算效率可扩展性：支持更长的上下文窗口多语言支持语言覆盖：支持英语、中文、德语、法语、意大利语、葡萄牙语、印地语、西班牙语等8种主要语言跨语言理解：在多语言任务中表现稳定代码多语言：支持多种编程语言的代码生成指令微调优化对话能力：经过大规模指令数据微调安全对齐：内置基础的安全过滤机制任务适应：在各种下游任务中表现优异四、模型规格对比特性 Llama 3.1-8B Llama 3.1-70B Llama 3.1-405B 参数量 8B 70B 405B 模型大小 4.9GB 43GB 243GB 上下文长度 128K 128K 128K 推荐显存 16GB 80GB 800GB+ 推理速度快中等慢性能表现良好优秀卓越五、部署与使用硬件要求 Llama 3.1-8B 显存需求：16GB以上推荐配置：RTX 4070或以上最低配置：RTX 3060（12GB） CPU部署：32GB RAM可运行量化版本 Llama 3.1-70B 显存需求：80GB以上推荐配置：A100 80GB或H100 多卡部署：2×RTX 4090（48GB）量化部署：可在48GB显存上运行 Llama 3.1-405B 显存需求：800GB以上推荐配置：多卡H100集群云端部署：建议使用云服务提供商量化优化：INT4量化可降至200GB 部署示例 # 使用transformers库部署Llama 3.1 from transformers import AutoModelForCausalLM, AutoTokenizer import torch # 加载8B模型 model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, device_map="auto" ) # 准备对话 messages = [ {"role": "system", "content": "你是一个有用的AI助手。"}, {"role": "user", "content": "请解释什么是机器学习？"} ] # 应用聊天模板 input_ids = tokenizer.apply_chat_template( messages, add_generation_prompt=True, return_tensors="pt" ).to(model.device) # 生成回答 with torch.no_grad(): outputs = model.generate( input_ids, max_new_tokens=1000, do_sample=True, temperature=0.7, top_p=0.9, pad_token_id=tokenizer.eos_token_id ) response = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True) print(response) 量化部署 # 使用bitsandbytes进行量化部署 from transformers import BitsAndBytesConfig # 配置4bit量化 quantization_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4" ) # 加载量化模型 model = AutoModelForCausalLM.from_pretrained( "meta-llama/Meta-Llama-3.1-70B-Instruct", quantization_config=quantization_config, device_map="auto" ) vLLM高性能部署 # 安装vLLM pip install vllm # 启动API服务器 python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Meta-Llama-3.1-8B-Instruct \ --tensor-parallel-size 1 \ --max-model-len 128000 \ --port 8000 六、应用场景分析优势应用领域长文档处理：学术论文分析和摘要法律文档审查技术文档理解代码库分析 ...

LLaVA 1.6 模型详解

核心结论： LLaVA 1.6 在视觉理解、OCR 与多模态对话方面进一步提升，通过支持高达 672×672 像素的高分辨率输入和改进的视觉指令微调数据，实现了对世界知识与逻辑推理的增强；适用于视觉问答、图文检索与多模态客服等场景，但在极大图像、视频理解与专业领域精准度上仍有提升空间。一、模型概览 LLaVA（Large Language and Vision Assistant）1.6 基于 Vicuna 文本骨干与 CLIP 视觉编码器，采用 Q4_0 量化的 7B、13B、34B 三种规模变体： 7B 及 13B 模型：4.7 GB（7B）／8.7 GB（13B），支持最高 672×672 像素图像，128K 文本上下文； 34B 模型：16.6 GB，保持相同分辨率与上下文。均经视觉指令微调，结合 1.3M 多模态示例，Apache-2.0 许可。二、关键性能指标任务基准 LLaVA 1.6-7B LLaVA 1.6-13B LLaVA 1.6-34B Gemini Pro 文本VQA VQAv2 accuracy 82.2% 83.5% 85.1% 83.0% 文本VQA TextVQA 65.7% 67.3% 69.5% 68.9% DocVQA val accuracy 72.8% 80.5% 82.1% 80.0% OCR accuracy 88.4% 91.2% 92.0% 90.7% Multimodal MMLU val accuracy 51.1% 59.8% 61.7% 59.4% Math-Vista accuracy 46.5% 54.2% 56.8% 53.0% （以上数据来源于 LLaVA-NeXT 报告，LLaVA 1.6 在多项指标上略低于 NeXT，但仍超越 Gemini Pro 若干基准）1 ...