正文
返回

从幻觉到硬件:一个现实世界计算机视觉项目偏离轨道的教训

发布:  at  03:05

源信息经过deepseek翻译并总结

摘要:

戴尔科技团队在计算机视觉项目中最初使用单一指令模型检测笔记本损伤,但遭遇幻觉、无效识别和准确率波动问题。尝试调整图像分辨率和多模态改造效果有限。最终采用智能体框架(调度/组件/过滤智能体)结合单一指令模型的混合方案,平衡了精度与覆盖率。关键经验包括:智能体框架的模块化优势、组合策略优于单一方案、抑制视觉模型幻觉、图像质量多样性的重要性及无效图像过滤机制的必要性。该项目证明技术组合可构建可靠解决方案。


以下为翻译后的简体中文Markdown内容(保留原始链接与格式):

从幻觉到硬件:一个失败计算机视觉项目的实战教训

Shruti Tiwari, 戴尔科技Vadiraj Kulkarni, 戴尔科技

2025年6月28日 中午12:05

VentureBeat/Midjourney


计算机视觉项目很少完全按计划进行,这次也不例外。我们的初衷很简单:构建一个能通过笔记本照片识别物理损伤的模型——比如屏幕裂纹、缺失按键或铰链损坏。这看似是图像模型和大语言模型的典型应用场景,但很快变得复杂起来。

过程中我们遇到了幻觉问题、不可靠输出,甚至出现了识别非笔记本图像的情况。最终我们采用了一种非常规的智能体框架——并非用于任务自动化,而是为了提升模型性能。

本文将完整复盘我们的尝试过程、失败经验,以及如何通过组合方案构建出可靠系统。

初始方案:单一指令模型

我们最初采用多模态模型的标准方案:通过单一大型指令将图像输入支持视觉的LLM,要求其识别可见损伤。这种单一指令策略实现简单,对于清晰定义的任务表现尚可。但现实数据往往不按常理出牌。

我们很快遇到三大问题:

此时我们意识到必须改进方案。

第一次改进:混合图像分辨率

我们发现图像质量显著影响模型输出。用户上传的图像从高清到模糊不一而足。这让我们开始关注相关研究——分辨率如何影响深度学习模型。

通过采用高低分辨率混合的训练测试集,模型的鲁棒性得到提升。但幻觉和无效图像问题依然存在。

多模态尝试:纯文本LLM的视觉化改造

受《The Batch》中图像描述生成技术的启发(通过生成图像描述再由语言模型解析),我们尝试了类似方案:

  1. LLM首先生成多个可能的图像描述
  2. 多模态嵌入模型(如SigLIP)评估描述与图像的匹配度
  3. 系统保留得分最高的几个描述
  4. LLM基于这些描述迭代优化生成新描述
  5. 循环直至描述不再改进或达到迭代上限

虽然理论上巧妙,但该方案带来了新问题:

这是个有趣的实验,但并非最终解决方案。

智能体框架的创造性应用

转折点出现在这里。虽然智能体框架通常用于协调任务流(如日程安排或客户服务),但我们尝试将其用于拆解图像解析任务:

  1. 调度智能体:检测图像并识别可见组件(屏幕/键盘/机身/接口)
  2. 组件智能体:专项检测特定损伤类型(如屏幕裂纹/缺失按键)
  3. 无效图像过滤智能体:专门识别非笔记本图像

这种模块化方案显著提升了精确性和可解释性:幻觉大幅减少,无效图像被可靠过滤,每个智能体的任务足够简单以保障质量。

局限性:智能体方案的代价

该方案仍存在两大缺陷:

我们需要平衡精度与覆盖率。

混合方案:结合智能体与单一指令模型

最终解决方案:

  1. 智能体框架优先执行,精确检测已知损伤和无效图像(控制智能体数量以优化延迟)
  2. 单一指令图像LLM扫描智能体可能遗漏的内容
  3. 针对性微调:对高频场景(如常见损伤)进行专项优化

这种组合兼具智能体的精确性、单一指令的广泛覆盖率,以及微调带来的置信度提升。

经验总结

结语

这个始于简单LLM指令的项目,最终演变为应对真实世界问题的多技术融合实验。我们发现某些工具的价值远超其设计初衷——本用于工作流管理的智能体框架,经过改造后成为提升系统精确性和可管理性的关键。通过创造性组合,我们构建出兼具准确性和实用性的解决方案。

Shruti Tiwari是戴尔科技AI产品经理

Vadiraj Kulkarni是戴尔科技数据科学家### 你所需的AI洞察指南

提交

感谢订阅。查看更多VB新闻简报请点击此处

发生错误。



上一篇
AI代理面临责任壁垒 Mixus计划通过高风险流程引入人类监督来突破
下一篇
身份盗窃案件达110万起——认证疲劳问题持续恶化