山东省建设厅招标网站,可以自己画设计图的app,外包合同究竟能不能签,本地生活网原文#xff1a;towardsdatascience.com/please-make-this-ai-less-accurate-47c4f1b0356a 准确性是那些每个人直觉上认为他们理解#xff0c;并且大多数人认为越高越好的词语之一。 随着对人工智能#xff08;AI#xff09;的关注增加以及人们对输出可靠性或准确性失误的…原文towardsdatascience.com/please-make-this-ai-less-accurate-47c4f1b0356a准确性是那些每个人直觉上认为他们理解并且大多数人认为越高越好的词语之一。随着对人工智能AI的关注增加以及人们对输出可靠性或准确性失误的日益关注更多的人了解数据产品如 AI不遵循其他技术的一致性或准确性规则是很重要的。混淆矩阵为了说明让我介绍“混淆矩阵”的概念。这对于任何为分类目的构建预测模型的数据科学家来说都非常熟悉。这可能对其他人来说是新的但我发现这个概念、方法和涉及的人机/商业互动是了解机器学习中更广泛的准确术语的有用案例研究。这是一个有助于理解这些术语的细微差别和权衡的有用视觉工具。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e0122f657713c58df41aa20c6d51275c.png作者提供的混淆矩阵模板当我们谈论总准确率时我们指的是所有预测中正确的预测数量上方绿色方框的总和除以所有总预测数量上方四个方框的总和。因此这就是你可能听到像“我们的怀孕测试准确率为 99%”这样的术语的地方。它是在谈论所有测试预测的准确性无论是说用户怀孕还是不怀孕。当你试图了解“不准确”的百分比位于剩下的两个红色方框中的哪一个时细微差别就会出现。对于罕见事件你可以通过预测该事件永远不会发生不需要模型来达到非常高的准确率。然而对于不同的模型和用例不准确相关的成本或风险并不相等或不一致。简而言之一个准确率较低的模型可能是有意为之因为你希望减少在某个方向或另一个方向上误预测的频率。在这样做的时候你必须选择在整体模型准确率上做出妥协。预测或分类某人是怀孕的然后出错或者反过来哪个风险更大当某人确实患有癌症时诊断他们没有癌症是否更危险将某事物标记为仇恨言论并将其从平台上删除或者不这样做哪个更有害在这些例子中有些有明显的答案而在其他例子中你会发现两个人意见不一致。这表明了在处理不准确预测时所涉及的赌注以及决策的复杂性都存在一个范围。对某人的错误可能是对另一个人的特性。聊天机器人和 LLMs要从相对简单的分类模型案例转变目前广泛讨论的是大型语言模型LLM输出中的“幻觉”。对于一些用户来说这些幻觉被认为是如此严重以至于他们已经停止使用这些工具担心无法识别的幻觉。然而一些专家声称这些是 AI 设计的一部分。这篇文章在《科学美国人》中强调聊天机器人被开发和训练来响应即使他们的响应不准确他们也在做他们被训练去做的事情。不幸的是对于没有预料到的用户来说他们通常会像给出正确答案一样自信地给出错误答案。就像他们试图复制的那些人一样。多亏了 ChatGPT 迅速成为主流应用的普及LLM 的例子在公共讨论中得到了展现而许多其他模型类型并没有这样的机会。大众没有同样的机会熟悉准确或不准确预测的各种现实也没有机会讨论它们的利弊。当然这并不意味着它们不存在。权衡在构建、部署或实际上使用人工智能或模型输出时最重要的理解是“它试图实现什么”。只有通过理解目标我们才能构建出能够提高我们负责任地实现这些目标的能力而不依赖于技术。同样只有理解用例背后的决策用户才能负责任地与输出互动。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8480ed5a6f558428b2fd0d53c7bce0b7.png小心你所说的话图像由作者创建每个模型或 AI 实例下面都是一个数据优化问题。根据你的数据构成在某些情况下你可以构建出极其精确的模型这些模型会给你你优化方向上的精确结果。Meta 和 Google 广泛采用的这一例子是自动广告投放技术。在设置活动时你要求一个特定的转化或结果。如果你选择点击那么你将得到点击。这些点击可能不会转化为对你业务有价值的成果在某些情况下甚至可能包括一些机器人但这是你要求模型为你提供这些时所承担的风险。推荐引擎是我们经常与之互动的另一个非常常见的模型。无论是通过亚马逊的“类似你的客户”Tiktok 的内容算法还是 Netflix 的主页我们在许多日常互动中都被机器认为我们“想要看到”的内容所服务。但这真的是我们想要的吗还是这符合公司的目标在亚马逊的情况下他们希望我们购买理想情况下购买比替代品利润更高的东西。Tiktok 希望屏幕上的眼睛尽可能长时间地注视这样他们就可以通过在内容之间投放广告来货币化这些眼睛。Netflix 希望我们快速找到我们愿意观看并且更好的是连续观看的东西这样我们就会留在他们的平台上并选择他们来满足我们更多的观看需求。所有推荐引擎都有不同的目标行为这些行为符合业务需求即使这与客户的需求有关。回到混淆矩阵当数据科学家或机器学习工程师审查不同模型的混淆矩阵时他们需要牢记模型的客观目标。我们试图实现什么好的样子是什么如我之前提到的人们发现准确性的概念是直观的。这可能是一个负面影响因为这意味着他们带来了自己的假设。例如如果某物的准确性低于 50%我经常听到“这比掷硬币还糟糕”。表面上看这是真的。但如果我们由于事件罕见或不平衡如果我们随机猜测我们实际上是从 1%或更少的基线准确率开始的呢那么 10%的准确率已经是 10 倍提高了。我们需要从相对角度以及改进和价值增加与没有模型或我们之前的模型的角度来考虑准确性。接下来我们需要决定我们希望我们的错误预测落在何处——考虑到我之前提到的风险和成本。这是一个决定假阳性是否比假阴性更好或更糟的决定。真阳性率也被称为模型的灵敏度。最大化这一点就是最小化假阴性也称为 II 型错误并增加我们预测的“命中率”或检测概率。我们的模型越敏感我们错误地说它不存在/错过实际存在的东西的可能性就越小。真阴性率也被称为模型的特异性。最大化这一点就是最小化假阳性也称为 I 型错误并增加我们对预测的选择性。我们的模型越具体我们错误地说某物存在而实际上不存在的情况就越少但我们错过实际存在的东西的可能性就越大。那么呢不论是由数据科学家主动完成还是由缺乏经验的数据科学家因疏忽而完成或者是由 AI 自动完成这都是精度优化背后正在发生的事情。它不能为所有人做所有事情所以它回到了它被构建来做什么以及成功是如何定义的。听到一个关于 AI 实例的一个统计数据评估并不能告诉你全部的故事。上下文绝对至关重要不仅仅是你的感知还有设计者的感知。如果你不知道决策是如何做出的更高的准确率并不一定意味着更好。理解我们的数据和 AI 产品实际上是如何满足我们的商业战略的这是释放其价值的关键。如果这对你或你的领导团队需要帮助那么请查看我在kate-minogue.com上的服务。通过对人员、战略和数据独特的综合关注我可以在一系列咨询和顾问活动中提供支持以增强你在商业、数据和执行挑战和机遇方面的战略实施。在这里或在我的LinkedIn上关注我了解更多信息。