行业新闻

Yao Shunyu提到的“下半场”仍然被误解了

作者: bet356体育官方网站   点击次数:    发布时间: 2025-06-04 13:17

不久前,Operaie Yao Shunyu研究人员出版了一个博客,介绍了“ AI的后半部分”主题。 “接下来,AI方法将从解决问题到问题的定义。在这个新时代,评估的重要性超出了培训。我们需要重新考虑如何训练AI并衡量进度。观点是如此有见地,以至于该博客吸引了许多专业人员。对于Shunyu的博客而言,对于Shunyu的博客而言,这是一个快速效应的方法。当系统效果是否更重要,更重要的是,它更重要,这是什么重要的,这是什么是重要的。不返回上下文,或者无法处理复杂的指令(或在某些冲突的情况下)EDE快速重写单词,更新搜索组件并在不同的模型之间进行更改。最困难的链接。这与随机含义判断不同。我们需要量化实验更改是否真的有效。精确度增加了吗?缺陷减少了吗?新版本可以通过比较测试改善性能吗?任何无法量化的改进根本都不是改进。如果实验成功,将应用更新。如果故障成功,将加深误差,并将再次纠正假设。在此周期中,产品评估将提高产品的进度,减少缺陷并获得用户的信心。 DataFlyWheel。将科学方法应用于AI产品的开发。基于评估的开发(EDD)可帮助您创建更好的AI产品。这类似于基于测试的测试:首先创建一个测试用例,然后实现可以批准测试的代码。 EDD遵守相同的哲学。在发展AI能力之前,请通过对Guara的产品评估来定义成功标准NTEE明确和度量目标可以从第一天开始衡量。告诉我秘密:自动学习团队已经这样做了数十年。我们总是根据验证和证明集构建模型系统,但是语句是不同的。在EDD中,评估指导开发说明。首先评估基线(简单的快速单词)以获取参考数据。之后,必须评估所有快速单词调整,系统更新和迭代。简化快速单词可以提高精度吗?搜索更新是否会增加相关文档的恢复率?还是效果恶化? EDD对客户瞬间且友好,因此我可以看到他们有哪些改进。省视觉反馈。这个“写作评估周期 - 变更 - 评估 - 实施集成改进”保证了可衡量的进度。我们确定的是源于软件工程实践的封闭反馈回路,而不是模棱两可的直觉判断。第一的,编写评估标准,然后创建一个允许您批准评估的系统。自动评估工具(LLM-AS-JEWISH)不能与手动监督分开。自动评估可以扩大监测范围,但无法弥补人类的过失。如果您不积极检查AI和评论用户的输出,则无论自动评估工具的数量如何,产品都不会保存。评估和监视AI产品通常需要取样输出和标记的缺陷。通过具有足够质量标记的数据,可以对自动化评估工具进行调整,从而与人类的判断相吻合。这包括测量二进制标签的存储器/精度或通过同伴比较确定输出之间的相关性。校准评估工具可以有效地扩展AI系统的连续监视功能。但是,自动评估工具无法替代手动监督。数据应进行采样并t定期搅动以分析用户反馈。理想情况下,您必须设计一个可以通过USUARIO的互动来获得隐式评论的产品。但是,明确的反馈并不是那么频繁,有时没有偏见,但值得。此外,自动化评估工具非常可扩展,但不是完美的。但是人类标记也犯了错误。在我们继续收集高质量标签数据的同时,我们可以更好地修改这些工具。维护“数据采样 - 输出注释 - 工具的优化”反馈电路需要严格的组织学科。自动评估工具本质上是手动注释和反馈过程的放大器。用AI建造产品是不可思议的,但仍然需要大量的努力。如果您的设备不应用科学方法,则将练习基于评估并监视系统输出,您将购买或配置其他评估工具。即使在构建后也不会保留产品。原始链接:https://eugeneyan.com/writing/eval-process/