🐟 (@stevessr) 在 哈维律师事务所发布长期法律Agent测试基准 中发帖
我们推出 Harvey 的法律代理基准测试 (LAB),这是一个面向法律代理的开源基准测试。LAB 旨在评估和提升代理支持律师实际工作的能力。每个任务都包含一条指令、一个包含相关材料的客户案例,以及一项要求代理提交工作成果以供审核的条件。这种结构旨在模拟大型律师事务所的工作分配、执行和审核流程。
LAB 的目标是清晰地展现如何部署智能体来支持现实世界中的法律工作。通过阐明智能体可以完成全部、部分或完全不完成哪些任务,LAB 帮助律师事务所衡量人工智能投资的回报率,以及这些投资可以在哪些方面增强团队的工作效率。
LAB 的首个版本涵盖 24 个法律实践领域的 1200 多个代理任务,并采用超过 75000 条专家编写的评估标准进行评估。我们开源 LAB,旨在为模型提供商、代理构建者、研究人员和律师事务所提供一种共享的方式来衡量长期法律代理的进展。
我们特意在LAB发布时不设排行榜...