科学家建立新评价基准Tapilot-Crossing,助力评估大模型数据分析能力
发布日期:2025-01-03 18:19 点击次数:155
来源:DeepTech深科技在大数据时代,自动数据分析已经成为跨技术背景人员不可或缺的工具。以 GPT-4 为代表的大型语言模型,它们已经能够理解自然语言查询,并能生成相应的代码或分析,让自动数据分析变得更加接近现实。例如,Devin 的成功,激发了人们对基于大语言模型的自动数据分析的广泛兴趣。现有的数据集例如 Text2Analysis 和 BIRD-SQL,已经在一定程度上衡量了大型语言模型在处理复杂数据科学或数据分析任务时的能力。但是,实际中的数据分析常常涉及到复杂多轮的人机交互。这是因为人类的查询往往包含模糊性。例如,“请列出三个值得注意的对手”中的“值得注意”,就具有多重解释。此外,有效的数据分析不仅需要生成正确的代码或答案,还要求模型能够根据用户反馈进行调整,并提供针对结果的深入理解,以便为决策过程提供支持。鉴于交互性在数据分析中的重要性,香港大学博士生 Li Jinyang 和所在团队,启动了建立交互式数据分析代理的研究项目。下一步,研究人员打算引入更多的数据分析语言。目前,本次研究主要集中在给予表格的数据分析和 Python 语言上。但是,他们发现关系型数据库和 SQL,在数据分析中占有不可忽视的重要位置。因此,很有必要将这些元素纳入研究范围。此外,他们还计划针对长代码生成的评价方法加以改进。课题组意识到在当前的评价体系下,即使两段代码的执行结果相同,它们的实际性能仍然可能存在差异。因此,其希望开发更加精细化、更加经济的软性评价标准,以便更好地区分代码的实际表现和潜在价值,从而确保面对在表面上相同的结果时,也能准确反映代码的真实能力。参考资料:1.https://arxiv.org/abs/2403.05307排版:希幔