大模型中的数据_大模型样本数据质量 csdn-程序员宅基地

技术标签: 人工智能  数据库  大模型专栏  

简介:        

       数据是基础大模型的生命线;这些模型的训练数据在很大程度上决定了这些模型可以获得哪些功能。数据的中心性并不是基础大模型所独有的;最近对以数据为中心的人工智能的呼吁表明了管理、理解和记录用于训练机器学习模型的数据的普遍重要性。具体而言,对于基础大模型,目前的做法是使用未指定或不明确的原则选择训练数据,并且训练数据的性质普遍缺乏透明度。我们认为,需要一种替代方法来重新构想围绕基础模型的数据生态系统:我们利用数据可视化和管理方面的工作,为基础模型提出一个数据中心。我们阐述了该提案如何与基础模型的许多相关的以数据为中心的考虑因素相关:选择,策展,文档,访问,可视化和检查,质量评估和法律的监管。

        基础模型标志着一种范式转变,越来越多的大量数据被馈送到这些模型中,以提高适应性能,总体经验法则是数据越多越好。如前所述,对数据策展的关注引起了对基础模型数据生命周期的关注,包括:

       1.  管理如此大规模的数据

       2.  在新模式中整合数据

       3.  对许可证和治理法规的推理-特别是考虑到基础模型培训中使用的大规模网络爬行时,

       4.  理解数据质量

       虽然基础大模型为这些挑战增加了新的和困难的方面,但我们看到这些问题与数据管理和数据分析以及工业ML管道等社区的核心挑战之间存在相似之处。例如,数据管理长期以来一直在研究可扩展的声明性系统,用于数据分析,版本控制,出处和集成解决挑战12。行业拥有应对挑战3的渠道,以管理各种数据许可证并帮助减少数据违规。有一个完整的研究和系统生态系统来应对挑战4,以支持交互式数据分析和可视化虽然这些解决方案不一定是基础模型就绪,但我们认为,更好地管理基础模型数据生命周期的路径应该从这些现有系统中获得灵感。

       在本文中,我们将讨论管理基础模型数据生命周期。我们首先概述了四个必要条件,包括大规模数据管理、对异构数据源的支持、数据治理和数据质量监控。然后,我们设想如何将所有这些需求集成到称为数据中心的整体数据管理解决方案中。数据中心只是一个数据管理工具包,可供私营或公共部门使用,以更好地支持基础模型数据生命周期的交互式管理。

1. 必要的数据管理

       当前基础模型开发的实践通常在从数据管理和数据文档到模型监测和修补的整个生命周期中是临时的。数据管理社区的研究表明,定义良好的数据管理平台通过数据摄取、数据版本控制、数据来源、有效分析和模型监控促进了大规模的ML模型开发.从数据管理社区中汲取灵感,我们在为基础模型构建整体数据管理平台时考虑了核心需求。

(1)  可扩展性。基础模型正在越来越大量的数据上进行训练Wudao 2.0模型正在4.9TB的多模态数据上进行训练。随着大多数最新模型主要在面向公众的数据集上进行训练,预计这一规模将增加。与每天收集并用于工业基础模型管道的PB级业务和个人数据相比,公共数据只占数据的极小部分。因此,对于可以处理多模态基础模型数据集的高度可扩展技术的需求日益增长。

(2)  数据整合。最近使用基础模型的工作表明,利用集成的结构化和非结构化数据可以帮助模型更好地泛化到罕见的概念,并提高事实知识的回忆。尽管最近取得了这些成功,但为基础模型集成数据集仍然是一个挑战。许多作品使用具有结构化实体知识或图像数据的非结构化文本数据。越来越需要跨文本、视频、眼动跟踪和机器人模拟等多种模式集成数据集。我们需要能够在工业规模上应用于多种模式和多个领域(如政府、商业和科学)的数据集成解决方案。

(3)  隐私和治理控制。用于基础模型的训练数据可能存在侵犯数据主体隐私的风险;他们的数据可能在未经其同意的情况下被披露、收集或使用,或者在最初同意的背景之外。同意和使用的问题与基础模型特别相关,因为下游应用并不总是可以预期的。正如合法性中所解释的那样,这些问题与用于基础模型训练的网络抓取数据集的流行情况更加复杂。由于关于如何管理和保护网络抓取的数据仍然存在公开的法律的问题,公共和私营部门的基础模型提供商仍然不清楚使用网络数据的后果。我们需要工具来帮助基础模型提供商适应新兴的法规和指导方针,以确保安全和负责任的数据管理。

(4)  了解数据质量。数据质量影响模型性能;然而,系统地、可扩展地理解训练数据和相关数据子集的工具包或方法仍处于起步阶段。数据创建过程可能很混乱,数据可能包含不同类型的偏差,并由有毒、虚假或重复的信息组成。数据也会不断更新和细化,可能会出现新的实体、分布变化和概念含义变化。此外,一旦部署,基础模型可能会在基础模型提供商需要检测和缓解的关键细粒度数据子群体上呈现不良行为。我们需要能够检测并潜在地缓解不同类型的不良数据的工具包,以交互和迭代的方式提高模型性能。这种工具包还需要适应训练数据的动态性质。

2. 数据中心解决方案

       在数据管理、数据科学和数据分析方面,我们设想了一个基础模型生命周期数据管理解决方案,我们称之为数据中心。虽然存在以ML为重点的数据中心以及更传统的数据管理系统的示例,但它们有下述特点:

1)不将数据集成视为第一类原语,

2)不原生地支持具有模型预测的端到端生命周期,

3)不允许交互驱动的数据管理和细化,其中基础模型提供者可以根据访问控制指南动态地探索和更新可能的数据集。

      我们现在讨论数据中心如何解决这四个迫切需要。

数据规模

为了应对大规模管理的挑战,数据中心将需要标准的数据管理解决方案,例如随着时间的推移存储和维护大规模数据集的基础设施,以及查询、选择和过滤数据集的可扩展接口。中心应该支持异构计算以及云基础设施,以支持不同环境中的可扩展解决方案。

数据整合

中心应该将数据集成作为一等公民。它将需要先进的数据集成解决方案,以允许跨模态和领域合并结构化和非结构化知识。此外,这意味着集线器将需要支持对异构数据集和源的存储和查询。

访问控制

考虑到中心的访问控制,中心将需要支持各种文件,例如,数据集表或数据声明,允许数据管理者反思他们的流程,并对预期用例、潜在偏差和数据集的局限性保持透明。数据中心将需要决定要上传的数据需要哪些文档(例如,数据源和数据描述)以及推荐哪些信息(例如,数据可以用于什么任务)。此外,随着数据集的发展,可能需要更新文档。数据源通常与许可证相关联,中心将需要整合具有不同法律的问题和条件的不同来源此外,某些数据集具有保护数据主体隐私的法律的指南。该中心将需要方法来确保数据集不会释放个人身份信息(PII),匿名或去身份化数据的聚合不会释放PII并且数据主体已经对其数据的传播给予了知情同意。从数据集成中提取想法,该中心应支持各种机制,以便能够有效和安全地维护和分享数据资源。特别是某些公共数据集的合法性(例如,Web转储)仍在决定中,中心迫切需要工具来帮助识别许可违规并减轻任何治理违规的影响。由于某些违规行为可能与模型行为有关,因此我们需要系统来支持更好地理解模型行为,正如我们接下来描述的那样。

数据质量工具

       借鉴数据分析和探索领域,随着用户交互式地选择、过滤和细化用于训练或适应的数据,中心将需要工具来快速理解用户的当前数据集及其对模型行为的影响。这些系统可以通过结合最近在切片上的工作的模型性能,允许端到端的基础模型监控(亚群)发现、相关子集的模型验证和数据评价。最近的工作还提出了使用模型来检测哪些数据亚群对给定输出贡献最大的方法,以进一步帮助模型调试

       一旦用户可以监控模型的行为,特别是在罕见的,但关键的子人群,中心应该为用户提供方法和指导,以维护模型,纠正模型错误。虽然模型修补仍然是一个悬而未决的问题,但的工作首次描述了使用数据工程来维护生产自监督系统,该系统通过更改数据而不是模型来纠正不良行为。我们认为数据中心需要支持用户接口,以便为模型维护注入有针对性的数据修改。

       我们还承认,数据管理和探索不是孤立进行的,并认为数据中心应该支持围绕共享有用指标和分析管道的社区。受Hugging FaceModelHubTableau Public的可视化共享平台等类似社区共享平台的启发,我们希望用户分享有关基础模型训练数据的见解。

开放性问题

       虽然我们描述的数据中心是受现有工具包和解决方案的启发,但我们不认为它们都准备好应对基础模型的挑战。特别是,围绕设计数据中心的一些悬而未决的问题是:我们应该如何支持数据版本化,以便在维护旧版本的同时更新数据集以实现再现性?一旦部署了模型并确定了错误桶,可能需要更新数据集以包含这些错误桶中的更多示例。应该如何收集这些新的、有针对性的例子?·训练中所述,我们想象更少的模型将从头开始训练,更多的模型将被微调。我们如何支持来源或谱系信息以了解原始数据的来源,同时保持受试者隐私?在公共部门,数据中心可能由一个由数据管理者和基础模型提供者组成的开源社区组织和运行。在这种情况下,谁存储数据等问题的答案?谁来为电脑买单如果违反许可证,谁负责?特别模糊。数据中心如何提供正确的工具,以便一旦这些问题的答案得到解决,它们就可以轻松地操作?·什么是正确的数据统计,以提供适当的文件,而不是太昂贵或难以获得?·数据中心如何支持有针对性的数据修改,如增强或数据编程·监控工具包如何更好地检测基础模型何时需要更新,因为动态变化的评估数据性能不佳?我们对数据中心的愿景并不完整或完全详细。然而,我们提出了关于数据挑战的初步想法,以及一个解决方案,以促进思考如何改进基础模型生命周期的数据管理。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/xw555666/article/details/134741566

智能推荐

使用nginx解决浏览器跨域问题_nginx不停的xhr-程序员宅基地

文章浏览阅读1k次。通过使用ajax方法跨域请求是浏览器所不允许的,浏览器出于安全考虑是禁止的。警告信息如下:不过jQuery对跨域问题也有解决方案,使用jsonp的方式解决,方法如下:$.ajax({ async:false, url: 'http://www.mysite.com/demo.do', // 跨域URL ty..._nginx不停的xhr

在 Oracle 中配置 extproc 以访问 ST_Geometry-程序员宅基地

文章浏览阅读2k次。关于在 Oracle 中配置 extproc 以访问 ST_Geometry,也就是我们所说的 使用空间SQL 的方法,官方文档链接如下。http://desktop.arcgis.com/zh-cn/arcmap/latest/manage-data/gdbs-in-oracle/configure-oracle-extproc.htm其实简单总结一下,主要就分为以下几个步骤。..._extproc

Linux C++ gbk转为utf-8_linux c++ gbk->utf8-程序员宅基地

文章浏览阅读1.5w次。linux下没有上面的两个函数,需要使用函数 mbstowcs和wcstombsmbstowcs将多字节编码转换为宽字节编码wcstombs将宽字节编码转换为多字节编码这两个函数,转换过程中受到系统编码类型的影响,需要通过设置来设定转换前和转换后的编码类型。通过函数setlocale进行系统编码的设置。linux下输入命名locale -a查看系统支持的编码_linux c++ gbk->utf8

IMP-00009: 导出文件异常结束-程序员宅基地

文章浏览阅读750次。今天准备从生产库向测试库进行数据导入,结果在imp导入的时候遇到“ IMP-00009:导出文件异常结束” 错误,google一下,发现可能有如下原因导致imp的数据太大,没有写buffer和commit两个数据库字符集不同从低版本exp的dmp文件,向高版本imp导出的dmp文件出错传输dmp文件时,文件损坏解决办法:imp时指定..._imp-00009导出文件异常结束

python程序员需要深入掌握的技能_Python用数据说明程序员需要掌握的技能-程序员宅基地

文章浏览阅读143次。当下是一个大数据的时代,各个行业都离不开数据的支持。因此,网络爬虫就应运而生。网络爬虫当下最为火热的是Python,Python开发爬虫相对简单,而且功能库相当完善,力压众多开发语言。本次教程我们爬取前程无忧的招聘信息来分析Python程序员需要掌握那些编程技术。首先在谷歌浏览器打开前程无忧的首页,按F12打开浏览器的开发者工具。浏览器开发者工具是用于捕捉网站的请求信息,通过分析请求信息可以了解请..._初级python程序员能力要求

Spring @Service生成bean名称的规则(当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致)_@service beanname-程序员宅基地

文章浏览阅读7.6k次,点赞2次,收藏6次。@Service标注的bean,类名:ABDemoService查看源码后发现,原来是经过一个特殊处理:当类的名字是以两个或以上的大写字母开头的话,bean的名字会与类名保持一致public class AnnotationBeanNameGenerator implements BeanNameGenerator { private static final String C..._@service beanname

随便推点

二叉树的各种创建方法_二叉树的建立-程序员宅基地

文章浏览阅读6.9w次,点赞73次,收藏463次。1.前序创建#include<stdio.h>#include<string.h>#include<stdlib.h>#include<malloc.h>#include<iostream>#include<stack>#include<queue>using namespace std;typed_二叉树的建立

解决asp.net导出excel时中文文件名乱码_asp.net utf8 导出中文字符乱码-程序员宅基地

文章浏览阅读7.1k次。在Asp.net上使用Excel导出功能,如果文件名出现中文,便会以乱码视之。 解决方法: fileName = HttpUtility.UrlEncode(fileName, System.Text.Encoding.UTF8);_asp.net utf8 导出中文字符乱码

笔记-编译原理-实验一-词法分析器设计_对pl/0作以下修改扩充。增加单词-程序员宅基地

文章浏览阅读2.1k次,点赞4次,收藏23次。第一次实验 词法分析实验报告设计思想词法分析的主要任务是根据文法的词汇表以及对应约定的编码进行一定的识别,找出文件中所有的合法的单词,并给出一定的信息作为最后的结果,用于后续语法分析程序的使用;本实验针对 PL/0 语言 的文法、词汇表编写一个词法分析程序,对于每个单词根据词汇表输出: (单词种类, 单词的值) 二元对。词汇表:种别编码单词符号助记符0beginb..._对pl/0作以下修改扩充。增加单词

android adb shell 权限,android adb shell权限被拒绝-程序员宅基地

文章浏览阅读773次。我在使用adb.exe时遇到了麻烦.我想使用与bash相同的adb.exe shell提示符,所以我决定更改默认的bash二进制文件(当然二进制文件是交叉编译的,一切都很完美)更改bash二进制文件遵循以下顺序> adb remount> adb push bash / system / bin /> adb shell> cd / system / bin> chm..._adb shell mv 权限

投影仪-相机标定_相机-投影仪标定-程序员宅基地

文章浏览阅读6.8k次,点赞12次,收藏125次。1. 单目相机标定引言相机标定已经研究多年,标定的算法可以分为基于摄影测量的标定和自标定。其中,应用最为广泛的还是张正友标定法。这是一种简单灵活、高鲁棒性、低成本的相机标定算法。仅需要一台相机和一块平面标定板构建相机标定系统,在标定过程中,相机拍摄多个角度下(至少两个角度,推荐10~20个角度)的标定板图像(相机和标定板都可以移动),即可对相机的内外参数进行标定。下面介绍张氏标定法(以下也这么称呼)的原理。原理相机模型和单应矩阵相机标定,就是对相机的内外参数进行计算的过程,从而得到物体到图像的投影_相机-投影仪标定

Wayland架构、渲染、硬件支持-程序员宅基地

文章浏览阅读2.2k次。文章目录Wayland 架构Wayland 渲染Wayland的 硬件支持简 述: 翻译一篇关于和 wayland 有关的技术文章, 其英文标题为Wayland Architecture .Wayland 架构若是想要更好的理解 Wayland 架构及其与 X (X11 or X Window System) 结构;一种很好的方法是将事件从输入设备就开始跟踪, 查看期间所有的屏幕上出现的变化。这就是我们现在对 X 的理解。 内核是从一个输入设备中获取一个事件,并通过 evdev 输入_wayland

推荐文章

热门文章

相关标签