说明一个女人放在一起她粉碎后图像的一部分。

信贷:詹妮尔巴龙

当来自世界各地的155000多名学生报名免费在线2012年在电子类,通过羽翼未丰的美国供应商提供edX,他们启动爆炸在在线课程的受欢迎程度。

edX平台,由麻省理工学院(MIT)和哈佛大学在剑桥,马萨诸塞州,不是第一次尝试在网上教学,但参与者人数的吸引是不寻常的。活动创造了大量的信息,人们如何与网络教育交互,给研究人员提供了一个机会获得问题的答案,如“完整的课程可能会鼓励人们什么?”和“可能给他们一个理由退学呢?”。

说:“我们有一吨数据Kalyan Veeramachaneni,数据科学家在麻省理工学院的信息与决策系统实验室。虽然大学早就处理大型数据集生成的其他人,“这是第一次,麻省理工学院已经在自己的后院大数据“,Veeramachaneni说。

希望利用,Veeramachaneni分配20麻省理工学生运行的分析信息。但他很快遇到一个障碍:法律,数据必须是私有的。这大量的信息是在一台计算机在他的实验室,没有连接到互联网,防止黑客攻击。研究人员必须安排一个时间来使用它。“这是一个噩梦,”Veeramachaneni说。“我只是不能完成工作因为障碍数据是非常高的。”

最终,他的解决方案是创建合成的学生——电脑版本的edX参与者共享特征与真实的学生使用的平台,但这并不是放弃私人的细节。团队然后机器学习算法应用于合成学生活动,在这一过程中发现几个因素与一个人无法完成一个课程1。例如,学生倾向于提交作业的最后期限更容易辍学。其他组织了这一分析的结果和用它们来帮助创建干预来帮助真实的人完成未来的课程2

这种经历Veeramachaneni领导的构建和使用合成数据集和他的同事创建合成库数据,一组开源软件,允许用户自己的数据模型,然后使用这些模型来生成替代版本的数据3。2020年,他协助创立了一家名为DataCebo,总部设在波士顿,马萨诸塞州,帮助其他公司。

保护隐私的欲望是综合数据研究背后的驱动力之一。因为人工智能(AI)和机器学习已经迅速扩大,发现进入卫生保健等领域,艺术和财务分析,数据用于训练系统的担忧也日益加剧。学习,这些算法必须消耗大量的信息——其中大部分涉及到个人。系统可以透露私人信息,或被用来歧视人决定招人的时候,例如,贷款或住房。数据提供给这些机器也可以由个人或公司不希望的信息被用来创建一个工具,可能会和他们竞争——或者至少,可能不想给免费的数据。

一些研究人员认为,这些问题的答案可能在于合成数据。让电脑制造的数据接近真实的没有回收真实的信息可以帮助解决隐私问题。但是它也可以做得更多。“我想远离隐私,”米卡尔van der沙尔称,机器学习研究和人工智能在医学上英国剑桥中心主任。“我希望合成数据可以帮助我们创造更好的数据。”

所有的数据集都有问题,超越隐私方面的考虑。他们可以生产成本和维护。在某些情况下——例如,试图诊断使用成像——一种罕见的医学状况根本可能还不够现实世界的数据训练系统可靠地完成任务。偏见也是一个问题——社会偏见,这可能导致系统支持一群人比另一个,和微妙的问题,比如一组训练的照片,包括只有少数在晚上。合成数据,它的支持者说,可以绕过这些问题通过添加缺失的信息数据集以更快的速度、更低的成本比收集它从现实世界中,假设它是可能获得真实的东西。

“对我来说,这是关于数据这生活,控制对象,您可以更改您的应用程序和你的目标,”菲利普·伊索拉说,麻省理工学院的一位计算机科学家专门从事机器视觉。“这是一个基本处理数据的新方法。”

同样的在里面

有几种方法可以合成数据,但他们都调用相同的概念。电脑,使用机器学习算法或神经网络,分析了一个真实的数据集和了解的统计关系。然后创建一个新的包含不同的数据集比原始数据点,但保持相同的关系。一个熟悉的例子是ChatGPT,文本生成引擎。ChatGPT是基于一个大的语言模型,生成Pre-trained变压器,仔细研究了数十亿人类写的文本的例子,分析了词汇之间的关系,建立了一个模型,它们如何组合在一起。当给定一个提示——“给我写一个歌唱鸭子”——ChatGPT需要什么了解常微分方程和鸭子和产生一系列单词,每个单词选择通知统计概率的前一个后:

“哦,鸭子,羽毛和自由,

划在池塘这样的喜悦,

你的庸医,背着一个高兴的是,

一种快乐,白天还是晚上。”

正确的培训,机器也不仅可以产生文本,图像,音频或表格数据的行和列。问题是,如何准确的输出?“这是在合成数据的一个挑战,”托马斯·Strohmer说,数学家指导数据科学与人工智能研究中心的加州大学戴维斯(加州大学戴维斯分校)。

三个医生讨论结果在临床设置

杰森·亚当斯,托马斯Strohmer和蕾切尔Callcut(左到右)是合成数据的一部分在加州大学戴维斯分校的研究小组的健康。

“你必须先找出你意思准确性,”他说。是有用的,合成数据集必须保留原文的方面相关的结果——至关重要的统计关系。但是人工智能已经完成它的许多令人印象深刻的壮举通过识别数据中的模式对人类太微妙的通知。如果我们能充分理解数据轻松地识别在医学数据表明有人的关系是一种疾病的风险,我们将没有一台机器需要找到这些关系首先,Strohmer说。

知道这第二十二条军规意味着最清晰的方式合成数据集了原文的重要的细微差别,看看是一个人工智能系统训练的合成数据使同样准确的预测系统在最初的训练。更有能力的机器,人类就越难以区分真正的假。AI-generated图像和文本已经在地步似乎现实的大多数人来说,和技术正在迅速推进。“我们接近水平,甚至专家,图像看起来是正确的,但它仍然可能不是正确的,”伊索拉说。因此重要的是,用户对合成数据和一些谨慎,不要忽略这样的事实,它不是真实的数据,他说。“这还可能会误导。”

发展头痛

去年4月,Strohmer和他的两个同事在加州大学戴维斯分校健康在萨克拉门托,加利福尼亚州,赢得了四年,1.2美元从美国国立卫生研究院拨款解决方法生成高质量的合成数据,可以帮助医生预测,诊断和治疗疾病。作为项目的一部分,Strohmer发展数学的方法证明是多么准确的合成数据集。

他还希望包括数学保证隐私,特别是考虑到严格的法律在世界各地医疗隐私,如健康保险携带和责任法案在美国和欧盟的总体数据保护监管。困难在于数据的效用和隐私张力;增加一个意味着减少。

增加隐私数据,科学家们为一个数据集,如果添加统计噪声,例如,收集到的数据点之一是一个人的年龄,他们把一些随机的年龄让人不那么显眼了。很容易找到一位45岁的人比一个人患糖尿病糖尿病患者可能是38,51岁,或者62。但是,如果糖尿病发病的年龄是一个因素被研究,这当中措施将导致不准确的结果。

很难保证隐私的部分原因是,科学家们并不完全确定合成数据揭示了私人信息或如何衡量它揭示了多少,说Florimond Houssiau,阿兰·图灵研究所的一名计算机科学家在伦敦。的秘密可能泄漏的方法之一是如果合成数据过于类似于原始数据。在一个数据集,其中包含许多与个人相关的信息,很难掌握的统计关系。在这种情况下,系统生成合成版本更有可能复制它所看到的而不是全新的东西。“隐私实际上并不是那么好理解,“Houssiau说。科学家可以分配一个数值的隐私级别的数据集,但“我们并不完全清楚值应该认为是安全的。所以很难做到这一点,每个人都同意”。

医学数据集的不同性质也使生成合成版本的挑战。他们可能包括医生写的笔记,x射线,温度测量,验血结果等等。医学专业多年的培训和经验可以把这些因素结合在一起,提出一个诊断。机,到目前为止,不能。“我们只是不知道足够的,在机器学习方面,从不同的模式中提取信息,“Strohmer说。这是一个问题为分析工具,但它也是一个问题,机器负责创建合成数据集保留至关重要的关系。“我们还不懂如何自动检测这些关系,”他说。

也有基本的理论极限数据可以接受多少改善,伊索拉说。信息理论包含一个称为数据处理不平等原则,即处理数据只能减少信息的数量,而不是增加4。和所有合成数据必须真实数据在其根,所以所有的问题与真实的数据隐私,偏见,费用等等——仍然存在的管道。“你不是免费获得的东西——最终你还是向世界学习,从数据。你只是重新格式化为一个容易使用的格式,您可以控制更好,”伊索拉说。合成数据,”数据和一个更好的版本的数据出来”。

成为世界

尽管合成数据在医学上还没有进入临床使用,有一些这样的数据集已经起飞的领域。他们被广泛用于金融、Strohmer说,与许多公司涌现,帮助金融机构创建新的数据保护隐私。这种差异的部分原因可能是在金融风险低于在医学。金融“如果你错了,它仍然疼,但它不会导致死亡,这样他们就可以把事情一点速度比在医疗领域,“Strohmer说。

2021年,美国人口普查局宣布看着创建合成数据来增强人的隐私应对年度美国社区调查,它提供了关于家庭的详细信息部分。然而,一些研究人员反对,理由是此举可能破坏数据的有效性。今年2月,英国行政数据研究,合作,使公共部门的共享数据,宣布了一项资助,研究合成版本的值的数据集是由英国国家统计局和数据服务。

有些人还利用合成数据测试软件,他们希望最终使用真实数据,他们还没有进入,安德鲁·埃利奥特说,英国格拉斯哥大学的统计学家。这些假的数据必须看起来像真正的数据,但是他们可以毫无意义,因为它们只存在测试代码。科学家想要分析一个敏感的数据集,他们只授予有限的访问可以完美的代码首先合成数据,而不必浪费时间当他们得到的真实数据。

目前,合成数据是一个相对小众的追求。夏尔van der认为更多的人应该被讨论合成数据和他们的潜在影响,而不仅仅是科学家。“重要的是,不仅计算机科学家理解,而且公众,“她说。“人们需要把注意力都放在这个技术,因为它会影响每一个人。”

合成数据的问题不仅对科学家提出有趣的研究问题也是社会的重要问题,Strohmer说。时代的“数据隐私是非常重要的监测资本主义,”他说。创造良好的合成数据保护隐私和反映多样性,是广泛使用,不仅有潜力提高AI的性能,扩大其应用范围,而且还帮助民主化AI研究。“很多数据是由几个大公司,这创造了一个不平衡。合成数据可以帮助重建这种平衡一点,”Strohmer说。“我认为这是一个重要的是,合成数据背后的更大的目标。”