栏目分类

新闻

你的位置：开云 (集团) 官方网站 Kaiyun 登录入口 > 新闻 > 开yun体育网它们需要尽可能多的数据-开云 (集团) 官方网站 Kaiyun 登录入口

开yun体育网它们需要尽可能多的数据-开云 (集团) 官方网站 Kaiyun 登录入口

发布日期：2025-07-06 11:07 点击次数：53

新闻

东谈主工智能离不开数据。为了教训算法以已毕预期预料打算开yun体育网，咱们需要大都的数据，而输入到 AI 模子中的数据质地径直决定了输出效果的优劣。研究词，问题在于 AI 栽培者和筹商东谈主员对所使用的数据起头了解甚少。比拟于 AI 模子栽培的复杂性，AI 的数据网罗施行尚不熟谙，大边界数据集频繁短少对于其内容和起头的注目信息。为了措置这一问题，来自学术界和产业界的 50 多名筹商东谈主员开展了数据溯源预料打算（Data Provenance Initiative）。他们建议了一个浮浅而贫窭

详情

为了措置这一问题，来自学术界和产业界的 50 多名筹商东谈主员开展了数据溯源预料打算（Data Provenance Initiative）。他们建议了一个浮浅而贫窭的问题：构建 AI 所需的数据究竟来自那边？为此，他们审查了近 4,000 个众人数据集，这些数据集涵盖了 600 多种话语、67 个国度，并包含长达 30 年的数据，数据起头波及 800 个特有的渠谈和近 700 个组织。

这项筹商的效果初度独家发布在《麻省理工科技驳倒》上（文末附讲述相接），揭示了一个令东谈主担忧的趋势：AI 的数据施行正在使职权过度集会于少数几家主导科技公司手中。

技俩成员、MIT 筹商员 Shayne Longpre 暗示，在 2010 年代初期，数据集的起头相对种种化。

这些数据不仅来自百科全书和互联网，还包括议会记载、财报电话会议以及天气讲述等起头。Longpre 指出，在阿谁时刻，AI 数据集是凭据具体任务的需求经心谋划并从不同渠谈网罗的。

研究词，2017 年，赞成谣言语模子的架构——Transformer 的出现，改换了这一切。跟着模子和数据集边界的不休扩大，AI 的性能权贵进步。这使得 AI 边界冉冉倾向于经受更大边界的数据集。

如今，大多数 AI 数据集是通过从互联网上大边界、无离别地捏取内容构建的。自 2018 年起，互联网成为通盘媒体类型（如音频、图像和视频）数据集的主要起头。与此同期，集会捏取的数据与更为经心谋划的数据集之间的差距冉冉炫夸并不休扩大。

“在基础模子的栽培中，数据的边界、异质性以及集会起头对模子材干的影响无与伦比。”Longpre 暗示。对数据边界的需求也极地面鼓吹了合成数据的精深使用。

比年来，多模态生成式 AI 模子应时而生，这些模子好像生成视频和图像。与大型话语模子相同，它们需要尽可能多的数据，而当今最优的数据起头是 YouTube。

以视频模子为例，从图表中不错看出，超 70% 的语音和图像数据集的数据都来自兼并起头。

对 YouTube、Google 的母公司 Alphabet 来说，这可能是一个雄壮的上风。与文本数据分散在无边不同的网站和平台上不同，视频数据高度集会在单一平台。

Longpre 指出：“这使得集会上一些最贫窭的数据的戒指权高度集会在一家企业手中。”

此外，Google 自己也在栽培我方的 AI 模子，这种雄壮的上风激励了对于公司若何向竞争敌手提供这些数据的疑问。AI Now Institute 的都集实行主任 Sarah Myers West 暗示，这值得进一步探讨。

她合计，“咱们应该将数据视为通过特定进程创造出来的东西，而不是一种当然存在的资源。”

她补充谈：“要是咱们日常使用的大部分 AI 所依赖的数据集反应的是大公司、以利润为导向的企业的意图和联想，那么这将以稳当这些大企业利益的花式重塑咱们的寰宇基础治安。”

这种单一化也激励了对于数据集是否好像准确反应东谈主类体验以及咱们正在构建何种模子的疑问。

Cohere 公司的筹商副总裁、Data Provenance Initiative 成员 Sara Hooker 暗示，“东谈主们上传到 YouTube 的视经常繁是针对特定受众而制作的，视频中的四肢往往带有特定的主见性。”她问谈：“这些数据是否捕捉到了东谈主类存在的通盘微小离别和种种性？”

瞒哄的截止

AI 公司频繁不会公开用于教训模子的数据起头。一方面，这是为了保护其竞争上风；另一方面，由于数据集的打包和分发进程复杂且不透明，AI 公司自己也可能无法透顶了解所少见据的具体起头。

此外，AI 公司可能不了解这些数据在使用或分享时所受到的截止。Data Provenance Initiative 的筹商东谈主员发现，很多数据集附带有严格的许可条件或使用条件，例如，可能截止其在交易用途上的期骗。

“数据起头短少一致性，使得栽培者很难正确选拔使用的数据。”Hooker 暗示。

Longpre 补充谈，这也让栽培者险些不可能透顶确保他们的模子莫得使用受版权保护的数据进行教训。

比年来，像 OpenAI 和 Google 这么的公司与出书商、Reddit 等主要论坛以及移交媒体平台达成了独宗派据分享公约。这种作念法进一步安祥了它们的职权。

“这些独家合同骨子上将互联网分歧为谁能造访和谁不成造访的不同区域。”Longpre 指出。

这种趋势对好像职守此类公约的大型 AI 公司有意，但对筹商东谈主员、非渔利组织和袖珍公司则组成了不利。这些较小的参与者将难以获取必要的数据，而大型公司不仅能订立独家公约，还领有最苍劲的资源用于捏取数据集。

“这是咱们在洞开集会向前所未见的新一波非对称性造访。”Longpre 说谈。

西方与其他地区的差距

用于教训 AI 模子的数据也存在严重的地域偏倚。筹商东谈主员分析发现，杰出 90% 的数据集来自欧洲和北好意思，而来自非洲的数据不及 4%。

Hooker 指出：“这些数据集仅反应了咱们寰宇和文化的一部分，却透顶淡薄了其他地区。”

用于教训 AI 模子的数据也存在严重的地域偏倚。筹商东谈主员分析发现，杰出 90% 的数据集来自欧洲和北好意思，而来自非洲的数据不及 4%。

Hooker 指出：“这些数据集仅反应了咱们寰宇和文化的一部分，却透顶忽略了其他部分。”

教训数据中英语的主导地位部分不错用互联网的近况来阐明。Hugging Face 的首席伦理学家 Giada Pistilli（并未参与这次筹商）暗示，互联网上杰出 90% 的内容仍然是英语，而地球上很多地区的互联网伙同非常差，以至莫得互联网。不外，她补充说，另一个原因是便利性：创建其他话语的数据集并将其他文化纳入沟通需要特意志的算计和大都的使命。

这种数据集的西方倾向在多模态模子中发扬得尤为显着。Hooker 例如说，当一个 AI 模子被指示生授室礼的场景和声息时，它可能只可呈现出西方婚典的样式，因为它的教训数据仅限于此。

这种情况强化了偏见，可能导致 AI 模子鼓吹一种以好意思国为中心的寰宇不雅，从而脱色其他话语和文化的存在。

Hooker 指出：“咱们在全球范围内使用这些模子，但模子所能看见的寰宇与看不见的寰宇之间存在雄壮差距。”

1.https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/

2.https://www.dataprovenance.org/Multimodal_Data_Provenance.pdf

新闻

开yun体育网它们需要尽可能多的数据-开云 (集团) 官方网站 Kaiyun 登录入口

新闻

详情

官方网站

联系邮箱

联系地址