开云真人(中国)官方网站

新闻资讯你的位置:开云真人(中国)官方网站 > 新闻资讯 > 开云kaiyun体育使用库中的数亿份图像、视频和音乐文献进行教师-开云真人(中国)官方网站
开云kaiyun体育使用库中的数亿份图像、视频和音乐文献进行教师-开云真人(中国)官方网站

2024-05-10 17:08    点击次数:151

  

2026年的数据荒越来越近,硅谷大厂们曾经为AI教师数据抢疯了!它们纷繁豪掷十数亿好意思元,但愿把犄角旮旯里的相片、视频、聊天记载都给挖出来。不外,如若有一天AI忽然吐出了咱们的自拍照或者隐秘聊天,该怎么办?

谁能意想,咱们多年前的聊天记载、应付媒体上的陈年相片,忽然变得连城之璧,被大科技公司争相疯抢。

现时,硅谷大厂们曾经纷繁挪动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!

图像托管网站Photobucket的陈年旧数据,原来曾经多年无东谈主问津,但如今,它们正在被各大互联网公司疯抢,用来教师AI模子。

为此,科技巨头们欣喜拿出实打实的真金白银。比如,每张相片价值5好意思分到1好意思元,每个视频价值超过1好意思元,具体情况去取决于买家和素材种类。

总之,为了购买AI教师数据,巨头们曾经张开了一阵势下竞赛!

而最近闹得余烬复燃的Meta图像生成器大翻车事件,更是让AI的教师数据「刻板印象」水落石出。

如若喂给模子的数据无法篡改「偏见」,那各大公司要际遇的公论风云,就怕少不了。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

Meta的AI生图用具画不出来「亚洲男性和白东谈主爱妻」或「亚洲女性和白东谈主丈夫」

巨头狂砸数十亿好意思元,只为买到数据「黄金」

凭据路透社报谈,在2000年代,Photobucket处于巅峰期,领有7000万用户。而今天,这家顶级网站的用户曾经骤降到了200万东谈主。

但生成式AI,给这家公司带来了更生。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

CEO Ted Leonard怡悦肠深远,现时曾经有多家科技公司找上门来,欣喜重金购买公司的130亿份相片和视频。

主义,天然就是教师AI。

为越过到这些数据,各大公司都相等舍得割肉。

而且,他们还想要更多!神话,一位买家示意,我方想要超过10亿个视频,而这,曾经远远超出了Photobucket能提供的数目。

据鄙俗推测,Photobucket手中持着的数据,很可能价值数十亿好意思元。

OpenAI陷告状风云,版权太敏锐了

现时眼看着,人人的数据都不够用了。

凭据Epoch辩论所的分析,到2026年,科技公司很可能会耗尽互联网上所有的高质地数据,因为他们破费数据的速率,远远超过了数据的生成速率!

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

教师ChatGPT的数据,是从互联网上免费抓取的。

Sora的教师数据起原省略,CTO Murati选择采访时支粗略吾的发挥,险些又让OpenAI大翻车。

天然OpenAI示意,我方的作念法实足正当,但前哨还有一堆版权诉讼在等着他们。

而其他大科技公司都随着学乖了,人人都在暗暗地为付费墙和登录屏幕背后的锁定实质付费。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

如今,岂论是沉沦的聊天记载,照旧被淡忘的应付媒体上消释的旧相片,忽然都变成了连城之璧的东西。

而各大公司曾经纷繁挪动,急于寻找版权所有者的授权。毕竟,私东谈主保藏的东西,是无法抓取的。

外媒记者走访了30多名专科东谈主士,发现这背后荫藏的,是一个黄金商场。

天然好多公司对于这个不透明的AI商场限制示意寡言,但Business Research Insights等辩论东谈主员以为,现时商场限制约为25亿好意思元,并展望十年内可能会增长近300亿好意思元。

生成数据淘金热,让数据商乐吐花

对科技公司来说,如若不成使用免费抓取的网页数据档案,比如Common Crawl,那老本会是一个很可怕的数字。

可是一连串版权诉讼和监管上升,曾经让他们别无聘请。

甚而,硅谷曾经出现了一个新兴的行业——数据牙东谈主。

而图片、视频供应商们,也随之赚得盆满钵满。

手快的公司,早就反馈过来了。ChatGPT在2022年底亮相的几个月内,Meta、谷歌、亚马逊和苹果就曾经速即和图片库提供商Shutterstock落幕条约,使用库中的数亿份图像、视频和音乐文献进行教师。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

凭据首席财务官深远的数据,这些往复从2500万好意思元到5000万好意思元不等。

而Shutterstock的竞争敌手Freepik,曾经经有了两位大买家,2亿张图片档案中的大部分,会以2至4好意思分的价钱授权。

OpenAI天然也不会逾期,它不仅是Shutterstock的早期客户,还与包括好意思联社在内的至少四家新闻机构签署了许可条约。

让实质「符合谈德」

同期兴起的,还有AI数据定制行业。

这批公司获取了与播客、短视频和与数字助理互动等践诺宇宙实质的授权,同期还建树了短期合同工汇集,从新启动定制视觉成果和语音样本。

四肢代表之一的Defined.ai,曾经把我方的实质卖给了谷歌、Meta、苹果、亚马逊、微软等多家科技大厂。

其中,一张图片卖1到2好意思元,一部短视频卖2到4好意思元,一部长片每小时不错卖到100到300好意思元,文本的市价则是每字0.001好意思元。

而比较辛勤的赤身图像,售价为5到7好意思元,因为还需要后期处理。

而这些相片、播客和医疗数据的所有者,也会获取总往复额20%至30%的用度。

一位巴西数据商示意,为了获取罪犯现场、破裂暴力和手术的图像,他需要从观看、摆脱影相记者和医学新手里去买。

他补充说,他的公司雇用了民风于看到暴力伤害的照管来脱敏和标注这些图像,这对未经教师的眼睛来说是令东谈主不安的。

而将图像脱敏、标注的责任,则交给惯于看到暴力伤害的照管,毕竟未经教师的东谈主眼看到这些图像,会很不安。

联系词,这些AI模子的「燃料」,很可能会激勉严重的问题,比如——吐出用户隐秘。

人人发现,AI会反刍教师数据,比如,它们会吐出Getty Images水印,逐字输出纽约时报著作的段落,甚而再现真东谈主图像。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

Getty Images责问Stability AI「以惊东谈主的限制堂堂皇皇地侵略它的学问产权」

也就是说,几十年前某东谈主发布的私东谈主相片或玄机主见,很可能在不知情的情况下,被AI模子原样吐了出来!

此次「ChatGPT在回报中暴露生分男人自拍照事件」,让人人颇为懆急

这些隐患,现时还莫得有用方法处分。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

调查夸耀,用户欣喜每月多付1好意思元,让我方的个东谈主数据不被第三方使用

Altman,也看上了合成数据

另外,Sam Altman也早看到了合成数据的异日。

这些数据不是东谈主类径直创造的,而是由AI模子生成的文本、图像和代码,也就是说,这些系统通过学习我方产生的实质来跳跃。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

既然AI能创造出接近东谈主类的文本,天然也就能自产自销,帮我方进化成更先进的版块。

只有咱们能够跨过合成数据的枢纽阈值,即让模子能够自主创造出高质地的合成数据,那么一切问题都将治丝而棼。

——Sam Altman

不外,这件事确实这样容易吗?

东谈主工智能辩论者们曾经辩论合成数据多年,但要构建一个能自我教师的东谈主工智能系统并非易事。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

人人发现,模子如若只依赖于自我生成的数据,可能会不断重叠我方的误差和局限,堕入一个自我加强的轮回中。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

这些系统所需的数据,就像是在森林中寻找一条旅途,如若它们只是依赖于合成数据,就可能在森林里迷途。

——前OpenAI辩论员、现任不列颠哥伦比亚大学联想机科学教化Jeff Clune

对此,OpenAI正在探索如何让两个不同的东谈主工智能模子调解,共同生成更高质地、更可靠的合成数据。其中一个发达生成数据,另一个则发达评估。

这种方法是否有用,还未可知。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

「限制」Is All You Need

数据为什么对AI模子这样紧要?这要从底下这篇论文提及。

2020年1月,约翰斯·霍普金斯大学的表面物理学家Jared Kaplan与9位OpenAI辩论东谈主员共同发表了一篇具有里程碑真义的东谈主工智能论文。

他们得出了一个明确的论断:教师大言语模子所用的数据越多,其性能就越好。

正如一个学生通过阅读更多册本能学到更多学问一样,大言语模子能通过更多的信息更精准地识别文本样子。

很快,「只有限制裕如大,一切就都有可能」便成为了AI边界的共鸣。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

论文地址:https://arxiv.org/abs/2001.08361

2020年11月,OpenAI推出的GPT-3,便诈骗了其时最为高大的数据进行教师——约3000亿个token。

在罗致了这些数据后,GPT-3展现出了惊东谈主的文本生成才调——它不仅不错撰写博客著作、诗歌,甚而还能编写我方的联想机设施。

但如今看来,这个数据集的限制就显得十分小了。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

到了2022年,DeepMind将教师数据径直拉到了1.4万亿个token,比Kaplan博士在论文中展望的还要多。

联系词,这一记载并未保持太久。

2023年,谷歌发布的PaLM 2,在教师token上更是达到了3.6万亿——简直是牛津大学博德利藏书楼自1602年以来网罗手稿数目的两倍。

为训GPT-4,OpenAI白嫖100万+小时YouTube视频

但正如OpenAI的CEO Sam Altman所说,AI终究会破费完互联网上所有可用的数据资源。

这不是预言,也不是稠浊视听——因为Altman本东谈主就曾亲眼目睹过它的发生。

在OpenAI,辩论团队多年来一直在网罗、算帐数据,并将其汇集成巨大的文本库,用以教师公司的言语模子。

他们从GitHub这个联想机代码库中索要信息,网罗了外洋象棋走法的数据库,并诈骗Quizlet网站上对于高中磨练和功课的数据。

联系词,到了2021年底,这些数据资源曾经耗尽。

为了下一代AI模子的开荒,总裁Brockman决定切身披挂上阵。

在他的率领下,团队开荒出了一款全新名的语音识别用具Whisper,不错快速准确地转录播客、有声读物和视频。

有了Whisper之后,OpenAI很快便转录了超过100万小时的YouTube视频,而Brockman更是切身参与到了网罗责任当中。

最终的故事人人都知谈了,在如斯高质地数据的加持下,地表最强的GPT-4横空出世。

谷歌:我也一样

兴致的是,谷歌其实早就知谈OpenAI在诈骗YouTube视频网罗数据,但从未想过要露面阻扰。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

你猜的没错,谷歌也在诈骗YouTube视频来教师自家的AI模子。

而如若要对OpenAI的行径大加责问,他们不仅会暴露我方,甚而还会激勉公众愈加锐利的反馈。

不仅如斯,那些储存在Google Docs、Google Sheets等应用里的数十亿笔墨数据,亦然谷歌的方针。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

2023年6月,谷歌的法律部门要求隐秘团队修改劳动条件,从而膨胀公司抵消费者数据的使用权限。

也就是,为公司能够诈骗用户公开共享的实质开荒一系列的AI产物,铺平谈路。

据职工深远,他们被明确指导要在7月发布新的条件,因为那时人人的防备力都在行将到来的假期上。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

7月1日发布的新条件不仅允许谷歌使用这些数据开荒言语模子,还能用于创建像Google Translate、Bard和Cloud AI等平凡的AI技艺和产物Meta数据不及,高管被动天天开会一样在追逐OpenAI的,还有Meta。

为了能够超越ChatGPT,小扎不分日夜地催促公司的高管和工程师加速开荒一个能与之竞争的聊天机器东谈主。

联系词,到了前年齿首,Meta也遇到了和其他竞争者一样的难题——数据不及。

尽管Meta掌管着高大的应付汇集资源,但不仅用户莫得保留帖子的民风(好多东谈主会删除我方之前的发布),而且Facebook毕竟也不是一个人人民风发高质地长文的方位。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

此前,小扎曾自爱宣称Meta Platforms的调查数据,是Meta AI的一大上风生成式AI副总裁Ahmad Al-Dahle向高层深远,为了开荒出一个模子,他的团队简直诈骗了汇集上所有可找到的英文册本、论文、诗歌和新闻著作。

但这些还远远不够。

2023年3月到4月,公司的商务发展发达东谈主、工程师和讼师简直每天都在密相连议,试图找到处分决议。

他们琢磨了为获取新书的圆善版权支付每本10好意思元的可能性,并计议了收购出书了斯蒂芬·金等作者作品的Simon&Schuster的主见。

与此同期,他们还计议了未经允许就对汇集上的册本、论文等作品进行摘录的作念法,并琢磨进一步「罗致」更多实质,哪怕这可能招致法律诉讼。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

好在,四肢行业标杆的OpenAI,就在未经授权的情况下使用了版权材料,而Meta莽撞不错参考这一「商场前例」。

凭据灌音,Meta的高管们决定模仿2015年作者协会(Authors Guild)对谷歌的法庭判决。

在阿谁案例中,谷歌被允许扫描、数字化并在在线数据库中编目册本,因为它仅在线上复制了作品的一小部分,而况篡改了原作,这被认定为合理使用。

在会议中,Meta的讼师们示意,用数据教师东谈主工智能系统应当一样被视为合理使用。

但即便如斯,Meta似乎照旧没攒足数据……

AI生图用具拒却「白东谈主和亚洲东谈主」合影

最近,外媒The Verge的记者在屡次尝试后发现,Meta的AI图像生成用具并不成创建一张东亚男性和白东谈主女性同框的图片。

不管prompt是「亚洲男性与白东谈主一又友」、「亚洲男性与白东谈主爱妻」、「亚洲女性与白东谈主丈夫」,照旧历程魔改的「一位亚洲男性和一位白东谈主女性带着狗含笑」,都无济于事。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

当他将「白东谈主」改为「高加索东谈主」时,猖狂依旧如斯。

比如「亚洲男性和高加索女性的婚典日」这个prompt,得到的却是一张身穿西装的亚洲男性与身着旗袍/和服混搭的亚洲女性的图像……

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

AI竟然难以想象亚洲东谈主与白东谈主并列而立的场景,这确凿有些匪夷所念念。

而且,在生成的实质中,还荫藏着愈加机要的偏见。

举个例子,Meta老是将「亚洲女性」描摹成东亚相貌,似乎忽略了印度四肢宇宙上东谈主口最多国度的事实。与此同期,「亚洲男性」多为年父老,而亚洲女性却老是年青化。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

比拟之下,OpenAI加持的DALL-E 3,就实足莫得这个问题。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

对此,有网友指出,出现这个问题的原因是Meta在模子教师时莫得输入裕如多的场景示例。

简而言之,问题不在于代码自身,而在于模子教师时所使用的数据集不够丰富,莫得充分遮蔽所有可能的场景。

你的自拍和聊天记载,正被硅谷大厂砸数十亿好意思元疯抢,成为AI教师数据!

但更深脉络的是,AI的行径是其创造者偏见的体现。

在好意思国媒体中,「亚洲东谈主」往往就是指东亚东谈主,不符合这一单一形象的亚洲东谈主简直从文化顽强中被抹去,即等于符合的东谈主也在主流媒体中被边际化。

而这,只是因数据形成的AI偏见的一隅资料。



Powered by 开云真人(中国)官方网站 @2013-2022 RSS地图 HTML地图

鄂ICP备2020021473号-1