开云真人(中国)官方网站

新闻资讯你的位置:开云真人(中国)官方网站 > 新闻资讯 > kaiyun开云官方网站 谷歌Gemini:被神话的多模态和被低估的忍耐
kaiyun开云官方网站 谷歌Gemini:被神话的多模态和被低估的忍耐

2023-12-23 05:58    点击次数:113

  

  Google最强盛的大模子Gemini发布了,接续读了工夫申报和一些评测/分析kaiyun开云官方网站,周末记录和共享一下:

  一、几点值得Mark的札记

  Gemini Ultra的得分为90.0%,是第一个在MMLU(大范围多任务谈话清醒)上越过东谈主类各人的模子,相同于高考。国表里也有相同的评测基准。

  比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。

  2. 这次Google对Gemini宣传隆起的最大亮点——多模态。“Gemini缱绻成原生的多模态,从一运转就在不同的模态上进行预测验。助于Gemini重新运转无缝地清醒和推理多样输入,远远优于现存的多模态模子——其智力在果真每个畛域王人是起始进的。”

  衔命 next token prediction 的表情,Gemini 把多模态数据重新测验,包括文本、图片、音频、视频等,悉数模态数据调度为 token,临了变成一维线性输入(不同的模态按照情态法例标志),让模子展望 next token。

  3. Google连气儿发布了三个规格的模子:Ultra是最大的,对标GPT4和4V、还莫得灵通(12月13日灵通API)。Pro对标GPT3.5,在好意思区Bard上不错用(我试了下我的Bard,如故之前的LaMDA)。Nano是小模子,在谷歌的Pixel 8手机上不错用。

  4. 工夫申报中,Google强调了算力上风:“咱们文书迄今限度最强盛、高效和可彭胀的TPU系统——Cloud TPU v5p ,旨在测验顶端的东谈主工智能模子。”

  翻译成大口语,即是:微软/OpenAI/Anthropic这些公司,利润(据说70%)王人被Nvidia吃了,我的利润如故我方的。(其实微软和OpenAI也在尝试我方作念芯片,仅仅程度慢于Google。)

  5. Gemini语音识别在主要语种上有大幅进步(Bleu值比OpenAI的Wisper 2高10个点,但在其他语种上Wisper更强。机器翻译智力在WMT2023的测试集上评测的效能,也比GPT4略高)。

  二、一个浅易的评测

  没用视频,用这张图试了下一些有多模态智力的模子。顺次是:上传这张图,然后问:从缱绻上看,图中哪个车会跑得更快?

  百度文心4.0:

  智谱清言:

  ChatGPT的GPT4:

  Google Bard(还不是Gemini Pro):

  未几驳倒,不外四个同学王人挺有益思意思~

  三、几点念念法

  1. 对于多模态:及时处理声息、视频流、果真寰球交互,意味着具身智能的一大步。不错及时罗致信息并及时处理任务,更像东谈主类的糊口场景了。Google坐拥大众最大的视频网站Youtube,测验多模态模子条款优厚。何况最近大火的文生图Midjourney和文生视频Runway/Pika,讲授了多模态在买卖上的后劲。

  不外,从智能的角度说,多模态被神化了。比较于文本谈话模子,多模态模子从智能上来说进步并不大,模子在清醒、推理、创造方面并莫得显耀的进步。除了视频的测验难度,我猜念念,咱们低估了文本。Rust首创东谈主Graydon Hoare说过:“悉数的文体和诗歌、历史和玄学、数学、逻辑、编程和工程王人依靠文本编码来抒发它们的念念法,这不是一个偶合”。

  文本如实保存了东谈主类贤达的精华,古今中外的贤达、对寰球万物的领路和发现,自有东谈主类笔墨纪录以来,果真王人存到文本中。

  一方面,GPT仅仅一个读了万卷书的“书呆子”,却仍是能具备强盛的学问、清醒、推理和创造力,颇有点“不出户,知天地;不窥牖,见天谈“的滋味。另一方面,大当然这本书,到底如何读?这似乎是一个宏大的问题。从果真寰球学习知识,就像行万里路比较于读万卷书,低效太多。

  2. Gemini莫得现场演示,网传一些复现视频和Demo视频不符,有夸大宣传嫌疑。不外,从Bard不休浮松和ChatGPT差距的事实,以及Google玄虚智力判断,Gemini Ultra智力不会和宣传的相差太大。

  Gemini这一仗奠定了AI畛域的双子星口头,咱们王人低估了Google的忍耐。

  从竞争口头看,不管是Meta的开源Llama2,如故主打安全的Anthropic、马斯克的X.ai,现在的差距王人拉大了。

  3. Google的上风有这些:

  组织方面,本年事首DeepMind和Google Brain的合并,处置了力量漫步和领路不长入的问题,化颓势为上风。

  东谈主才方面,领军东谈主物是AlphaGo的激动者,对AGI清醒真切的Demi Hassabis,首席科学家是工程师传奇级东谈主物Jeff Dean。东谈主数方面,工夫申报作家栏的东谈主数好几页,已快要千东谈主。仍是比OpenAI的东谈主数多(七百多东谈主)。

  算力/算法/工程方面:算力上谷歌不像微软和OpenAI高度依赖英伟达,有Cloud TPU v5p。算法上,谷歌是Transformer的发明者,是一直以来算法的领头羊;还有搜索业务自己积蓄的底层算法和工程智力。

  生态方面,Google C端强于微软,微软除了云主如果window/office,而Google领有果真微软+苹果的C端智力。另外,模子层和诈欺层王人在一个体系下,当作应该比OpenAI和微软的定约快。

  4. 虽然,OpenAI的上风至少也还有这些:

  GPT4是3月就发布的,时候上率先了Gemini Ultra 9个月,过几个月是否会发布GPT5?

  ChatGPT的是一个Killer app,紧随后来的GPT4发布,OpenAI占领了用户心智,GPT也果真成了大模子的代名词。

  大众一亿多用户造成的用户响应和数据飞轮,大范围的落地仍是铺开。

  微软快得不像大公司的Copilot和Azure云浸透,OpenAI的创业心态,对于GPTs和GPT store的生态野望,王人是结实的肌肉。

  5. 被神话的多模态远景,被低估的Google的忍耐,被加快的AI过程,被喧嚣同一的AI风险领导。

  这可能是咱们——依然处于早期矇昧的东谈主类,在得到亘古未有的坐蓐力跃迁前的徜徉,也有可能是文静充分发育后,在被硅基超过的绝壁边际的试探。

  不管如何样,这注定是一段方兴未艾,游荡数年kaiyun开云官方网站,值得不雅察和记录的东谈主类历史。

股市回暖,抄底炒股先开户!智能定投、条款单、个股雷达……送给你>> 海量资讯、精确解读,尽在新浪财经APP

Powered by 开云真人(中国)官方网站 @2013-2022 RSS地图 HTML地图

鄂ICP备2020021473号-1