2023-12-23 05:58 点击次数:113
Google最强盛的大模子Gemini发布了,接续读了工夫申报和一些评测/分析kaiyun开云官方网站,周末记录和共享一下:
一、几点值得Mark的札记
Gemini Ultra的得分为90.0%,是第一个在MMLU(大范围多任务谈话清醒)上越过东谈主类各人的模子,相同于高考。国表里也有相同的评测基准。
比如C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。
2. 这次Google对Gemini宣传隆起的最大亮点——多模态。“Gemini缱绻成原生的多模态,从一运转就在不同的模态上进行预测验。助于Gemini重新运转无缝地清醒和推理多样输入,远远优于现存的多模态模子——其智力在果真每个畛域王人是起始进的。”
衔命 next token prediction 的表情,Gemini 把多模态数据重新测验,包括文本、图片、音频、视频等,悉数模态数据调度为 token,临了变成一维线性输入(不同的模态按照情态法例标志),让模子展望 next token。
3. Google连气儿发布了三个规格的模子:Ultra是最大的,对标GPT4和4V、还莫得灵通(12月13日灵通API)。Pro对标GPT3.5,在好意思区Bard上不错用(我试了下我的Bard,如故之前的LaMDA)。Nano是小模子,在谷歌的Pixel 8手机上不错用。
4. 工夫申报中,Google强调了算力上风:“咱们文书迄今限度最强盛、高效和可彭胀的TPU系统——Cloud TPU v5p ,旨在测验顶端的东谈主工智能模子。”
翻译成大口语,即是:微软/OpenAI/Anthropic这些公司,利润(据说70%)王人被Nvidia吃了,我的利润如故我方的。(其实微软和OpenAI也在尝试我方作念芯片,仅仅程度慢于Google。)
5. Gemini语音识别在主要语种上有大幅进步(Bleu值比OpenAI的Wisper 2高10个点,但在其他语种上Wisper更强。机器翻译智力在WMT2023的测试集上评测的效能,也比GPT4略高)。
二、一个浅易的评测
没用视频,用这张图试了下一些有多模态智力的模子。顺次是:上传这张图,然后问:从缱绻上看,图中哪个车会跑得更快?
百度文心4.0:
智谱清言:
ChatGPT的GPT4:
Google Bard(还不是Gemini Pro):
未几驳倒,不外四个同学王人挺有益思意思~
三、几点念念法
1. 对于多模态:及时处理声息、视频流、果真寰球交互,意味着具身智能的一大步。不错及时罗致信息并及时处理任务,更像东谈主类的糊口场景了。Google坐拥大众最大的视频网站Youtube,测验多模态模子条款优厚。何况最近大火的文生图Midjourney和文生视频Runway/Pika,讲授了多模态在买卖上的后劲。
不外,从智能的角度说,多模态被神化了。比较于文本谈话模子,多模态模子从智能上来说进步并不大,模子在清醒、推理、创造方面并莫得显耀的进步。除了视频的测验难度,我猜念念,咱们低估了文本。Rust首创东谈主Graydon Hoare说过:“悉数的文体和诗歌、历史和玄学、数学、逻辑、编程和工程王人依靠文本编码来抒发它们的念念法,这不是一个偶合”。
文本如实保存了东谈主类贤达的精华,古今中外的贤达、对寰球万物的领路和发现,自有东谈主类笔墨纪录以来,果真王人存到文本中。
一方面,GPT仅仅一个读了万卷书的“书呆子”,却仍是能具备强盛的学问、清醒、推理和创造力,颇有点“不出户,知天地;不窥牖,见天谈“的滋味。另一方面,大当然这本书,到底如何读?这似乎是一个宏大的问题。从果真寰球学习知识,就像行万里路比较于读万卷书,低效太多。
2. Gemini莫得现场演示,网传一些复现视频和Demo视频不符,有夸大宣传嫌疑。不外,从Bard不休浮松和ChatGPT差距的事实,以及Google玄虚智力判断,Gemini Ultra智力不会和宣传的相差太大。
Gemini这一仗奠定了AI畛域的双子星口头,咱们王人低估了Google的忍耐。
从竞争口头看,不管是Meta的开源Llama2,如故主打安全的Anthropic、马斯克的X.ai,现在的差距王人拉大了。
3. Google的上风有这些:
组织方面,本年事首DeepMind和Google Brain的合并,处置了力量漫步和领路不长入的问题,化颓势为上风。
东谈主才方面,领军东谈主物是AlphaGo的激动者,对AGI清醒真切的Demi Hassabis,首席科学家是工程师传奇级东谈主物Jeff Dean。东谈主数方面,工夫申报作家栏的东谈主数好几页,已快要千东谈主。仍是比OpenAI的东谈主数多(七百多东谈主)。
算力/算法/工程方面:算力上谷歌不像微软和OpenAI高度依赖英伟达,有Cloud TPU v5p。算法上,谷歌是Transformer的发明者,是一直以来算法的领头羊;还有搜索业务自己积蓄的底层算法和工程智力。
生态方面,Google C端强于微软,微软除了云主如果window/office,而Google领有果真微软+苹果的C端智力。另外,模子层和诈欺层王人在一个体系下,当作应该比OpenAI和微软的定约快。
4. 虽然,OpenAI的上风至少也还有这些:
GPT4是3月就发布的,时候上率先了Gemini Ultra 9个月,过几个月是否会发布GPT5?
ChatGPT的是一个Killer app,紧随后来的GPT4发布,OpenAI占领了用户心智,GPT也果真成了大模子的代名词。
大众一亿多用户造成的用户响应和数据飞轮,大范围的落地仍是铺开。
微软快得不像大公司的Copilot和Azure云浸透,OpenAI的创业心态,对于GPTs和GPT store的生态野望,王人是结实的肌肉。
5. 被神话的多模态远景,被低估的Google的忍耐,被加快的AI过程,被喧嚣同一的AI风险领导。
这可能是咱们——依然处于早期矇昧的东谈主类,在得到亘古未有的坐蓐力跃迁前的徜徉,也有可能是文静充分发育后,在被硅基超过的绝壁边际的试探。
不管如何样,这注定是一段方兴未艾,游荡数年kaiyun开云官方网站,值得不雅察和记录的东谈主类历史。
股市回暖,抄底炒股先开户!智能定投、条款单、个股雷达……送给你>> 海量资讯、精确解读,尽在新浪财经APPPowered by 开云真人(中国)官方网站 @2013-2022 RSS地图 HTML地图
鄂ICP备2020021473号-1