原生多模态大模型Gemini（有道翻译版）_市场营销策划_重点报告202301202_doc.docx

资源ID：6895531 资源大小：775.71KB 全文页数：69页
资源格式： DOCX 下载积分：5金币

快捷下载

会员登录下载

三方登录下载：

下载资源需要5金币

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

原生多模态大模型Gemini（有道翻译版）_市场营销策划_重点报告202301202_doc.docx

4睛便产t-J4Cv：t：'.莅：，grl*https£fanyi.ycH谷歌DeePMindGemini:一个非常有能力的多模式模式的家庭Gemini小赳，我是Googlei本报告介绍了一个着的多模式模型家族,Gemini,它在图像、音频、视项和文本理解方面表现出卓越的能力.Gemini系列包括UlIra、ProDNano尺寸，适用于从复杂推理任务到设备上内存受限用例的应用.对广泛基准涌战的评估表明，我旬最强大的GeminiUIIra模型在32个基准流试中的30个中都达到了最先进的水平一一值得注意的是，它是第一个在经过充分研完的考试基准MMLU上达到人类专家性能的模型，并且在我们测试的20个多模式基准次试中都提高了最先进的水平.我11相信，Gemini模型在普模态推理和语言理解方面的新功能将支持各种各样的用根，我<将讨论如何负责任地向用户，皆它(1.介绍我们现在展示Gemini,一个由谷歌开发的高性能多模式模型家族。我们通过图像、音频、视频和文本数据对Gemini进行联合训练，目的是建立一个模型，该模型既具有跨模式的强大通才能力，又具有在每个各自领域的尖端理解和推理性能。Gemini1.0是我们的第一个版本，有三种尺寸:Uhra用于高度复杂的任务，Pro用于增强性能和大规模部署能力，Nano用于设备上的应用。每个尺寸都是专门定制的，以解决不同的计算限制和应用需求。我们在一套全面的内部和外部基准上评估Gemini模型的性能，这些基准涵盖了广泛的语言、编码、推理和多模态任务。Gemini在大规模语言建模方面取得了最新进展(Anil等人，2023;Brown等人，2020;ChoWdhery等，2023;霍夫曼等，2022年;OPenAl,2023;Radford等人，2019;Rae等人，2021),图像理解'(AIayraC等人，2022;Cheil等人，2022;DoSOVitSkiy等，2020;OpenAI,2023b;里德等，2022;YU等人，2022a),音频处理(RadfOrd等人，2023;Zhang等人，2023),以及视频理解(AlayraC等人，2022;Chen等，2023).它还建立在序列模型(SUtSkeVeretal.,2014)>基于神经网络的深度学习的长期工作历史(LeCUnetal.,2015)和机器学习分布式系统(Barhamctal.>2022;BradbUry等人，2018年;Deanetal.,2012),使大规模训练成为可能。我们最强大的模型GeminiUltra在我们报告的32个基准测试中的30个中取得了最先进的新结果，包括12个流行文本和推理基准测试中的10个，9个图像理解基准测试中的9个，6个视频理解基准测试中的6个，以及5个语音识别和语音翻译基准测试中的5个。GeminiUItra是第一个在MMLU上实现人类专家性能的模型(hendricks等人，2021a)个通过一系列考试测试知识和推理的著名基准一一得分超过90%0除了文本，GeminiUltra在挑战多模态推理任务方面取得了显著进展。例如，在最近的MMMU基准测试(YUeetal.,2023),它包含了关于需要大学水平学科的多学科任务中的图像的问题1完整的作者列表见投稿和致谢部分。请发送信件到gemini-l-report(3>googJe.m02023谷歌版权所有知识和深思熟虑的推理，GeminiUltra达到了新的最先进的得分62.4%,比之前的最佳模型高出5个百分点以上。它为视频问答和音频理解基准提供了统一的性能提升。定性评估展示了令人印象深刻的跨模态推理能力，使模型能够对输入的音频、图像和文本序列进行原生的理解和推理（见图5和表13）o考虑将图1中描述的教育环境作为一个例子。一个老师画了一个滑雪者下斜坡的物理问题，一个学生解决了这个问题。利用Gemini的多模态推理能力，该模型能够理解杂乱的笔迹，正确理解问题的表述，将问题和解决方案转换为数学排版，识别学生在解决问题时出错的具体推理步骤，然后给出一个经过处理的正确解决问题的方法。这开辟了令人兴奋的教育可能性，我们相信Gemini模型的新多模态和推理能力在许多领域都有巨大的应用。提示这是一个学生对物理问题的!爸.ZIaK示，41修知W上a下,991QM%SS>>能量的一致性意味着滑雪者在开始和结束时的能量是相同的 Staul: E=mgL结束:E=lmv2>>NGL = 2MV2v=-2gL=2x9.81r80 = 39.6m.s-l试着一步一步地推理这个问题.学生得到正确答案了吗?如果答宴是ts的，话解称错在中里并解决向建，仅便用LaTeXS行政学海鼻，弁轿佟答案四包五人到小Bt点后再位.响应这个学生没有得到正确答案.这个学生在计真斜率开始处的势能时犯了一个福误。料理开始处的势能由mgh给出，其中m是滑雪者的质.g是由于重力引起的想速度，h是斜坡的百度O在计B!势能对，学生使用的是坡度的长度L 而不是高度儿正BHM决方让JE：彘量守恒是指潘雪杳在斜城开始和结束时的总能量是相同的，在斜坡的起点，清金者只有为IIL ISmgh6ttL在斜坡的末诸，滑击者只有动能，用ImV给出IStt, M可以写：MGH = ImV消去两边的质量m,我In得到：克二1解出V SflSH:v=V2gh代入给定值，得到：v=V2x9.81x 40=28.01 m/s因代，哥Sif在科收度尊的速度为28Qlm图1I验证一个学生对物理问题的解决方案。该模型能够正确识别所有手写内容并验证推理。在理解图像中的文本的基础上，它需要理解问题设置并正确遵循指令来生成LATEX。大型语言模型的推理能力显示出了构建能够处理更复杂多步骤问题的多面手智能体的希望。AIphaCode团队构建了AlphaCode2（Leblond等人，2023年），这是一个新的双子座驱动的代理，它将Gemini的推理能力与搜索和工具使用相结合，在解决竞争性编程问题方面表现出色。在Codeforces竞争性编程平台上，AlphaCode2在进入者中排名前15%,比前50%的最先进的前身有了很大的改进（Lietal.,2022）。与此同时，我们通过GeminiNano推进了效率的前沿，这是一系列针对设备部署的小型模型。这些模型在设备上的任务中表现出色，如摘要、阅读理解、文本补全任务，并相对于其规模，在推理、STEM、编码、多模态和多语言任务中表现出令人印象深刻的能力。在接下来的章节中，我们首先提供了模型架构、训练基础设施和训练数据集的概述。然后，我们对Gemini模型家族进行了详细的部旅涵盖了经过充分研究的基准和人类偏好评估，包括文本、代码、图像、音频和视频一一包括英语表现和多语言能力。我们还讨论了友清任期著的方法，2包括在部署决定之前进行影响评估、制定模型政策、评估和减轻危害的过程。最后，我们讨论了Gemini更广泛的影响，它的局限性以及它的潜在应用一一为人工智能研究和创新的新时代铺平了道路。2 .模型架构Gemini模型建立在Transformer解码器（VaSWani等人，2017）之上，通过架构和模型优化的改进得到增强，以实现大规模的稳定训练，并在Google的张量处理单元上优化推理。它们经过训练以支持32k上下文长度，采用高效的注意力机制（例如，多查询注意力（ShaZeer,2019）。我们的第一个版本，Gemini1.0,包括三种主要尺寸，以支持广泛的应用程序，如表1所示。模型尺寸我们最有能力的模型，在各种高度复杂的任务中提供最先迸的性能，包括推理和多模式任务。由于双子座架构，它可以在TPU加速器上大规模有效地服务。在成本和延迟方面的性能优化模型，可在广泛的任务中提供显着的性能。该模型表现出强大的推理性能和广泛的多模态能力。我们最高效的型号，设计用于设备上运行。我们训练了两个版本的Nan0,参数分别为1.8B（NanO-I）和3.25B（NanO-2）,分别针对低内存和高内存器件。它是通过从更大的双子座模型中提取来训练的。它为部署进行了4位量化，并提供了一流的性能。表1IGeminiLO模型家族概述Gemini模型经过训练，可以适应文本瑜入与各种各样的音频和视觉输入交织在一起，比如自然图像、图表、截图、pdf和视频，它们可以产生文本和图像输出（见图2）oGemini模型的视觉编码灵感来自我们自己在FIamingO（AIayraC等人，2022）、CbGi（YU等人，2022a）和RlLl（Chen等人，2022）上的基础工作。有一个重要的区别，即模型从一开始就是多模态的，并且可以使用离散的图像标记原生输出图像（RameSheIal.,2021;YUetal.,2022b）o视频理解是通过将视频编码为大上下文窗口中的一系列帧来完成的。视频帧或图像可以与文本或音频自然交错，作为模型输入的一部分。模型可以处理可变的输入分辨率，以便花费更多的计算我们计划在GeminiUIg模型全面上市之前更新这份报告，提供更多细节。喻入序列图2IGemini支持文本、图像、音频和视频的交错序列作为输入（通过输入序列中不同颜色的标记来说明）。它可以用交错的图像和文本输出响应。需要细粒度理解的任务。此外，Gemini可以直接从通用语音模型（USM）（ZhangeIal.,2023）特征中摄取16kHz的音频信号。这使得模型能够捕捉音频被天真地映射到文本输入时通常会丢失的细微差别（例如，请参阅网站上的音频理解演示）。训练Gemini系列模型需要在训练算法、数据集和基础设施方面进行创新。对于Pro模型，我们的基础设施和学习算法的固有可扩展性使我们能够在几周内完成预训练，利用Ultra的一小部分资源。Nano系列模型利用蒸储和训练算法的额外进步，为各种任务（如摘要和阅读理解）生产一流的小型语言模型，为我们的下一代设备体验提供动力。3 .培训基础设施我们使用TPUv5e和TPUV4（Jouppi等人,2023）来训练Gemini模型,具体取决于它们的大小和配置。GeminiUltra训练中心在多个数据中心使用了大量的TPUV4加速器。这代表了我们之前的旗舰型号PaLM-2的规模显着增加，这带来了新的基础设施挑战。加速器数量的增加会导致整个系统中硬件的平均故障时间成比例地减少。我们最小化了计划重调度和抢占的比率，但由于宇宙射线等外部因素，在如此大规模的所有硬件加速器中，真正的机器故障是司空见惯的（MiChaIaketal.,2012）TPUv4加速器部署在4096个芯片的“S叩CrPOdS”中，每个芯片连接到一个专用的光开关，它可以在大约10秒内动态地将4x4x4芯片立方体重新配置为任意3D环面拓扑（JOUPPi等人，2023）,对于GeminiUltra,我们决定在每个超级舱中保留少量的立方体，以允许热备用和滚动维护。TPU加速器主要通过高速芯片间互连进行通信，但在GeminiUltra规模下，我们使用谷歌的集群内和集群间网络在多个数据中心中组合SuperPods（Poutievski等人，2022;WelheraIl等人，2023;姚红等，2018）。谷歌的网络延迟和带宽足以支持常用的同步训练范式，利用SUPerPOdS内部的模型并行性和S叩CrPOdS之间的数据并行性。Jax(Bradburyetal.2018)和Pathways(Barhametal.2022)的"单控制器”编程模型允许单个PythOn进程协调整个训练运行，极大地简化了开发工作流。XLA编译器中的GSPMD分区器(XUetaL2021)对训练步长计算进行分区，MegaScaleXLA编译器(XLA,2019)通过静态调度适当的集合，使它们在步长时间变化很小的情况下最大限度地与计算重叠。使用对持久集群存储的权重定期检查点的传统方法，在这种规模上保持一个高的goodput5at是不可能的。对于Gemini,我们使用了模型状态的冗余内存副本，并且在任何计划外的硬件故障上，我们可以直接从完整的模型副本中快速恢复。与PaLM和PaLM-2相比(Anilctal.,2023),尽管使用了更大的训练资源，但这在恢复时间上提供了显着的加速。因此，最大规模训练工作的总体有效产出从85%增加到97%o空前规模的训练总是会出现新的有趣的系统故障模式一一在这种情况下，我们需要解决的问题之一是“无声数据损坏(SDC)"(Dixit等人，2021;Hochschildetal.»2021;VishwanathanetaL,2015)0虽然这种情况非常罕见，但Gemini的规模意味着我们可以预期SDC事件每隔一两个星期就会影响训练。快速检测和移除故障硬件需要几种新技术，利用确定性重放来隔离不正确的计算，并结合空闲机器和热备用上的主动SDC扫描仪。我们完全确定的基础设施使我们能够在Ultra模型的开发过程中快速识别根本原因(包括硬件故障)，这是稳定训练的关键因素。4 .训练数据集Gemini模型是在一个多模态和多语言的数据集上训练的。我们的预训练数据集使用来自网络文档、书籍和代码的数据，包括图像、音频和视频数据。我们使用SentencePiecetokenizer(Kudo和Richardson,2018)»发现在整个训练语料库的大样本上训练tokenizer可以提高推断的词汇表，并随后提高模型性能。例如，我们发现Gemini模型可以有效地标记非拉丁文字，这反过来又有利于模型质量以及训练和推理速度。用于训练最大模型的token数量是按照Hoffmann等人(2022)的方法确定的。较小的模型被训练为明显更多的token,以提高给定推理预算的性能，类似于Touvron等人(2023a)提倡的方法。将高质量过滤器应用于所有数据集，使用启发式规则和基于模型的分类器。我们还执行安全过滤，以删除有害内容。我们从训练语料库中过滤我们的评估集。最终的数据混合和权重是通过较小模型上的消融来确定的。我们分阶段训练以在训练期间改变混合组成-在训练结束时增加领域相关数据的权重。我们发现，数据质量对一个高性能的模型至关重要，并相信围绕寻找预训练的最佳数据集分布仍然存在许多有趣的问题。3我们将goodput定义为诃算有用的新步滕所花费的时间除以训练1：作经过的时间。5 .评价Gemini模型本身是多模态的，因为它们是通过文本、图像、音频和视频联合训练的。一个开放的问题是，这种联合训练是否可以产生一个在每个域都具有强大能力的模型一一即使与仅为单个域量身定制的模型和方法相比。我们发现情况就是这样:Gemini在广泛的文本、图像、音频和视频基准上树立了一个新的艺术状态。5.1. 文本我们将GeminiPro和Ullra与一套外部法学硕士和我们之前最好的型号PaLM2进行了比较，涵盖了推理、阅读理解、STEM和编码等一系列基于文本的学术基准。我们将这些结果报告在表2中。总体而言，我们发现GeminiPro的性能优于GPT-3.5等推理优化模型，并与市面上几种功能最强大的模型相媲美，而GeminiUltra的性能优于当前所有模型。在本节中，我们将检查其中的一些发现。在MMLU±（Hendrycks等人，2021a）,GeminiUltra可以优于所有现有模型，达到90.04%的精度。MMLU是一个全面的考试基准，它衡量了57个科目的知识。人类专家的表现被基准作者衡量为89.8%,GeminiUltra是第一个超过这个门槛的模型，之前最先进的结果为86.4%。要取得高性能，除了阅读理解和推理外，还需要跨许多领域的专业知识（例如法律、生物学、历史等）。我们发现,当与考虑模型不确定性的思维链提示方法（Weietal.,2022）结合使用时，GeminiUItra可以达到最高的精度。该模型用k个样本产生一个思维链，例如8或32。如果有超过预设阈值的共识（根据验证分割选择），它就选择这个答案，否则它就恢复到一个基于最大似然选择的贪婪样本，而不需要思维链。我们请读者参考附录，详细分析了这种方法与仅采用思维链提示或仅采用贪婪抽样的比较情况。在数学这个通常用来测试模型分析能力的领域，GeminiUltra在初级考试和竞赛级问题集中都表现得很好。对于小学数学基准GSM8K（Cobbectal.,2021）,我们发现GeminiUltra在思维链提示和自我一致性（Wangetal.,2022）的情况下达到94.4%的准确率，而之前使用相同提示技术的最佳准确率为92%o从中学和高中数学竞赛（math基准）中得出的难度增加的数学问题中也观察到类似的积极趋势，GeminiUltra模型优于所有竞争对手模型，使用4次提示达到53.2%。该模型在来自美国数学竞赛的更困难的任务（2022年和2023年的150道题）上的表现也超过了最先进的水平。较小的模型在这项具有挑战性的任务中表现不佳，得分接近随机，但GeminiUItra可以解决32%的问题，而GPTW的解题率为30%GeminiUItra还擅长编码，这是当前法学硕士的一个流行用例。我们在许多常规和内部基准上评估了该模型，并将其作为更复杂的推理系统（如AlphaCode2）的一部分来衡量其性能（参见关于复杂推理系统的5.1.7节）。例如，在HumanEval上，一个将函数描述映射到Python实现的标准代码完成基准（Chenctal.,2021）,指令调优的GeminiUltra正确实现了74.4%的问题。在Python代码生成任务的新评估基准Natural2Code中，我们确保没有web泄漏，GeminiUllra获得了74.9%的最高分数。双子座超双子座SGPT-4印t3.5椽桐2I克劳镌2InfkalOA2格罗克1LLAMA-2MMLU57个科目专业和学术助选择团（HaldryCkSetal.2021a）90.04%CoTg>32M.7%SFCOT879.13%718%W5岁37.29CoT32通i2APl-J864%5X(BCfi)70%78.4%的5岁5岁78.5%79.6%73.0%5发COT5发5岁68.0%GSMM(C40teWA,JtW94.4%Mdjigaa86.5%MMI33292.0%SFT和5ttsT57.1%M5岁80.0%W5岁桀越shot81.4%8-shot62.9%8-shot5岁数学弟越5个充度级别107个子字的数学问题（HendfyCkSetL2021b）53.2%4-shot32.6%4-shot52.9%峨(SilAPI)50.3%丽2023)34.14(i3AP)34.4%4-shot34.8%1三4-shot4-shotBIG-Bench-Hard芍为COT向嚣的hardBIGbench任务子集(SrivastaYdCtdL.2022)(Chenetdl.,2021)83.6%3-shot75.0%3sht83.1*31(通过API")必仍三投（APIe）11.7%3-shot512%3shcXHumanEvaIF><ho11M474.4%O-ShOt（三）6t7O-ShoKfTJ67.0ool(jta48.1%Oshot酸。-ShK峨63.2%O-shotO-shotNaturaUCodePyon代为生涯(wet>±没有itt三Brheloutset)74.9%O-shot69.6%O-shot73.9%0-ot(iA3API")62.3%0-hot(iSlAPI)一一一一一下降Kiiiawew*.(指标:Fl-score)(Duaetalf2019)824可S74.1可变镜头80.93发（已报告）64.13-shot82OXl照片-海拉脏物i½*Miftra>4«a.JMSI87.8%10-shot84.7%10-shot眼10shotI(MhotdeD86.8%10-shot89.0%10-shot*80.0%WMT23机播翻国指标:BlEURDCrOmetaL2023)74.4lshot(IT)n.T以73311(通过API")一72.71次一表2|Gemini在文本基准测试中的表现与外部比较和PaLM2-1。<huiw*.nwamttP!t»e（y?R4.a!Pi½w91结果于2Q23年11月通过APl自行收集.”所显示的结果使用T）UVrPn等人（2023b）报告中的净化数字作为与也经过净化的GCmini模型最相关的比较.对这些基准的评估具有挑战性，可能会受到数据污染的影响。我们在训练后进行了广泛的泄露数据分析，以确保我们在这里报告的结果尽可能科学合理，但仍然发现了一些次要问题，并决定不报告例如LAMBADA的结果（PaPemOetal.,2016）。作为评估过程的一部分，在一个流行的基准HellaSwag（Zellers等人，2019）±,我们发现在特定网站提取物上额外的100个微调步骤对应于HellaSwag训练集（未包括在Gemini预训练集中），当使用1次提示进行测量时，GeminiPrO的验证精度提高到89.6%,GeminiUltra的验证精度提高到96.0%（我们测量的GPT4在通过API进行1次评估时获得了92.3%）o这表明，基准结果易受预训练数据集组成的影响。我们选择仅在10次评估设置中报告HellaSwag去污结果。我们认为有必要在没有泄露数据的情况下，制定更强大、更细致的标准化评估基准。因此，我们在最近发布的几个新的评估数据集（如WMT23和Math-AMC2022-2023问题）或从非网络来源（如NalUmI2Code）内部生成的数据集上评估Gemini模型。我们请读者参考附录以获取我们评估基准的全面列表。即便如此，模型在这些基准上的表现为我们提供了模型能力的指示，以及它们可能在哪里对现实世界的任务产生影响。例如，GeminiUltra令人印象深刻的推理能力和STEM能力为在教育领域4的法学硕士学位的进步铺平了道路。解决复杂数学和科学概念的能力为个性化学习和智能辅导系统开辟了令人兴奋的可能性。5.1.2. 能力趋势我们调查了Gemini模型家族的能力趋势，通过在六种不同能力的50多个基准测试中对它们进行整体评估，注意到在上一节中讨论了一些最值得注意的基准测试。这些能力是:涵盖开卷/闭卷检索和问答任务的“事实性”；“长上下文”涵盖长形式的摘要、检索和问答任务；“数学/科学”，包括数学问题求解、定理证明、科学考试等任务;需要算术、科学和常识推理的“推理”任务;以多种语言进行翻译、总结和推理的“多语言”任务。请参阅附录，了解每个能力所包含的详细任务列表。1.41.21.0:8 0.8 D:§0.60.40.20.0JM1r L鬻/摘要J MMaity图3I跨不同能力的Gemini模型族的语言理解和生成性能（由GeminiPro模型规范化）。我们在图3中观察到随着模型大小的增加，质量得到了一致的提升，特别是在推理、数学/科学、摘要和长上下文方面。GeminiUkra是所有六个功能的最佳模型。GeminiPrO是Gemini系列中的第二大型号，在服务效率更高的同时也很有竞争力。5.1.3. Natio为了使人工智能更接近用户，我们讨论了为设备上部署而设计的GeminiNano1和Nano2模型。这些模型通过每个任务的微调，在摘要和阅读理解任务中表现出色。图3显示了这些预训练模型与更大的GeminiPro模型的性能对比，而表3则更深入地介绍了具体的事实、编码、数学/科学和推理任务。Nano-I和Nano-2模型尺寸分别只有1.8B和3.25B参数。尽管他们规模庞大，但他们在事实性（即检索相关任务）方面表现出异常强劲的表现，在推理、STEM、编码、多模态和参见网站ind.google/gemini上的演示。多语言的任务。随着新功能可被更广泛的平台和设备访问，Gemini模型扩展了对每个人的可访问性。GeminiNanolGeminiNano2Hl由出。现死化HX透过与致布尔克71.60.8179.30.90TydiQA(金P)68.90.8574.20.91NatUralQUeStion乂险索)38.60.6946.50.83NaturalQuestions(US)18.80.4324.80.S6BIG>Bench-Hard(3-shot)34.80.4742.40.58MBPP系列20.00.3327.20.45MATH(4-shot)13.50.4122.80.70MMLU(5发)45.90.6455.80.78表3卜与GeminiPro模型相比，GeminiNano系列在事实、总结、推理、编码和STEM任务方面的表现。5.1.4. MultilingualityGemini模型的多语言能力是通过一组不同的任务来评估的，这些任务需要多语言理解、跨语言泛化和多语言文本的生成。这些任务包括机器翻译基准测试（用于高、中、低资源翻译的WMT23;FIores、NTREX（用于低资源语言和极低资源语言）、摘要基准测试（XLSUm、WikiIingUa）和通用基准测试的翻译版本（MGSM:专业翻译成11种语言）。机器翻译翻译是机器学习领域的经典基准，有着丰富的历史。我们对WMT23翻译基准测试中的整套语言对进行了指令调优（参见6.4.2节）的GeminiUltra评估。总体而言，我们发现GeminiUltra（以及其他Gemini模型）在从英语到任何其他语言的翻译方面表现非常好，并且在翻译非英语时，在高资源，中等资源和低资源语言时超过了基于法学硕士的翻译方法。在WMT23非英语翻译任务中，GeminiUltra实现了最高的法学硕士翻译质量，BLEURT（Sellametal.,2020）的平均得分为74.8分，而GPT-4的得分为73.6分，PaLM的得分为72.2分。当对WMT23的所有语言对和方向进行平均时，我们看到GeminiUltra在该基准上的平均得分为74.4,GPT-4为73.8,PaLM2-L为72.7。京东商城23(AVgBLEURT)双子座超双子座的职业GeminiNano2GeminiNanolGPT-4粽橱21SSS74.271.767.764.174.072.6中期资源74.771.867.064.873.672.7从英国74.871.566.265.273.672.2成英语73.972.069.063.574.173.4所有的语言74.471.767.464.873.872.7表4IGemini模型在WMT23翻译基准上的性能。所有数字都用lsho.除了以上的语言和翻译任务，我们还在资源非常少的语言上评估GeminiUItra。这些语言是从以下语言集的尾部采样的:Flores-200（Tamazight和Kanure）,NTREX（北恩德贝勒）和内部基准（Quechua）o对于这些语言，无论是英语还是英语，GeminiUltra在一次射击设置中平均ChrF得分为27.0,而第二好的型号PaLM2-L的得分为253。除了翻译，我们还评估了Gemini在各种语言的挑战性任务中的表现。我们专门研究了数学基准MGSM（Shietal.,2023）,它是数学基准GSM8K（Cobbeetal.,2021）的翻译版本。我们发现GeminiUltra的准确率达到了79.0%,超过了PaLM2-L的74.7%,在8次射击设置中对所有语言进行平均。我们还在多语言摘要基准-XLSUm（Hasan等人，2021）和WikiLingua（Ladhak等人，2020）上对Gemini进行了基准测试。在XLSum中，GeminiUltra的平均rougeL得分为17.6,而PaLM2的平均rougeL得分为15.4o对于Wikilingua,GeminiUltra（5杆）落后于PaLM2（3杆），以BLEURT评分衡量。完整结果见表5。总体而言，多种多样的多语言基准测试表明，Gemini系列模型具有广泛的语言覆盖范围，使它们也能够覆盖语言资源匮乏的地区和地区。双子座超双子座的职业GPT-4棕椅2IMGSM(a-shot)79.063574.574.7XLsum(3次)17.616.215.4Wikilingua48.947.850.4表5IGemini模型在多语言数学和总结上的表现。5.1.5. 长背景Gemini模型的序列长度为32,768个标记，我们发现它们有效地利用了它们的上下文长度。我们首先通过运行一个合成检索测试来验证这一点:我们将键值对放在上下文的开头，然后添加长填充文本，并要求与特定键相关联的值。我们发现，在查询整个上下文长度时，Ultra模型检索正确值的准确率为98%。我们通过绘制图4中一组长文档的负对数似然（NLL）与令牌索引的关系来进一步研究这一点。我们发现NLL随序列位置的增加而减小，直到完整的32K上下文长度。Gemini模型更长的上下文长度支持新的用例，例如5.2.2节中讨论的文档检索和视频理解。图4I在一组长文档上，负对数似然作为token索引在32K上下文长度上的函数。IO5.1.6. 人类偏好评价人类对模型输出的偏好提供了质量的重要指示，是自动评估的补充。我们对Gemini模型进行了并排的盲评估，人类评分员对两个模型对同一提示的反应进行了评估。我们使用第6.4.2节中讨论的技术指导调优(欧阳等人，2022)预训练模型。指令调优版本的模型在一系列特定能力上进行评估，如遵循指令、创意写作、多模态理解、长上下文理解和安全性。这些能力包括一系列受当前用户需求启发的用例和受研究启发的潜在未来用例。指令调整的GeminiPro模型在一系列功能上提供了很大的改进，包括GeminiPro模型优于PaLM2模型API,创意写作时间为65.0%,遵循指令的时间为59.2%,安全响应时间为68.5%,如表6所示。这些改进直接转化为更有帮助和更安全的用户体验。创造力指令后安全获胜的几率65.0%59.2%68.5%95¼HBW(62.9%,67.1%(57.6%,60.8%66.0%,70.8%表6IGeminiPro对PaLM2的胜率(texl-bison001),95%置信区间。5.1.7. 复杂推理系线Gemini还可以结合其他技术，如搜索和工具使用来创建强大的推理系统，可以解决更复杂的多步骤问题。这种系统的一个例子是AlphaCode2,这是一种新的最先进的代理，擅长解决竞争性编程问题(Leblondetal,2023)。AlphaCode2使用专用版本的GeminiPro对竞争性编程数据进行了调优，类似于Li等人(2022)中使用的数据一一在可能的程序空间中进行大规模搜索。接下来是量身定制的过滤、聚类和重排序机制。GeminiPro经过微调，既可以作为生成提案解决方案候选的编码模型，又可以作为用于识别和提取最有希望的候选代码的奖励模型。AlphaCode2在Codeforces5(与AIPhaCOde相同的平台)上进行评估，从1区和2区进行12场比赛，总共77个问题。AlphaCode2解决了43%的竞争问题，比之前创纪录的AlPhaCO加系统解决了25%的问题提高了1.7倍。将其映射到竞争排名中，建立在GeminiPn)之上的AlphaCode2平均估计位于第85个百分位-即。它的表现优于85%的参赛者。这与AlphaCode相比是一个重大进步，后者的表现仅超过50%的竞争对手。强大的预训练模型与搜索和推理机制的组合是一个令人兴奋的方向，朝向更通用的智能体;另一个关键因素是对一系列模态的深入理解，我们将在下一节中讨论。5http:/Gemini的模特天生是多模式的。这些模型展示了一种独特的能力，可以将它们跨模态的能力（例如从表格、图表或图形中提取信息和空间布局）与语言模型的强大推理能力（例如其在数学和编码方面的最先进性能）无缝结合起来，如图5和12中的示例所示。这些模型还在识别输入中的细粒度细节、聚合跨空间和时间的上下文以及在时间相关的视频帧和/或音频输入序列上应用这些能力方面表现出强大的性能。Z面的章节提供了跨不同模态（图像、视频和音频）的模型的更详细的评估，以及该模型的图像生成能力和跨不同模态结合信息能力的定性示例。5.2.1. 形象的理解我们在四种不同的能力上评估了该模型:使用字幕或问答任务（如VQAV2）的高级目标识别;使用要求模型识别低级细节的TextVQA和DocVQA等任务的细粒度转录;需要使用ChanQA和InfograPhieVQA任务对输入布局进行空间理解的图表理解;以及使用Ai2D、MathViSta和MMMU等任务进行多模态推理。对于零样本QA评估，该模型被指示提供与特定基准一致的简短答案。所有数字都是使用贪婪采样获得的，没有使用任何外部OCR工具。GeminiUIg仅供青)GeminiProt仅限母妻）GeminiNdno2(仅像胤GemlniNano1(S*)GPT-4V之前SOTAMMMU（val）多学制大学舄面的同麴（Yueetai,2023）59.4%pass(S>l62.4%Majl3247.9%32.6%26.3%56.8%S6.%GPTMV.O-ShotTextVQA(val)自然图像上的文字阅读(Singhetal.,2019)82.3%74.6%65.9%62.5%78.0%79.5%GggIePaU3微调DocVQA(JIiJt)文档的A解(MatheWetaL2021)90.9%88.1%74.3%72.2%88.4%（像素）88.4%GPT-4V,O-shtChartQA(Sia)图表理解(MaSryetaL2022)80.8%74.1%51.9%53.6%78.5%(4shot床)79.3%GoogJeSfS,1发PoTInfographicVQA(JMa)(MathewetaLv2022)80.3%75.2%54.5%51.1%75.1%(像素)75.1%GPT-4V,

注意事项

本文（原生多模态大模型Gemini（有道翻译版）_市场营销策划_重点报告202301202_doc.docx）为本站会员（李司机）主动上传，三一办公仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一办公（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。