随着深度学习技术和硬件算力的快速发展,深度神经网络模型的参数规模和训练数据量不断扩大。在自然语言处理领域中,研究人员发现通过扩大模型的参数量和增加训练数据,能够增强语言模型的性能和泛化性,甚至出现“涌现”的现象,在一些任务上性能提升很大。这些经过参数量和数据量扩展的语言模型被称为大语言模型(Large Language Model,LLM)。为了进一步将这一概念推广到其他领域,例如计算机视觉领域,斯坦福人类中心人工智能研究所提出了基础模型(Foundation Model)的概念,指代在大量数据上进行训练,且能够适配各种下游任务的模型(一般通过自监督学习算法进行预训练得到)。中国研究人员也提出了与基础模型类似的概念,即大模型,指拥有大量参数、在海量数据上进行训练、具备优秀的数据和任务泛化性的模型。因此,在一定程度上,大模型和基础模型的概念是等价的。

相较于深度学习等传统人工智能技术,大模型表现出泛化性(Generalization)、通用性(Generality)、涌现性(Emergency)3个特征。泛化性是指模型在未见过的数据上的表现能力,大模型的泛化性强,能够适应和正确处理未见过的情况。通用性是指模型处理各种不同任务的能力,大模型具有强通用性,能够在广泛的任务类型上表现出良好的性能,不需要对每个新任务进行特别定制或重新训练。涌现性是指当模型达到一定的规模和复杂度时,能够展示出一些在小规模或较简单模型中未出现的能力或行为。大模型,尤其是一些预训练模型,展现出在少样本学习(Few-shot Learning)和零样本学习(Zero-shot Learning)情境下的强大能力,即便是对于一些没有直接在训练数据中见过的任务,大模型也能够给出合理的回答或解决方案。然而,大模型也存在一些缺点,大模型通常需要巨大的计算资源来训练和部署,可能会编纂和放大数据中的偏见,且在理解某些具体细节或某些领域特定知识时的精确度可能不如专门训练的模型。


中国在国家层面对大模型发展给予了极大的关注和支持,通过政策倾斜和资金投入,大力发展大模型产业。近一年来,大模型已经在法律、医疗、城市建设等多个行业迅速开展垂直应用,并展现出巨大的潜力和价值。随着中国油气资源品质的劣质化,油气勘探开发难度逐渐加大,亟须新质生产力提质增效。大模型为油气行业人工智能应用面临的“小样本”、“多模态数据综合分析”等问题提供了解决方案。本文总结大模型技术的国内外研究现状,综述大模型在通用行业和油气行业的垂直应用情况,探讨油气行业在大模型应用过程中面临的主要问题和挑战,并结合具体实例展望油气行业大模型的应用前景。

1 大模型技术概念及发展现状

虽然目前学术界还没有构建统一的标准来界定一个模型是否是大模型,但是存在一些公认的判定指标,包括参数量、训练数据量、泛化能力和适应性。具体而言,对于参数量,大模型通常拥有数亿到数十亿甚至更大的参数量;对于训练数据量,大模型通常在包含数百万到数十亿样本数的训练数据集(无论训练数据是否有标记)上进行训练;对于泛化能力,大模型能够在多项下游任务上表现出色,超过或接近传统深度学习中的最佳算法,同时在域外数据或任务上也表现良好;对于适应性,大模型通常能够采用少量的数据进行微调,灵活地迁移至新的任务或领域。

根据处理数据模态的不同,可以将现有的大模型分为3类:处理文本数据的大语言模型,处理图像视频等视觉数据的视觉大模型,和能同时处理文本、视觉多种模态数据的多模态大模型。

1.1 大语言模型

大模型最初指的是大语言模型,大语言模型的发展经历了一个漫长且复杂的过程。随着Transformer架构的成功,BERT[1]提出了掩码预测的自监督任务,通过自监督预训练与微调的范式,在多项自然语言处理任务上获得了出色的性能。同时期,OpenAI推出GPT(Generative Pre-trained Transformer)系列模型[2],GPT系列模型采用Transformer Encoder(Transformer编码器)的架构形式,并使用逐个单词(token)生成的方式进行预训练,通过扩大模型参数量至数亿甚至千亿级别,并扩充训练数据量,取得了良好的泛化性能。紧接着,T5[3]提出了Encoder-Decoder(编码器-解码器)的预训练架构,同时通过增加句子前缀,将不同的自然语言处理任务的输入和输出进行了统一。参考上述几类方法的成功经验,后续产生了各种各样的预训练和架构变体,包括国外的Flan-T5[4]和LLaMA[5]等,以及国内的百川[6]和InternLM[7]等预训练大语言模型。

在大语言模型微调方面,提示词微调通过在问题中增加答案的提示词(Prompt),诱导模型输出对应结果,从而实现对各种自然语言处理任务的零样本能力。指令微调(Instruction-tuning)在数据层面构建指令-输出的数据结构,使得模型在微调后能够理解对应的指令,并且拥有很好的指令泛化能力。在此基础上,OpenAI提出了对齐微调(Alignment-tuning),将人类偏好作为奖励,采用强化学习的方式对模型进行微调,使得模型的输出与人类的习惯对齐。思维链(Chain-of-Thought)则是通过将一个复杂任务拆分成多个简单任务,帮助模型输出更精确的结果。为了减少微调带来的训练工作量,通常采用稀疏的方式减少需要调整的参数量,例如LoRA[8]利用低秩近似来降低需要微调的参数量。此外,为了缓解大语言模型的幻觉和知识实时性问题,检索增强生成(Retrieval-Augmented Generation,RAG)技术采用构建外部数据库的方式,让大语言模型在生成相关内容时能够检索数据库的相关内容,从而生成更加精确的答案。

1.2 视觉大模型

视觉大模型的预训练与大语言模型类似,通常采用对比学习(Contrastive learning)和掩码模型(Masked autoencoder)这两类主流自监督方法进行预训练,如EVA[9]和DINOv2[10]等模型。在这类视觉大模型的基础上,通过微调,能够在指定数据集和任务上展现较好的水平。

在预训练层面,除了简单的微调,SAM[11]等模型通过设计数据闭环流程,使用大量部分标注数据对模型在指定任务或领域上进行微调,能够得到在对应任务或领域表现良好的视觉大模型。

在架构层面,为了实现类似大语言模型中的任务大统一,研究者们尝试设计了不同的模型架构,以达到视觉任务的统一表示。这部分架构主要有两类,第1类方法设计了统一任务解码头,以pix2seq[12]为代表。这类方法将视觉识别任务的输出格式统一成自然语言中的token形式,只需要输出不同的token即可实现对不同识别任务的预测。第2类方法为提示学习形式,在给定任务样例的情况下,模型能够根据样例对输入样本进行结果预测,如SegGPT[13]等。

1.3 多模态大模型

多模态大模型一般通过将多个单模态大模型进行对齐和微调而构成。在预训练方面,CLIP[14]采用了图像-文本多模态对齐预训练范式。在其基础上,ALIGN[15]、LiT[16]和EVA-CLIP[17]等网络进一步扩大了训练数据量与模型参数量,实现了更优秀的性能。此外,image-bind[18]和3D-LLM[19]提出将更多的模态特征进行对齐,包括语音、视频和三维点云数据。

在多模态视觉任务微调方面,Diffusion Model[20]与World Model[21]等生成模型将预训练好的大语言模型作为生成提示词进行微调,指导生成的内容。在感知任务中,VisionLLM[22]在统一视觉架构pix2seq的基础上引入大语言模型作为任务指引,并将其特征引入到图像空间,实现了优异的检测性能。此外,在SAM视觉大模型的基础上,Open-Vocabulary SAM[23]将SAM与CLIP进行结合,赋予SAM输出类别的能力。GLEE[24]则将大语言模型的特征输出作为SAM的提示词,引导SAM分割的结果。

在多模态文本任务微调方面,LLaVA[25]与MiniGPT[26]等使用适配器(adapter)的形式,将预训练好的视觉大模型EVA的特征与语言特征进行对齐,从而使大语言模型能够输出图像包含的内容。CogVLM[27]与SPHINX[28]则是在上述对齐的基础上,对大语言模型的解码器部分进行进一步微调,采用pix2seq的方式,使得微调后的视觉-语言多模态大模型能够同时完成文本生成和视觉基础任务(包括检测与分割)。此外,SayCan[29]和RT[30]系列等则将多模态大模型视为具身智能(Embodied AI)的终端,给定任务描述与图像,微调使其直接输出对应的操作(Action)。

2 大模型在垂直领域的应用现状

大模型根据其设计目的、训练数据和应用场景可分为通用基础模型、行业基础模型和场景模型。通用基础模型(L0级)旨在提供广泛的知识和能力,不专注于任何特定的行业或任务,通过在大规模多样化的数据集上进行训练,可以应用于多种不同的任务和领域,如文本生成、语言理解、基本的图像识别等。行业基础模型是在特定行业的数据上进行训练以捕获该领域内的专业知识和特定任务。行业基础模型主要针对特定行业的需求,如医疗健康、金融服务、法律、制造业等,提供更加精准和高效的服务。根据行业特点又可进一步细分,如油气行业可以细分为L1和L2两个等级。通用基础模型和行业基础模型都属于大型预训练模型,一般用来作为预训练骨干网络。场景模型(L3级)是基于通用基础模型或行业基础模型进行进一步的微调和定制,以适应特定场景需求的大模型。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。                  

原文链接:https://blog.csdn.net/chengxuyuanyy/article/details/140395122

若想了解更多有关油气行业大模型,赋能油气行业领域发展,可查看油气通GPT云平台,链相关接: https://cn.oilgasgpts.com/ ,也可使用手机扫描下方二位码进行查看。