title: GPT

GPT模型

GPT (Generative Pre-trained Transformer) 是由OpenAI于2018年提出的预训练语言模型,通过结合无监督预训练和有监督微调的方式,在多种自然语言处理任务上取得了显著成果。

GPT的诞生背景

GPT模型发表于论文《Improving Language Understanding by Generative Pre-Training》,是第一个将Transformer架构与大规模预训练结合的模型之一。在当时,NLP领域正从特定任务的监督学习转向利用大规模无标注文本进行预训练的范式。

GPT模型示意图

技术创新

GPT的关键创新在于采用了两阶段训练策略:先在无标注文本上进行自回归语言建模预训练,再在特定任务上进行有监督微调,充分利用了大规模无标注数据的潜力。

模型架构

GPT基于Transformer的解码器架构,具有以下特点:

  • 单向上下文:使用掩码自注意力机制,只关注左侧上下文
  • 多层结构:包含12层Transformer解码器块
  • 自回归生成:逐词预测序列中的下一个词
import torch
import torch.nn as nn

class GPTBlock(nn.Module):
    def __init__(self, n_embd, n_head, dropout=0.1):
        super(GPTBlock, self).__init__()
        self.ln_1 = nn.LayerNorm(n_embd)
        self.attn = nn.MultiheadAttention(n_embd, n_head, dropout=dropout)
        self.ln_2 = nn.LayerNorm(n_embd)
        self.mlp = nn.Sequential(
            nn.Linear(n_embd, 4 * n_embd),
            nn.GELU(),
            nn.Linear(4 * n_embd, n_embd),
            nn.Dropout(dropout)
        )
        
    def forward(self, x, mask=None):
        # 注意力层
        x_norm = self.ln_1(x)
        attn_output = self.attn(x_norm, x_norm, x_norm, attn_mask=mask)[0]
        x = x + attn_output
        
        # 前馈层
        x = x + self.mlp(self.ln_2(x))
        
        return x

预训练方法

GPT采用无监督的自回归语言建模进行预训练,目标是预测给定上下文后的下一个词:

  • 数据集:来自BooksCorpus的800万网页,包含约40GB文本
  • 目标函数:最大化序列中每个位置的下一个词的条件概率
  • 训练周期:在8个GPU上训练了约1个月

预训练目标函数:

其中是无标注文本语料库,是模型参数。

微调方法

预训练完成后,GPT通过监督微调适应下游任务:

  1. 任务特定输入转换:针对不同任务类型(分类、相似度、多项选择等)设计特定输入格式
  2. 额外线性层:在预训练模型顶部添加简单线性输出层
  3. 端到端微调:同时更新预训练模型和新增的输出层权重

微调目标函数:

最终训练目标是预训练和微调目标的组合:

其中是权重系数。

GPT的性能与影响

GPT在多个NLP基准测试上取得了当时的最先进结果:

任务性能提升
自然语言推理+5.5%
问答+5.8%
语义相似度+2.4%
分类+1.5%

"GPT的成功证明了无监督预训练可以显著改善自然语言理解任务的性能,减少对大规模标注数据的依赖。" —— OpenAI研究人员

GPT的应用场景

GPT适用于各种自然语言处理任务:

  1. 文本分类:情感分析、主题分类
  2. 自然语言推理:判断句子间的蕴含关系
  3. 相似度评估:衡量文本语义相似程度
  4. 问答系统:根据问题生成答案
  5. 阅读理解:从文章中提取信息回答问题

以下是使用GPT进行文本分类的简化示例:

from transformers import GPTModel, GPTTokenizer
import torch.nn as nn

class GPTClassifier(nn.Module):
    def __init__(self, num_classes):
        super(GPTClassifier, self).__init__()
        self.gpt = GPTModel.from_pretrained('openai-gpt')
        self.classifier = nn.Linear(self.gpt.config.n_embd, num_classes)
        
    def forward(self, input_ids, attention_mask=None):
        # 获取GPT的输出
        outputs = self.gpt(input_ids=input_ids, attention_mask=attention_mask)
        # 使用最后一个隐藏状态进行分类
        last_hidden = outputs.last_hidden_state[:, -1]
        logits = self.classifier(last_hidden)
        return logits

GPT的局限性

尽管GPT取得了显著成功,它仍存在一些局限性:

  • 单向上下文:只能利用左侧上下文,无法双向理解文本
  • 固定上下文长度:最多处理512个词元,难以理解长文本
  • 领域知识有限:在特定领域的知识不够丰富
  • 参数规模较小:与后续模型相比,参数量仅1.17亿,能力有限

GPT的历史意义

GPT在NLP发展史上具有重要意义:

  • 开创新范式:确立了"预训练+微调"的工作流程
  • 验证自回归:证明了自回归语言模型的有效性
  • 架构选择:验证了Transformer解码器在生成任务中的优势
  • 奠定基础:为GPT-2、GPT-3等后续模型铺平道路

GPT虽然参数量不大,但其预训练-微调范式和模型架构选择对后续大型语言模型的发展产生了深远影响,可以说是现代大语言模型时代的重要起点。

小结

作为OpenAI GPT系列的第一代模型,GPT通过结合Transformer架构与大规模无监督预训练,展示了语言模型在各种NLP任务上的通用性和有效性。尽管后来被GPT-2、GPT-3等更大规模的模型所超越,但GPT所开创的技术路径和方法论依然影响着现代自然语言处理领域的发展方向。GPT不仅是一个成功的语言模型,更是标志着NLP研究进入预训练大模型时代的里程碑。