【NLP-03】文本表达---BERT、RoBERTa、GPT和OpenAI_embedding等模型

云天徽上 · 发布于 2024-6-11 10:31:02

预训练模型在NLP领域的广泛应用为文本表示方法带来了巨大的革新。传统的词向量方法（如Word2Vec、GloVe等）主要基于固定的向量表示，而预训练模型则通过大规模语料库的训练，学习到了动态的、上下文相关的文本表示。下面将重点介绍几种主流的预训练模型及其句向量和词向量的生成方式。

1、BERT (Bidirectional Encoder Representations from Transformers)

BERT是一种基于Transformer的双向编码模型，它通过掩码语言模型（Masked Language Modeling, MLM）和下一句预测（Next Sentence Prediction, NSP）两个任务进行预训练。在BERT中，词向量是动态的，会随着上下文的变化而变化。为了获得句向量，常用的做法是对句子中所有词向量的特定位置（如[CLS]标记）进行池化操作（如平均池化或最大池化）。

模型算法使用方式：

首先，加载预训练的BERT模型。然后，对于输入的句子，需要添加特定的标记（如[CLS]和[SEP]），并通过BERT模型进行前向传播。最后，从模型的输出中提取特定位置的向量作为句向量。

from transformers import BertTokenizer, BertModel

1.1 加载预训练模型和分词器

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')  
model = BertModel.from_pretrained('bert-base-chinese')

1.2 输入句子

sentence = "这是一个使用BERT生成句向量的例子"

1.3 对句子进行编码

inputs = tokenizer(sentence, return_tensors='pt')

1.4 通过BERT模型获取输出

outputs = model(**inputs)

1.5 提取句向量，通常使用[CLS]标记对应的隐藏状态

sentence_vector = outputs.last_hidden_state[:, 0, :]

2、RoBERTa (Robustly optimized BERT approach)

RoBERTa是对BERT的改进版，它移除了BERT中的下一句预测任务，并增加了更多的训练数据和训练步数。RoBERTa的句向量生成方式与BERT类似，也是通过对特定位置的向量进行池化操作得到的。

模型算法使用方式与BERT类似，只是加载的模型不同：

from transformers import RobertaTokenizer, RobertaModel

2.1 加载预训练模型和分词器

tokenizer = RobertaTokenizer.from_pretrained('roberta-base-chinese')  
model = RobertaModel.from_pretrained('roberta-base-chinese')

2.3 后续步骤与BERT相同

3、GPT (Generative Pre-trained Transformer)

GPT系列模型是一种基于Transformer的生成式预训练模型。与BERT不同，GPT是单向的，它只考虑从左到右的上下文信息。GPT的词向量也是动态的，并且随着生成过程的进行而不断变化。对于句向量，GPT并没有直接提供，但可以通过对句子中所有词向量的平均或加权求和来近似得到。

模型算法使用方式：

from transformers import GPT2Tokenizer, GPT2LMHeadModel

3.1 加载预训练模型和分词器

tokenizer = GPT2Tokenizer.from_pretrained('gpt2-medium')  
model = GPT2LMHeadModel.from_pretrained('gpt2-medium')

3.2 输入句子

sentence = "这是一个使用GPT生成文本的例子"

3.3 对句子进行编码

inputs = tokenizer(sentence, return_tensors='pt')

3.4 通过GPT模型获取输出

outputs = model(**inputs)

3.5 GPT不直接提供句向量，但可以通过平均词向量得到近似结果

sentence_vector = outputs.last_hidden_state.mean(dim=1)

4、openaAI的embedding模型做文本表达

        OpenAI的Embedding模型是一种用于生成文本嵌入向量的方法，它能够捕捉文本中的语义和上下文信息，并将其转化为固定维度的向量表示。这种文本表示方法在自然语言处理（NLP）任务中起到了重要作用，尤其在语义相似度计算、文本分类、聚类以及生成任务等方面。
        OpenAI提供了多种Embedding模型，如text-embedding-001、davinci和curie等。这些模型基于不同的预训练方法和数据集，适用于不同的NLP任务。例如，text-embedding-001是一个通用文本嵌入模型，而davinci和curie则是基于GPT系列的大规模预训练模型，更适合生成高质量的文本。
        OpenAI的embedding模型调用方式相对简单，通常是通过其API接口来实现的。以下是调用OpenAI embedding模型的基本步骤：

获取API密钥：首先，你需要在OpenAI的官方网站上注册一个账户，并获取一个API密钥。这个密钥是你在调用API时的身份验证凭据。
安装必要的库：如果你的编程环境是Python，你可能需要安装一些必要的库，如requests或openai（如果OpenAI提供了官方的Python库）。
构建请求：使用API密钥和需要嵌入的文本构建HTTP请求。你需要指定模型类型（例如，text-embedding-ada-002），输入文本，以及API密钥。
发送请求：通过HTTP客户端（如Python的requests库）发送请求到OpenAI的API端点。
处理响应：接收API的响应，并解析嵌入向量。这些向量是文本在嵌入空间中的表示，可以用于各种NLP任务。
具体地，一个使用curl的HTTP API调用例子如下：

curl https://api.openai.com/v1/embeddings \  
-H "Content-Type: application/json" \  
-H "Authorization: Bearer $OPENAI_API_KEY" \  
-d '{ "input":"欢迎浏览我的文本嵌入模型教程", "model":"text-embedding-ada-002" }'

具体地，一个使用python的HTTP API调用例子如下：

import openai  

# 设置你的OpenAI API密钥  
openai.api_key = "OPENAI_API_KEY"  

# 定义要嵌入的文本  
text = "欢迎浏览我的文本嵌入模型教程"  

# 调用embedding API  
response = openai.Embedding.create(input=[text], model="text-embedding-ada-002")  

# 提取embedding向量  
embeddings = response["data"][0]["embedding"]  

# 输出embedding向量  
print(embeddings)

在这个例子中，$OPENAI_API_KEY需要替换为你自己的API密钥，"input"字段的值是你要嵌入的文本，"model"字段的值是你选择的嵌入模型。

请注意，具体的API端点、请求参数和响应格式可能会随着OpenAI平台的更新而发生变化。因此，建议查阅OpenAI的官方文档以获取最准确和最新的信息。

此外，使用embedding模型时还需要注意模型的局限性和潜在偏见，例如对某些群体的刻板印象或负面情绪。这些偏见可能通过嵌入向量反映出来，因此在应用模型结果时需要谨慎评估。

使用OpenAI的Embedding模型，可以将文本字符串转化为连续的向量表示。这些向量可以捕获文本之间的语义相似性，使得在语义层面上的比较和计算变得更为便捷。此外，由于这些模型是基于大规模的语料库进行预训练的，因此它们能够学习到丰富的语言知识和上下文信息，从而提高文本表达的准确性和鲁棒性。

【NLP-03】 文本表达---BERT、RoBERTa、GPT和OpenAI_embedding等模型