FastText

预计学习时间：25分钟

FastText 是由Facebook研究团队在2016年发布的一种词嵌入和文本分类模型，在保持Word2vec基本思想的同时，引入了子词（subword）信息，能够更好地处理形态丰富的语言和未登录词。

FastText的核心创新

FastText对Word2vec进行了几项关键改进：

子词表示：将单词分解为n-gram字符片段，更好捕捉词缀信息
分层分类器：采用层次化Huffman树结构，提高训练效率
监督学习选项：除了无监督词嵌入，增加了文本分类功能

子词级别表示的优势

子词表示是FastText最显著的创新点：

一个词被表示为其子词向量的总和
例如："apple"可表示为" < ap ", " app ", " ppl ", " ple ", " le > "等子词组合
捕捉词素和形态信息，有助于理解前缀、后缀和词根

# FastText模型训练简单示例
from gensim.models import FastText

def train_fasttext_model(sentences, output_file, vector_size=100, window=5, min_count=5):
    """
    训练FastText模型
    
    参数:
    - sentences: 句子列表，每个句子为词的列表
    - output_file: 模型保存路径
    - vector_size: 词向量维度
    - window: 上下文窗口大小
    - min_count: 词频阈值
    """
    # 训练模型
    model = FastText(
        sentences=sentences,
        vector_size=vector_size,
        window=window,
        min_count=min_count,
        workers=4,         # 多线程加速
        sg=1,              # 1表示Skip-gram模型，0表示CBOW模型
        epochs=10,         # 迭代次数
        min_n=3,           # 子词最小长度
        max_n=6           # 子词最大长度
    )
    
    # 保存模型
    model.save(output_file)
    return model

# 使用示例
# 准备训练数据
sentences = [
    ["自然", "语言", "处理", "技术", "发展", "迅速"],
    ["词", "嵌入", "模型", "表示", "单词", "语义"],
    ["FastText", "处理", "未登录词", "能力", "强"]
]

# 训练模型
model = train_fasttext_model(sentences, "fasttext_model.bin")

# 获取词向量（即使是训练集中未出现的词）
vector = model.wv["未见过的词"]

# 查找最相似的词
similar_words = model.wv.most_similar("语言", topn=5)

FastText的子词机制使其特别适合处理形态丰富的语言（如土耳其语、芬兰语等）和具有大量复合词的语言（如德语），这些语言中单词变化形式众多。

FastText与Word2vec的比较

FastText在保留Word2vec核心思想的同时进行了多项改进：

特性	FastText	Word2vec
表示粒度	子词级别	词级别
未登录词处理	能够生成向量	无法处理
训练速度	较慢（处理子词）	较快
内存占用	较大	较小
稀有词表示	更好	较差
形态分析	具备一定能力	几乎没有

优势对比

FastText相比Word2vec的主要优势：

处理未登录词：能为训练集未出现的词生成向量
形态感知：捕捉词缀、词根和构词规则
适应性更强：在小语料库和技术文本中表现更好

"FastText的子词机制使我们能够为几乎任何单词生成语义表示，这在多语言应用中特别有价值。" — Tomas Mikolov

FastText的应用场景

FastText在多个NLP任务中展现出优势：

1. 文本分类

短文本分类：如新闻分类、评论情感分析
多语言文本分类：支持100多种语言
标签预测：处理大规模多标签问题

2. 词嵌入生成

多语言词嵌入：支持157种语言的预训练向量
特定领域词嵌入：科技、医疗、法律等专业文本
形态丰富语言的表示：处理复杂词形变化

3. 低资源语言处理

小语料库训练：利用子词信息提高小数据集效果
跨语言迁移：从资源丰富语言迁移到低资源语言

# FastText用于文本分类示例
from gensim.models import FastText
import numpy as np
from sklearn.linear_model import LogisticRegression

def create_document_vectors(model, documents):
    """将文档转换为向量表示"""
    doc_vectors = []
    for doc in documents:
        # 对文档中每个词取向量，然后平均
        word_vectors = [model.wv[word] for word in doc if word in model.wv]
        if word_vectors:
            doc_vectors.append(np.mean(word_vectors, axis=0))
        else:
            # 如果没有词在词表中，用零向量
            doc_vectors.append(np.zeros(model.vector_size))
    return np.array(doc_vectors)

# 文本分类流程
def classify_text_with_fasttext(train_texts, train_labels, test_texts):
    """使用FastText进行文本分类"""
    # 1. 训练FastText词向量
    all_texts = train_texts + test_texts
    model = FastText(sentences=all_texts, vector_size=100, window=5, min_count=1, epochs=10)
    
    # 2. 创建文档向量
    train_vectors = create_document_vectors(model, train_texts)
    test_vectors = create_document_vectors(model, test_texts)
    
    # 3. 训练分类器
    classifier = LogisticRegression()
    classifier.fit(train_vectors, train_labels)
    
    # 4. 预测结果
    predictions = classifier.predict(test_vectors)
    return predictions

FastText的局限性

尽管强大，FastText仍有一些值得注意的局限：

多义词问题：与Word2vec一样，无法处理一词多义
上下文无关：向量表示不随上下文变化
计算开销：子词处理增加了训练和推理的计算量
向量尺寸固定：所有词使用相同维度向量，无法根据复杂度调整

FastText作为Word2vec的扩展和改进，在处理未登录词和形态丰富语言方面表现出明显优势，是词嵌入技术发展的重要里程碑，为后续的上下文嵌入技术铺平了道路。