自然语言处理介绍

发表于： 2026-01-15 分类于：人工智能/自然语言处理

字数： 1171 阅读：≈ 3分钟浏览：

目标：

NLP

自然语言处理（NLP）是一个与多个学科交叉的领域，它脱胎于人工智能、语言学、形式语言及编译器等学科。

多学科：

Previously, a traditional rule-based system was used for computations.

此前，计算任务采用的是传统的基于规则的系统。

Today, computations on natural language are being done using machine learning and deep learning techniques.

如今，自然语言相关的计算任务正通过机器学习与深度学习技术来完成。

基于机器学习的自然语言处理的主要工作开始于 1980 年。

Text analytics is the method of extracting meaningful insights and answering questions from text data.

文本分析是从文本数据中提取有价值的洞察并解答相关问题的方法。

文本分析：从文本中提取价值。

NLP 的处理对象除了文本，还可以是语音，NLP 大体可分成 Natural Language Understanding (NLU) and Natural Language Generation (NLG) 两个核心子任务。

核心子任务：

Tokenization（分词）：将一个完整句子拆解为其组成基本单位（token）的过程。

n-grams（n 元语法）：基于滑动窗口思想，将文本序列（字符 / 单词）切分为连续的 n 个元素组成的子序列，是 NLP 中表示文本局部特征的基础方法。如：

`1`	`I am reading a book.`

n 的选择原则：n 越小，计算成本越低，但丢失的上下文信息越多；n 越大，上下文信息越丰富，但易出现数据稀疏问题。

PoS Tagging：对分词后的文本中每个 token（词元）标注其语法词性（如名词、动词、形容词等）的过程，是 NLP 文本预处理与句法分析的关键步骤。

核心作用：

nltk 包中的词性标签。

停用词（stop word）：高频出现但无实质语义贡献的通用词汇，仅起语法支撑作用，是 NLP 文本清洗环节的核心处理对象。

停用词移除的目的：