Python怎么对文本做TF-IDF_TfidfVectorizer提取文本特征词

0次阅读

直接用 TfidfVectorizer，它等于 CountVectorizer 加 TfidfTransformer，一步到位；自定义停用词需用 list（如中文用哈工大表），ngram_range 推荐 (1,2) 兼顾效果与性能，新文本必须用同一实例的 transform()而非 fit_transform()。

Python 怎么对文本做 TF-IDF_TfidfVectorizer 提取文本特征词

直接用 TfidfVectorizer，别绕路。它 = CountVectorizer + TfidfTransformer，一步到位。自己拆开用容易漏掉 vocabulary_ 对齐、fit 顺序错、或者训练 / 预测时没统一用同一个 fit_transform() 和 transform() —— 这些坑都源于多写几行“看起来更可控”的代码。

常见错误现象：ValueError: Document term matrix has different number of features than fitted model，基本就是训练和预测时用了两个独立实例，或混用了 fit() 和 fit_transform()。

TfidfVectorizer 适合从原始文本（list[str]）直接生成稀疏矩阵，推荐作为默认起点
只有当你已有词频矩阵（比如来自其他分词工具），才考虑 TfidfTransformer
别在同一个流程里混用 CountVectorizer(max_features=1000) 和 TfidfTransformer()，特征维度会不一致

填 'english' 最省事，但只过滤英文停用词；中文文本必须自己给 list，否则所有中文标点、虚词（“的”“了”“在”）全留下，严重稀释特征质量。

使用场景：新闻标题分类、商品评论情感分析这类短文本，停用词影响极大；长文档（如论文摘要）可稍宽松，但依然建议精简。

立即学习“Python 免费学习笔记（深入）”；

中文停用词表别手写，用现成的（如哈工大或百度停用词表），去重后转 list 传入 stop_words
stop_words='english' 本质是内置集合，不能增删；自定义 list 才能加“哈哈哈”“yyds”这种网络词
注意编码：如果停用词文件是 GBK，读出来没解码会导致 KeyError 或静默失效

差的是能否捕获“机器学习”“深度神经网络”这类有意义的双字 / 三字词。单字切分（(1, 1)）在中文里几乎无意义——“学”“习”“模”“型”单独出现频率高但区分度极低。

性能影响明显：(1, 2) 会让特征维度暴涨 3–5 倍，内存占用翻倍，训练变慢；但准确率常提升 5%–15%，尤其在短文本分类中。

中文推荐从 (1, 2) 起步，再根据效果和资源权衡是否上 (1, 3)
英文可设 (1, 2)，但注意 "not good" 和 "good" 语义相反，n-gram 可能放大噪声
配合 min_df=2 或 max_df=0.95 剪枝，避免大量低频 n-gram 稀释矩阵

必须复用同一个 TfidfVectorizer 实例，不能重新 fit。这是最常被忽略的点：模型上线或交叉验证时，有人对测试集单独 fit_transform()，结果特征维度完全对不上，直接报错或预测失效。

正确做法是：训练时用 vec.fit_transform(train_texts)，预测时用 vec.transform(test_texts) —— 注意是 transform()，不是 fit_transform()。

保存模型时，连同 vec 一起用 pickle 或 joblib 存，别只存矩阵
如果用 sklearn.pipeline.Pipeline，确保 TfidfVectorizer 是第一步，后续步骤自动复用
线上服务中，transform() 输入必须是 list[str]，不能是单个 str（会当成字符列表处理）

复杂点在于：中文分词粒度、停用词更新、新词泛化能力——这些 TfidfVectorizer 本身不解决，得靠前置分词器或后期特征筛选兜底。

发表于：后端

五天前

复制链接

转载说明：转载本网站任何内容，请按照转载方式正确书写本站原文地址。本站提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。

如何使用Golang实现端口扫描_检测网络端口开放状态

c++的动态库(.so/.dll)和静态库(.a/.lib)有什么区别如何创建和使用【链接器】

php怎样在函数内处理局部错误_php在函数内处理局部错误方法【技巧】

C++怎么实现迪杰斯特拉算法_C++最短路径教程【网络】

CSS如何排查z-index在某些元素上不生效的问题_检查该元素是否没有设置position为非static值

Python怎么对文本做TF-IDF_TfidfVectorizer提取文本特征词

TF-IDF 用 TfidfVectorizer 还是 TfidfTransformer？

stop_words 参数填 list 还是 ’english’？中文怎么办？

ngram_range=(1, 1) 和 (1, 2) 差多少？

fit_transform 之后怎么对新文本做 transform？

mysql执行SQL时如何进行性能分析_mysql查询优化方法

Go 中通道的同步本质：理解无缓冲通道如何协调 Goroutine 执行顺序

实现信用卡号 Luhn 校验算法的完整 JavaScript 教程

mysql如何使用AVG计算平均值_mysql平均数获取技巧

JavaScript中Object-getPrototypeOf获取原型方法

mysql触发器和应用层逻辑哪个优先选择_mysql使用场景对比

Angular 中动态访问表单控件值的正确方式

什么是mysql触发器_mysql触发器基础原理