Kaggle比赛教你最快速度入门文本分类（经典方法篇）

admin 欧洲杯联赛 2024-02-14 97 0

　　本篇文章是自然语言处理系列的第一篇，介绍最基本的文本分类问题解决方案：Logistic Regression、TF-IDF。数据集使用的是Kaggle竞赛中的Toxic评论分类挑战赛。

　　文本分类的基本流程：读取数据清洗数据特征提取模型训练模型评估

　　Kaggle竞赛的数据一般有train、test和sample_submission，我们用pandas来读取需要的数据。

　　labels是我们需要将文本分为的六个类别。

　　机器学习工作中广为流传的一句话：“数据决定机器学习的上限，算法让我们不断逼近这个上限”。

　　一个干净的数据集是我们在运用机器学习算法取得成功的关键，因此，对文本进行合适的处理是非常关键的一步。

　　以下是我在清洗文本过程中主要完成的工作：把你的文章分成一个个单独的单词。将所有字符转换为小写。删除所有不相关的字符，例如任何非字母、数字字符。恢复所有简写形式的单词考虑将“@$&”等字符转换为“at，dollar，and”。最后，有很多单词是拼写错误的，这个部分还需要想办法来处理大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。

　　我们看看清洗前和清洗后的数据，效果还算是不错大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。