【Python机器学习系列】建立决策树模型预测小麦品种

wptr33 2025-03-25 18:08 30 浏览

这是我的第314篇原创文章。

一、引言

对于表格数据，一套完整的机器学习建模流程如下：

针对不同的数据集，有些步骤不适用，其中橘红色框为必要步骤，欢迎大家关注翻看我之前的一些相关文章。前面我介绍了机器学习模型的二分类任务和回归任务，接下来做一下机器学习的多分类系列，由于本系列案例数据质量较高，有些步骤跳过了，跳过的步骤将单独出文章总结！在Python中，可以使用Scikit-learn库来构建决策树分类模型进行多分类预测，本文以预测小麦品种为例，对这个过程做一个简要解读。

二、实现过程

2.1 准备数据

data = pd.read_csv(r'data.csv')
df = pd.DataFrame(data)
print(df.head())

df：

2.2 提取目标变量

target = 'Type'
features = df.columns.drop(target)
print(data["Type"].value_counts()) # 顺便查看一下样本是否平衡

2.3 划分数据集

# df = shuffle(df)
X_train, X_test, y_train, y_test = train_test_split(df[features], df[target], test_size=0.2, random_state=0)

2.4 归一化

# 此步可不做处理

2.5 模型的构建

model = DecisionTreeClassifier(max_depth=5)

2.6 模型的训练

model.fit(X_train, y_train)

2.7 模型的推理

y_pred = model.predict(X_test)
y_scores = model.predict_proba(X_test)
print(y_pred)

2.8 模型的评价

acc = accuracy_score(y_test, y_pred) # 准确率acc
print(f"acc: \n{acc}")
cm = confusion_matrix(y_test, y_pred) # 混淆矩阵
print(f"cm: \n{cm}")
cr = classification_report(y_test, y_pred) # 分类报告
print(f"cr:  \n{cr}")

结果：

print("----------------------------- precision（精确率）-----------------------------")
precision_score_average_None = precision_score(y_test, y_pred, average=None)
precision_score_average_micro = precision_score(y_test, y_pred, average='micro')
precision_score_average_macro = precision_score(y_test, y_pred, average='macro')
precision_score_average_weighted = precision_score(y_test, y_pred, average='weighted')
print('precision_score_average_None = ', precision_score_average_None)
print('precision_score_average_micro = ', precision_score_average_micro)
print('precision_score_average_macro = ', precision_score_average_macro)
print('precision_score_average_weighted = ', precision_score_average_weighted)


print("\n\n----------------------------- recall（召回率）-----------------------------")
recall_score_average_None = recall_score(y_test, y_pred, average=None)
recall_score_average_micro = recall_score(y_test, y_pred, average='micro')
recall_score_average_macro = recall_score(y_test, y_pred, average='macro')
recall_score_average_weighted = recall_score(y_test, y_pred, average='weighted')
print('recall_score_average_None = ', recall_score_average_None)
print('recall_score_average_micro = ', recall_score_average_micro)
print('recall_score_average_macro = ', recall_score_average_macro)
print('recall_score_average_weighted = ', recall_score_average_weighted)


print("\n\n----------------------------- F1-value-----------------------------")
f1_score_average_None = f1_score(y_test, y_pred, average=None)
f1_score_average_micro = f1_score(y_test, y_pred, average='micro')
f1_score_average_macro = f1_score(y_test, y_pred, average='macro')
f1_score_average_weighted = f1_score(y_test, y_pred, average='weighted')
print('f1_score_average_None = ', f1_score_average_None)
print('f1_score_average_micro = ', f1_score_average_micro)
print('f1_score_average_macro = ', f1_score_average_macro)
print('f1_score_average_weighted = ', f1_score_average_weighted)

结果：

作者简介：读研期间发表6篇SCI数据算法相关论文，目前在某研究院从事数据算法相关研究工作，结合自身科研实践经历持续分享关于Python、数据分析、特征工程、机器学习、深度学习、人工智能系列基础知识与案例。关注gzh：数据杂坛，获取数据和源码学习更多内容。

原文链接：

【Python机器学习系列】建立决策树模型预测小麦品种（案例+源码）

python shuffle

上一篇：Python机器学习库Sklearn系列教程(22)-交叉验证(K折、
下一篇：我的第四个项目:Python自动生成密码

【Python机器学习系列】建立决策树模型预测小麦品种

一、引言

二、实现过程

2.1 准备数据

2.2 提取目标变量

2.3 划分数据集

2.4 归一化

2.5 模型的构建

2.6 模型的训练

2.7 模型的推理

2.8 模型的评价

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

使用过 Redis 分布式锁么，它是什么回事?

Python rembg 库去除图片背景

VUE循环语句的使用(v-for)（vuefor循环的key）

《循环(for/while)》（循环while语句）

Python 中 break 和 continue 傻傻分不清

西门子博途SCL高级语言之FOR循环（西门子博途for循环语句编程）

oracle数据导入导出_oracle数据导入导出工具

2-1，0基础学Python之 break退出循环、 continue继续循环多重循

【Python机器学习系列】建立决策树模型预测小麦品种

一、引言

二、实现过程

2.1 准备数据

2.2 提取目标变量

2.3 划分数据集

2.4 归一化

2.5 模型的构建

2.6 模型的训练

2.7 模型的推理

2.8 模型的评价

相关推荐

Python第六讲:tuple_python tuple类型

如何将AI助手接入微信（打开ai手机助手）

使用过 Redis 分布式锁么，它是什么回事?

Python rembg 库去除图片背景

VUE循环语句的使用(v-for)（vuefor循环的key）

《循环(for/while)》（循环while语句）

Python 中 break 和 continue 傻傻分不清

西门子博途SCL高级语言之FOR循环（西门子博途for循环语句编程）

oracle数据导入导出_oracle数据导入导出工具

2-1，0基础学Python之 break退出循环、 continue继续循环 多重循

2-1，0基础学Python之 break退出循环、 continue继续循环多重循