深圳品牌网站制作平台郑州网络

张小明 2025/12/27 7:51:26
深圳品牌网站制作平台,郑州网络,深圳信用网企业查询系统,引蜘蛛网站https://blog.csdn.net/weixin_45655710?typeblog 浙大疏锦行 DAY 23 pipeline 管道 知识回顾#xff1a; 1.转化器和估计器的概念 2.管道工程 3. ColumnTransformer和 Pipeline类 作业#xff1a; 整理下全部逻辑的先后顺序#xff0c;看看能不能制作出适合所有机器学习的…https://blog.csdn.net/weixin_45655710?typeblog浙大疏锦行DAY 23 pipeline 管道知识回顾1.转化器和估计器的概念2.管道工程3. ColumnTransformer和 Pipeline类作业整理下全部逻辑的先后顺序看看能不能制作出适合所有机器学习的通用 pipeline好的这是一个非常重要的复习内容理解Pipeline和ColumnTransformer的逻辑结构是掌握现代 Scikit-learn 和防止数据泄露的关键。针对您的作业我为您整理了当前信贷数据集的代码逻辑顺序并提出了一个通用的机器学习 Pipeline 结构。 作业一整理当前代码的逻辑先后顺序您提供的代码展示了从原始数据到最终模型评估的完整流程。使用Pipeline结构后整个流程被清晰地拆分和封装。1. 整体流程步骤 (宏观视角)序号步骤名称对应操作负责人状态1数据加载pd.read_csv()外部原始数据2数据划分train_test_split()外部原始X train , X test , y train , y test X_{\text{train}}, X_{\text{test}}, y_{\text{train}}, y_{\text{test}}Xtrain​,Xtest​,ytrain​,ytest​3Pipeline 定义ColumnTransformerPipeline外部定义模型结构4模型训练pipeline.fit(X_train, y_train)Pipeline 内部X train X_{\text{train}}Xtrain​预处理→ \to→分类器训练5模型预测pipeline.predict(X_test)Pipeline 内部X test X_{\text{test}}Xtest​预处理→ \to→分类器预测6模型评估classification_report()外部结果分析2. Pipeline 内部执行逻辑 (微观视角)当执行pipeline.fit(X_train, y_train)或pipeline.predict(X_test)时Pipeline会按以下顺序和规则执行内部的ColumnTransformer和RandomForestClassifierA. 预处理器preprocessorColumnTransformer的执行顺序ColumnTransformer是预处理的核心它将不同的转换器Transformer并行应用于不同的列子集。特征类型转换器串联 (Pipeline 内部)目的有序分类SimpleImputer(众数填充)→ \to→OrdinalEncoder(有序编码)处理Home Ownership,Years in current job,Term标称分类SimpleImputer(众数填充)→ \to→OneHotEncoder(独热编码)处理Purpose连续数值SimpleImputer(众数填充)→ \to→StandardScaler(标准化)处理剩余的数值特征ColumnTransformer 行为规则并行处理三种特征类型的转换器是同时运行的。整合输出所有转换器的输出结果经过填充、编码、缩放被水平拼接成一个单一的、干净的 NumPy 数组然后传递给下一步的估计器。B. Pipeline 训练与预测规则阶段转换器 (preprocessor)估计器 (classifier)核心意义 (防止数据泄露)训练fit_transform(X_train)计算并存储规则均值、标准差、编码字典并转换数据。fit(X_processed, y_train)学习模型的参数如随机森林的树结构。转换规则只在训练集上学习。预测transform(X_test)直接应用训练阶段学到的规则来转换数据。predict(X_processed)直接使用训练好的模型参数进行预测。避免在测试集上学习任何统计量。 作业二制作适合所有机器学习的通用 Pipeline通用 Pipeline 的设计思想是定义所有可能的处理步骤然后通过参数灵活地开启或关闭它们。以下是一个通用的机器学习 Pipeline 模板它涵盖了数据预处理、特征选择和模型训练等环节。通用机器学习 Pipeline 结构模板fromsklearn.pipelineimportPipelinefromsklearn.composeimportColumnTransformer# ... 其他必要的导入# 1. 定义不同类型的特征列 (这是最依赖具体数据集的一步)NUMERIC_FEATURES[...]# 连续数值特征ORDINAL_FEATURES[...]# 有序分类特征NOMINAL_FEATURES[...]# 标称分类特征需要独热编码# ----------------- 步骤 1: 预处理 Transformers -----------------# 1.1 数值特征 Pipeline (通用且常见)numeric_transformerPipeline(steps[(imputer,SimpleImputer(strategymedian)),# 缺失值处理中位数/均值(scaler,StandardScaler())# 数据缩放标准化/归一化])# 1.2 有序特征 Pipelineordinal_transformerPipeline(steps[(imputer,SimpleImputer(strategymost_frequent)),# 缺失值处理众数(encoder,OrdinalEncoder())# 有序编码])# 1.3 标称特征 Pipelinenominal_transformerPipeline(steps[(imputer,SimpleImputer(strategymost_frequent)),# 缺失值处理众数(onehot,OneHotEncoder(handle_unknownignore))# 独热编码])# ----------------- 步骤 2: ColumnTransformer 整合 -----------------preprocessorColumnTransformer(transformers[(num,numeric_transformer,NUMERIC_FEATURES),(ord,ordinal_transformer,ORDINAL_FEATURES),(nom,nominal_transformer,NOMINAL_FEATURES)],remainderdrop# 丢弃未指定的列除非您确定要保留)# ----------------- 步骤 3: 完整 Pipeline -----------------# 引入一个特征选择步骤使 Pipeline 更通用fromsklearn.feature_selectionimportSelectKBestfromsklearn.linear_modelimportLogisticRegression# 例子一个分类估计器universal_pipelinePipeline(steps[(preprocessor,preprocessor),# A. 预处理 (ColumnTransformer)(feature_selection,SelectKBest(kall)),# B. 特征选择 (可选)(estimator,LogisticRegression(random_state42))# C. 估计器/模型 (分类器/回归器)])通用 Pipeline 的优势和调优这种通用结构的最大优势在于它将操作流程和具体参数分离完美适配GridSearchCV或RandomizedSearchCV进行超参数调优。灵活调参您可以轻松调优预处理步骤的参数例如Imputer 策略preprocessor__num__imputer__strategy: [median, mean]Scaler 类型完全移除StandardScaler步骤或替换为MinMaxScaler。特征选择feature_selection__k: [50, 100, all]兼容性强如果数据集中没有缺失值您可以在调参时将SimpleImputer的步骤参数设置为空列表[]来跳过该步骤。如果不需要特征选择可以直接将SelectKBest的参数k设置为all或者在调参中将其移除。这种封装和流程化的思想DRY 原则是现代数据科学项目的基础。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

河北省城乡规划建设局官方网站保健品网站设计

什么是土地整理? 土地整理是指在一定区域内,按照土地利用总体规划和城市规划所确定的目标及用途,结合土地利用现状,釆取法律、行政、经济、工程、生物等手段,对田、水、路、林、村进行综合整治,对土地利用结…

张小明 2025/12/27 7:50:53 网站建设

wordpress在线教育功能wordpress有关seo的插件

利用图论解决定价问题与学生能力评估方法 1. 经销商最大利润问题 在商品分销体系中,计算经销商的最大利润有助于提高企业在分布式区域定价政策管理的准确性。通过解决该问题,可以预估经销商利用企业分销系统转售商品的可能利润,并确定受产品流动过程影响的销售点之间的路线…

张小明 2025/12/27 7:50:21 网站建设

苏州网站建设网络推广石家庄桥西招聘 网站优化

​欢迎大家订阅我的专栏:算法题解:C与Python实现! 本专栏旨在帮助大家从基础到进阶 ,逐步提升编程能力,助力信息学竞赛备战! 专栏特色 1.经典算法练习:根据信息学竞赛大纲,精心挑选…

张小明 2025/12/27 7:49:49 网站建设

非专业人士可以做网站编辑的工作吗wordpress 批量注册

从零打造1616 LED汉字屏:硬件设计全解析 你有没有想过,那些街头巷尾滚动播放信息的小屏幕,到底是怎么把“欢迎光临”四个字稳稳亮出来的?其实它们的核心,可能就是一个 1616的LED点阵模块 。而今天我们要拆解的&…

张小明 2025/12/27 7:49:17 网站建设

国外最炫酷网站南通营销平台网站建设

什么是网络安全CTF?有何意义 ?该如何入门 ? 什么是网络安全CTF? CTF在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。它起源于1996年DEFCON全球黑客大会,以代替之前黑客们通过互相发起真实攻击进行技术比拼的方式…

张小明 2025/12/27 7:48:43 网站建设

一个完整的电商网站开发周期如何建立网站的快捷方式

解决常见 IT 问题 1. 控制即时设置 IT 专业人员,尤其是负责桌面部署的人员,常常面临一个问题:如何防止 Windows 在用户首次登录计算机时,在快速启动工具栏和开始菜单中创建 Outlook Express 图标。实际上,这些图标是在 Windows 为新用户创建用户配置文件时生成的,且不在…

张小明 2025/12/27 7:47:38 网站建设