博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
amazon access代码分析和记录
阅读量:6294 次
发布时间:2019-06-22

本文共 1515 字,大约阅读时间需要 5 分钟。

这是一个kaggle项目的冠军代码

看起来还是比较麻烦,这里记录一下这个冠军代码的一些处理方法
这部分使用了集成学习的方法
主要使用了LR、RF、GB这三种学习方法
每一种学习方法大概使用了四五次,也就是对数据集也进行了各种处理

"LR:tuples_sf","LR:greedy_sfl","LR:greedy2_sfl","LR:greedy3_sf","RFC:basic_b","RFC:tuples_f","RFC:tuples_fd","RFC:greedy_f","RFC:greedy2_f","GBC:basic_f","GBC:tuples_f","LR:greedy_sbl","GBC:greedy_c","GBC:tuples_cf"上面左边是算法名字,右边的是数据集代号

左边的分类方法比较好理解,不过右边的不好理解

这里记录一下右边是如何处理数据的

数据的情况:共有十列:      ACTION                      是否有权限      RESOURCE                    资源id      MGR_ID                      经理id      ROLE_ROLLUP_1                     ROLE_ROLLUP_2      ROLE_DEPTNAME      ROLE_TITLE      ROLE_FAMILY_DESC      ROLE_FAMILY      ROLE_CODEbsfeats:   去掉ROLE_CODE和ACTION这两列   X_all['ROLE_TITLE'] = X_all['ROLE_TITLE'] + (1000 * X_all['ROLE_FAMILY'])   X_all['ROLE_ROLLUPS'] = X_all['ROLE_ROLLUP_1'] + (10000 * X_all['ROLE_ROLLUP_2'])   X_all = X_all.drop(['ROLE_ROLLUP_1', 'ROLE_ROLLUP_2', 'ROLE_FAMILY'],axis=1)   到现在就剩下六列:       RESOURCE,MGR_ID,ROLE_DEPTNAME,ROLE_TITLE,ROLE_FAMILY_DESC,ROLE_ROLLUPS   对每一列添加cnt列:       此步骤是为了对前六列做处理,生成新的六列,过程如下          对每列进行分组,然后把组数的log值填充到相应的位置   再添加Duse列:       还是先按列各自进行分组,然后再按照resource分组       用每组RESOURCE的个数除以总个数   添加mdept列:       主要是添加相同经理的个数,按照经理先对数据进行分组       填充该经理组中资源的种类数   处理完后把前六列的数据删除greedy:   这个处理过程就比较重量级了,由于数据都是类别型的,所以都使用了编码   首先把特征中的ACTION和ROLE_CODE两个特征去掉   然后让剩下的特征两两组合   这样就生成了很多新的特征,每一列的值用组合数据的hash值填充   下一步要给所有的特征做onehot编码   然后要选取比较好的feature选择过程是使用auc的得分来算       使用n-cv的方式,对选取的特征使用logisticReg的方法来判断auc计算得分       最终获取得分高的几个特征       基本思想就是这样

转载地址:http://zavta.baihongyu.com/

你可能感兴趣的文章
embedded linux学习中几个需要明确的概念
查看>>
mysql常用语法
查看>>
Morris ajax
查看>>
【Docker学习笔记(四)】通过Nginx镜像快速搭建静态网站
查看>>
ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务
查看>>
<转>云主机配置OpenStack使用spice的方法
查看>>
java jvm GC 各个区内存参数设置
查看>>
[使用帮助] PHPCMS V9内容模块PC标签调用说明
查看>>
基于RBAC权限管理
查看>>
数学公式的英语读法
查看>>
留德十年
查看>>
迷人的卡耐基说话术
查看>>
PHP导出table为xls出现乱码解决方法
查看>>
PHP问题 —— 丢失SESSION
查看>>
Java中Object类的equals()和hashCode()方法深入解析
查看>>
数据库
查看>>
dojo.mixin(混合进)、dojo.extend、dojo.declare
查看>>
Python 数据类型
查看>>
iOS--环信集成并修改头像和昵称(需要自己的服务器)
查看>>
PHP版微信权限验证配置,音频文件下载,FFmpeg转码,上传OSS和删除转存服务器本地文件...
查看>>