当前位置:首页 >> 互联网 >>

机器学习中,有哪些特征选择的工程方法?

搜索话题、问题或人...

提问

首页 话题 发现 注册知乎 登录

机器学习 特征选择
机器学习中,有哪些特征选择的工程方法?
1 条评论 分享
知乎用户,做过几个机器学习系统 25 杨晓风、知乎用户、Qingbiao Miao 等人赞同
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学 习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相 当重要的地位。 通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下: 1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只 能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边 都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了; 2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR'03上有一篇论 文介绍了一种基于决策树的特征选择方法,本质上是等价的。当选择到了目标特征之后,再用来训练最终的 模型; 3. 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注 意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个 特征重要应再通过L2正则方法交叉检验; 4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过 打分获得相关性后再训练最终模型; 5. 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做 法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀 疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。 6. 通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机 视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的 原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。 整体上来说,特征选择是一个既有学术价值又有工程价值的问题,目前在研究领域也比较热,值得所有做机 器学习的朋友重视。 编辑于 2015?04?01 5 条评论 感谢 分享 收藏 ? 没有帮助 ? 举报
查看全部 1 个回答
知乎是一个真实的问答社区,在这里分享 知识、经验和见解,发现更大的世界。 使用邮箱注册 ?
使用微博登录

使用 QQ 登录

关注问题 72 人关注该问题

关于作者

知乎用户

关注他

Geek?机器学习/分布式文件系 统/NoSQL攻城狮!

被收藏 21 次 技术 魏星 创建 | 1 人关注
统计与数据分析 Yan He 创建 | 1 人关注
学习研究 罐装南瓜 创建 | 0 人关注
未 知乎用户 创建 | 0 人关注
学习方法 李子豪 创建 | 0 人关注

相关问题

换一换

模式识别机器学习的发展方向? 1 个回答

如何运用机器学习方法来预测股市? 6 个回答

有没有机器学习方面集大成的教材推荐? 22 个回答

机器学习有什么作用? 1 个回答

机器学习 matlab教程? 2 个回答
回答状态 最后编辑于 2015?04?01 所属问题被浏览 853 次
作者保留所有权利

? 2015 知乎

移动应用 ? 加入知乎 ? 知乎协议 ? 商务合作