Sberbank Russian Housing Market比赛总结
2024-09-02 08:39:00
第一次真正意义上参加kaggle比赛,都是工作之余看看别人的kernel,然后整理整理自己的分析代码。
总体来说,本次比赛对我而言更像一个入门比赛,更多的是走走kaggle比赛的整个流程,看看高手们都是怎么分析解决问题的。一边学习技术、理论知识、分析问题的思路,一边研究比赛题目。结果不是最重要的,最重要的收获与进步!
本次比赛总结启示:
1)没有充分考虑房屋价格随时间的变化,因为房间一段时间是涨价的,一段时间是降价的。本次俄罗斯房价训练数据从2011-2015.6,测试数据从2015.7月开始,所以测试数据跟训练数据的后部分数据关系最为密切。因为2015年开始房价是开始下跌趋势,所以测试数据应该也是这样的,这点没有关注到。
2)看kernel里面很多人把train的房屋价格乘以一个magic number,比如0.969等等,效果确实不错。一开始不太理解,现在明白了,因为他们看到了测试数据是走低的趋势,所以把整个训练数据的价格都调低,这样训练出来的模型预测的价格就会偏低,进而更接近测试数据。我认为该方法并不太可取,这样做也许在该比赛确实能得到较好的效果。但是模型仅仅适应这一部分数据,overfitting了,没有什么泛化能力。
3)价格的走低,其实是与经济因素密切关联的,所以有人就利用经济方便的特征对价格做了修正,比如将价格除以某个经济指标,预测后再还原价格,这样就不需要什么maigic number。
4)没有对预测价格做Ensemble
5)特征工程做的不够充分,没有充分挖掘特征信息,创造新特征。
6)其它人解决思路:
最新文章
- C#通过第三方组件生成二维码(QR Code)和条形码(Bar Code)
- STM32_RTC君
- iOS中关于NavigationController中preferredStatusBarStyle一直不执行的问题
- ISTool5.3.1汉化版使用教程
- 【MVC】 js,css 压缩
- 開始折腾cocos2d-x,使用批处理来创建项目
- 中文翻译:pjsip文档(四)之ICE Session的使用方法
- 变更到Android4.4的问题
- 设置不输入密码ssh登录
- 在C#中子线程如何操作主窗口线程上的控件
- Java并发编程(您不知道的线程池操作)
- 虚幻引擎UE4如何制作可拖动(Drag and Drop)的背包(Scrollbox)
- flask记录
- sqlite比较时间秒
- ORB-SLAM2阅读笔记(一)从mono_eourc.cpp出发理解ORB-SLAM2
- ubuntu安装命令
- kafka系列五、kafka常用java API
- CentOS和Redhat单用户模式
- (zhuan) LSTM Neural Network for Time Series Prediction
- 《机器学习实战》AdaBoost算法(手稿+代码)
热门文章
- html5 canvas 图像处理
- hdu2295-Radar
- poj1456——Supermarket
- (六)Redis有序集合Sorted set操作
- [luogu5048] [Ynoi2019模拟赛] Yuno loves sqrt technology III
- [洛谷P3793]由乃救爷爷
- [洛谷P3380]【模板】二逼平衡树(树套树)
- BZOJ3670 &; 洛谷2375 &; UOJ5:[NOI2014]动物园——题解
- 函数strcpy的实现
- mysql 密码忘记