机器学习实战 Tricks
2024-10-02 01:26:53
样本集的简单封装
D = (numpy.random.randn(N, d), numpy.random.randint(low=0, high=2, size=(N, )))
# D[0] ⇒ X
# D[1] ⇒ y
1. One Hot Encoder 编码
- One Hot Encoder 编码针对的是非数值型(numerical),而是类别型(categorical)特征;
- One Hot Encoder 有时会带来维度的激增,而维度的激增会使得最终的识别结果存在过拟合的风险;
- 一个现实的例子即是,比如对商店ID,这一属性,其取值有上千个,对其做One Hot Encoder,显然会带来维度的极大提升,一个解决方案即是:
- 首先对这些商店进行聚类分析,将几千个商店ID,聚类为几十几百个商店种类;
- 然后再进行 one hot encoder;
2. 样本间的距离矩阵
样本(XN⋅d" role="presentation">XN⋅dXN⋅d)之间的距离矩阵
N, d = X.shape
X_square = np.sum(X*X, axis=1).reshape(N, 1)
dist_mat = 2*X_square - 2*X.dot(X.T)
pj|i=exp(−‖xi−xj‖2/2σi2)∑k≠iexp(−‖xi−xk‖2/2σi2)" role="presentation">pj|i=exp(−∥xi−xj∥2/2σ2i)∑k≠iexp(−∥xi−xk∥2/2σ2i)pj|i=exp(−‖xi−xj‖2/2σi2)∑k≠iexp(−‖xi−xk‖2/2σi2)
def _joint_distribution_matrix(D, sigma):
P = np.exp(-D*D/2/sigma**2)
P /= np.sum(P, axis=1)
return P
最新文章
- 我的AngularJS 学习之旅
- IIS app pools, worker processes, app domains
- GMT时间转换
- UML类图、接口、包、关系
- php静态
- php 图形验证码的3种方法
- int main(int argc,char* argv[]) 简单理解
- Python中zip()函数用法
- Java数据结构与算法(5) - ch05链表(LinkList)
- C语言之冒泡排序
- Github 开源:使用升讯威 Mapper( Sheng.Mapper)与 AutoMapper 互补,大幅提高开发效率!
- mac环境下jdk配置
- 学习python笔记 协程
- android底部菜单栏的编写
- monkey配置及简单报告生成(安卓)
- db2用户权限
- 整合spring cloud云架构 - SSO单点登录之OAuth2.0登录认证(1)
- 利用Qt开发跨平台APP(二)(iOS,使用Qt5.9,很详细,有截图)
- 关于 PHPMailer 邮件发送类的使用心得(含多文件上传)
- PHP中普通方法和静态方法
热门文章
- [TypeStyle] Use fallback values in TypeStyle for better browser support
- Java的压缩、解压及压缩加密、解密解压 样例
- 使用 Google Guava 美化你的 Java 代码:1~4 【转】
- JavaEE 技术选型建议,server配置,部署策略
- 修改Linux中的用户名 分类: B3_LINUX 2014-07-24 11:40 440人阅读 评论(0) 收藏
- 查看MySQL数据的连接
- 阿里云服务器apache服务器局域网访问公网访问配置
- 小强的HTML5移动开发之路(41)——jqMobi中Side Menu实现(类似人人网)
- 小强的HTML5移动开发之路(31)—— JavaScript回顾6
- 【BZOJ 1008】[HNOI2008]越狱