XGBoost和LightGBM调参 有个应用上的重大区别: Xgboost只处理数值特征,因此Xgboost无法直接处理离散特征(categorical feature),需要数据预处理,要么labelEncoder转换为数值特征,当做连续值处理,要么one-hot编码,当做离散值处理。 LightGBM则有对离散特征的单独处理,需要首先利用labelEncoder转换为数值,然后会利用On Grouping for Maxim 2018-12-05 机器学习 #XGBoost
Spark调优以及各名词深刻理解 Spark资源优化:队列是根据Fair调度分配资源的。 静态资源分配方式的问题: stage非对称 Task非对称-数据倾斜 执行时间随意性 所以需要根据任务动态分配资源。例如: Executor资源量相关: spark.dynamicAllocation.minExecutors spark.dynamicAllocation.maxExecutors 这个就会让任务根据资源需求而自动调整 2018-11-28 大数据 > Spark
关于特征归一化的一些理解 归一化会加快梯度下降法的收敛速度了 这个是显然的,不多说了。 但是这里需要注意的是,像LR这种单纯的梯度下降法求解,只是增加收敛速度罢了,并不会让解更加精确,因为最终这个最优解的系数值是和特征值比例成反比的。 归一化有可能会提升算法精度 注意,这里是可能,因为就像前文所有,对于LR,是不会提升精度的,但是归一化对某些模型也是会提升精度的: 对于KNN(跟梯度下降法无法),需要计算欧式距离,如果不 2018-11-21 机器学习 #特征工程
Java泛型 123456789List stringArrayList = new ArrayList();List integerArrayList = new ArrayList();Class classStringArrayList = stringArrayList.getClass();Class classIntegerArrayList = integerArrayList.getClass( 2018-11-19 编程开发 > Java
shell中的$1,$#等 $$Shell本身的PID(ProcessID) $!Shell最后运行的后台Process的PID $?最后运行的命令的结束代码(返回值) $-使用Set命令设定的Flag一览 $*所有参数列表。如”$*”用「”」括起来的情况、以”$1 $2 … $n”的形式输出所有参数。 $@所有参数列表。如”$@”用「”」括起来的情况、以”$1” “$2” … “$n” 的形式输出所有参数。 $添加到She 2018-11-11 编程开发 > Shell
多进程,多线程以及spark的executor等概念 在spark中, worker就是集群里可执行的机器,一个worker可以有多个executor。 一个executor就是CPU,一个CPU可以有多个核。 一个core(核)对应一个线程,也就是一个task,一个核同时只能执行一个task。注意,这个的core不是指物理核,是虚拟核。 关于CPU和核: CPU有单核CPU和多核CPU。 一般来讲几个物理核就是几个线程,但是通过超线程技术,一 2018-11-07 大数据 > Spark #并发
Linux Shell多进程并发以及并发数控制 利用命名管道:和文件描述符绑定,利用FIFO,数据滞留的特性,控制并发数。 https://blog.csdn.net/yeweiouyang/article/details/52512522 2018-11-05 编程开发 > Shell
关于sh,source,exec source相当于把文件中的命令按顺序在当前shell执行一次 sh则会另起一个子shell,export的环境变量不能返回到父shell https://www.jianshu.com/p/dd7956aec097 2018-11-02 编程开发 > Shell
关于nuhup与& https://www.jianshu.com/p/747e0d5021a2 如果后台&开了多个子进程,关闭父进程,子进程变成孤儿进程,继续运行。 如果后台&开了多个子进程,关闭终端,进程全部结束。 如果后台&开了多个字进程,但是用了nohup,关闭终端,子进程继续运行。 如果后台&开了多个子进程,先关闭父进程,再关闭终端,子进程继续运行,子进程变成孤儿进程 2018-11-02 编程开发 > Shell