引用,浅拷贝和深拷贝 引用变量名是别名,没有开辟新的内存,指向同一块内存 浅拷贝:一般出现在array-like对象中,如list等。 虽然开辟了一块新的内存,但是对象中的每一个元素都是指向原对象的每个元素的地址。例如: a = [1,2,[1,2,3]] b =copy.copy(a) id(a[2]) == id(b[2]) 对于元素为不可变对象时,倒无所谓,如果元素为可变对象,那么a变b也变。 切片就是浅拷贝!! 2019-05-06 编程开发 > Python
CART与普通决策树的区别 CART可以说是最常用的数,gbdt,xgboost等等… 归纳一下其与普通决策树(ID3,C4.5)的区别: 既可以分类,也可以回归。在分类时使用基尼系数,在回归时使用平方误差。 只划分左右子树,也就是生成一个二叉树。普通决策树生成多个子树 特征在被选择后,在接下来的树中还能被继续使用。普通决策树只使用特征一次。 连续特征,n个值,从n-1个中间值中选择;离散特征,n个值,有$2^{(n-1) 2019-04-29 机器学习 #CART
类别不均衡问题的调参 对于类别不均衡问题,处理方法有: 正样本过采样 负样本降采样 调整阈值 主要是这三种,实际算法处理过程往往是这样的: 先对负样本进行降采样or正样本过采样来提取训练样本,以保证模型的AUC尽量高。 过采样or降采样之后模型输出的概率已经失去原本的意义,所以在测试集上如果看其他评价指标如交叉熵,那loss是很大的,当然不影响AUC。所以,我们需要对输出概率再做调整,恢复到真正实际的概率 2019-04-24 机器学习 #特征工程
import及__init__.py import注意事项:1234from package1 import module1from package1.module2 import function1from package2 import class1from package2.subpackage1.module5 import function2 注意,module.function这种形式是不行的,用.前面只能是package 2019-03-07 编程开发 > Python
shell交互式及登录式 登录式和非登录式区别: “登陆shell”通常指的是:(/etc/profile,~/.bash_profile, ~/.bashrc,/etc/bashrc) 用户通过输入用户名/密码(或证书认证)后启动的shell; 通过带有-l|—login参数的bash命令启动的shell。 例如,系统启动、远程登录、使用su -切换用户、通过bash —login命令或 -i 启动bash等。 2019-02-15 编程开发 > Shell
sudo与su sudo -u user单纯以某用户身份运行命令,并不切换环境,需要输入当前用户密码,。sudo的各类权限在/etc/sudoers配置 su 则切换到某用户的环境下,需要输入某用户的密码。这里注意一定要加 su - ,只有这样才会生成login shell加载/etc/profile和~/.bash_profile,如果不加的话,启动non-login shell,不加载上述文件,环境变量部分 2019-02-15 编程开发 > Shell
父子shell和父子进程 首先,shell也是一个进程! 举个例子: 在某个shell下(该shell也是一个进程,id为1),执行一个脚本文件,同时便会生成一个非交互子shell(进程id为2),然后该脚本文件的每一行可执行程序,又会生成新的子进程id如3,4,5,6等等 父子shell中的变量问题: 普通自定义变量不会共享,只在当前shell生效 环境变量: 如果没有切换用户,子shell(非交互式)共享父she 2019-02-15 编程开发 > Shell
python2和3切换注意事项 除法问题。 12345678910# python2>>> 3/21>>> 3/2.01.5# python3>>> 3/21.5>>> 3//21.5 解决方法:from future import division 字符串编码不同: python2字符串分为str类型和unicode类型 str:非unic 2019-02-02 编程开发 > Python
关于特征值分布不均匀的问题 之前city_id作为特征后导致模型预测结果差异很大这一点,一直让我耿耿于怀,仔细思考后,其实可以这样解释: 首先特征属性不对,我应该将其设为离散特征,做OHE处理,再放入模型训练。 特征值分布不均匀,事实上不会影响该特征值的选择,假如该特征值确实区分了样本,即使树的左右子节点样本数量相差很大,也是照样划分啊! 之前的结果很大一部分原因,还是类别分布不均匀导致的!杭州的值普遍大且样本多,宁波 2018-12-06 机器学习 #特征工程
关于特征工程 特征工程和模型选择是提升算法的两类途径。 特征工程:数据清洗,(降维),特征选择,特征组合。 特征组合变换好坏都有,一方面能提高模型的表达能力,另一方面有可能引起过拟合,增加冗余特征,降低模型解释力。 特征变换还可以是将连续特征转换为离散特征。 模型的选择和特征工程是耦合的。因为不同模型对特征工程的需求不一样。 树模型不需要归一化处理,不需要特征选择,因为这些模型都能做到。 神经网络则不需要 2018-12-06 机器学习 #特征工程