Spark笔记 如何手动分区:分两种情况,创建 RDD 时和通过转换操作得到新 RDD 时。 对于前者,在调用 textFile 和 parallelize 方法时候手动指定分区个数即可。例如 sc.parallelize(Array(1, 2, 3, 5, 6), 2) 指定创建得到的 RDD 分区个数为 2。 对于后者,直接调用 repartition 方法即可。实际上分区的个数是根据转换操作对应多个 RD 2018-10-18 大数据 > Spark
XGBoost调参 选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。 对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth, min_chil 2018-06-20 机器学习 #XGBoost
切片操作 python切片切片复制属于较深拷贝,意思是如果拷贝的元素是可变对象,那么指的是同一段内存。如a = [1,2,3, [1,2,3]]中的a[3],跟copy()方法一样,深拷贝是deepcopy()。 go切片切片属于一段引用,即深拷贝,切片有长度和容量之分。切片中[:]尾数默认是长度,但是容量是指原来数组的长度,如果切片长度超出,容量还在的话,可以正常访问。 2018-06-03 编程开发 > Python
hive建表时的format hive建表时有三种指定,举例如下: ROW FORMAT SERDE ‘org.apache.hadoop.hive.ql.io.orc.OrcSerde’ STORED AS INPUTFORMAT ‘org.apache.hadoop.hive.ql.io.orc.OrcInputFormat’ OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.orc. 2018-05-30 大数据 > Hive
shell变量中的反斜杠 变量最好用双引号引起来,可以解析里面的变量和命令 用单引号引起来的变量是硬转义 echo -E “” 无转义,echo -e “”有转义 对于\,在命令行本身就代表了换行继续的意思,多以无论-E 还 -e,\本身就自带转义。 因此,对于多个\先要默认对多个\转义,并且转义时按照两两消除的方式,然后再按命令参数执行命令。 例如, “\...\“,假设为x个\,若x为偶数,则解析为x/2个\, 2018-05-22 编程开发 > Shell
Tensorflow中的变量作用域和名称作用域 在定义复杂网络时,为了让变量和操作更加清晰,我们需要用作用域scope来为变量或者操作加前缀。在Tensorflow中,总共有以下几个定义域操作: 1234tf.name_scope()tf.op_scope()tf.variable_scope()tf.variable_op_scope() 主要可以分为两类:变量作用域和名称作用域。其中tf.name_scope和tf.op_scope都属于名 2017-07-18 ML框架 #Tensorflow
Tensorflow中有关Graph和Session的几个问题 晚上在写一个简单的cnn时遇到了一个编译错误,代码检查了半天没找到问题。。最后鬼使神差地把全局变量初始化语句改了一下,竟然编译通过了。。研究了一下原因,应该是默认graph的问题。于是,再加上之前的默认session,我把tensorflow中默认graph和默认session几个注意点总结一下。 默认Session问题 session创建后,如果没有指定graph,则该session会调用默认的 2017-07-15 ML框架 #Tensorflow
Texlive和Ctex的中文兼容问题 因为用的Ubuntu,所以用的是texlive编译环境来写latex,当然我也用过ctex套装。总体来讲,感觉编译速度texlive要更胜一筹,用起来更加舒服。 今早师妹找我要beamer的模板,因为师妹用的是windows系统下的ctex,所以就发现了一个以前没弄清楚的问题,关于ctex和texlive的兼容问题。 概念区别说兼容问题之前,关于ctex和texlive有一些基本概念要搞清楚(我之 2017-07-07 编程开发 > Latex
C语言中的指针详解 最近在创建动态二维数组(数组大小为变量)的时候,遇到了一些关于指针的问题,经过一番试验和研究,将一些比较容易出错的地方进行了归纳整理。 数组名和指针1234int a[4] = {0};int *b = new int[4];cout << sizeof(a) << endl; // 4 * sizeof(int)cout << sizeo 2017-06-28 编程开发 > C++
Ubuntu与Windows之间的远程连接 之前使用Ubuntu 14.04时其实一直没有很好得解决远程桌面连接的问题,每次用到实验室的Windows服务器时,我都会切换到windows系统去使用。。可以说非常不方便了。这回重装Ubuntu16.04,总算是解决了这个问题,并且还解决了Windows连接Ubuntu的问题。 Ubuntu连接Windows服务器其实Ubuntu下也有类似Windows远程连接的很方便的自带软件,那就是remm 2017-06-13 操作系统 > Linux