Fluid
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
_

Spark笔记

如何手动分区:分两种情况,创建 RDD 时和通过转换操作得到新 RDD 时。 对于前者,在调用 textFile 和 parallelize 方法时候手动指定分区个数即可。例如 sc.parallelize(Array(1, 2, 3, 5, 6), 2) 指定创建得到的 RDD 分区个数为 2。 对于后者,直接调用 repartition 方法即可。实际上分区的个数是根据转换操作对应多个 RD
2018-10-18
大数据 > Spark

XGBoost调参

选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。 对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth, min_chil
2018-06-20
机器学习
#XGBoost

切片操作

python切片切片复制属于较深拷贝,意思是如果拷贝的元素是可变对象,那么指的是同一段内存。如a = [1,2,3, [1,2,3]]中的a[3],跟copy()方法一样,深拷贝是deepcopy()。 go切片切片属于一段引用,即深拷贝,切片有长度和容量之分。切片中[:]尾数默认是长度,但是容量是指原来数组的长度,如果切片长度超出,容量还在的话,可以正常访问。
2018-06-03
编程开发 > Python

hive建表时的format

hive建表时有三种指定,举例如下: ROW FORMAT SERDE ‘org.apache.hadoop.hive.ql.io.orc.OrcSerde’ STORED AS INPUTFORMAT ‘org.apache.hadoop.hive.ql.io.orc.OrcInputFormat’ OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.orc.
2018-05-30
大数据 > Hive

shell变量中的反斜杠

变量最好用双引号引起来,可以解析里面的变量和命令 用单引号引起来的变量是硬转义 echo -E “” 无转义,echo -e “”有转义 对于\,在命令行本身就代表了换行继续的意思,多以无论-E 还 -e,\本身就自带转义。 因此,对于多个\先要默认对多个\转义,并且转义时按照两两消除的方式,然后再按命令参数执行命令。 例如, “\...\“,假设为x个\,若x为偶数,则解析为x/2个\,
2018-05-22
编程开发 > Shell

Tensorflow中的变量作用域和名称作用域

在定义复杂网络时,为了让变量和操作更加清晰,我们需要用作用域scope来为变量或者操作加前缀。在Tensorflow中,总共有以下几个定义域操作: 1234tf.name_scope()tf.op_scope()tf.variable_scope()tf.variable_op_scope() 主要可以分为两类:变量作用域和名称作用域。其中tf.name_scope和tf.op_scope都属于名
2017-07-18
ML框架
#Tensorflow

Tensorflow中有关Graph和Session的几个问题

晚上在写一个简单的cnn时遇到了一个编译错误,代码检查了半天没找到问题。。最后鬼使神差地把全局变量初始化语句改了一下,竟然编译通过了。。研究了一下原因,应该是默认graph的问题。于是,再加上之前的默认session,我把tensorflow中默认graph和默认session几个注意点总结一下。 默认Session问题 session创建后,如果没有指定graph,则该session会调用默认的
2017-07-15
ML框架
#Tensorflow

Texlive和Ctex的中文兼容问题

因为用的Ubuntu,所以用的是texlive编译环境来写latex,当然我也用过ctex套装。总体来讲,感觉编译速度texlive要更胜一筹,用起来更加舒服。 今早师妹找我要beamer的模板,因为师妹用的是windows系统下的ctex,所以就发现了一个以前没弄清楚的问题,关于ctex和texlive的兼容问题。 概念区别说兼容问题之前,关于ctex和texlive有一些基本概念要搞清楚(我之
2017-07-07
编程开发 > Latex

C语言中的指针详解

最近在创建动态二维数组(数组大小为变量)的时候,遇到了一些关于指针的问题,经过一番试验和研究,将一些比较容易出错的地方进行了归纳整理。 数组名和指针1234int a[4] = {0};int *b = new int[4];cout << sizeof(a) << endl; // 4 * sizeof(int)cout << sizeo
2017-06-28
编程开发 > C++

Ubuntu与Windows之间的远程连接

之前使用Ubuntu 14.04时其实一直没有很好得解决远程桌面连接的问题,每次用到实验室的Windows服务器时,我都会切换到windows系统去使用。。可以说非常不方便了。这回重装Ubuntu16.04,总算是解决了这个问题,并且还解决了Windows连接Ubuntu的问题。 Ubuntu连接Windows服务器其实Ubuntu下也有类似Windows远程连接的很方便的自带软件,那就是remm
2017-06-13
操作系统 > Linux
1…891011

搜索

Hexo Fluid