Fluid
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于

Spark中的UDF

我们做模型想要上线,很多时候都会借助spark的udf来实现,最近在摸索这个东西,有了一点心得记录一下。 Hive/Spark SQL中的UDF这种上线方式是经常会用到的,UDF分为三种: UDF:一进对应一出 UDTF:一进对应多出,经常遇到的就是比如一行数组数据分为多行,类似explode lateral view UDAF:多进对应一出,就是聚合函数,类似sum(),count() UD
2020-08-13
大数据 > Spark
#模型上线

Tensorflow和Pytorch的比较

比较来自:https://zhuanlan.zhihu.com/p/110177607 Tensorflow 在工业界有着更广泛的应用,Pytorch在学术界有着更广泛的应用。 TensorFlow强在在线部署,多语言支持和较好的线上系统稳定性,我觉得这个是TensorFlow在业界被广泛应用的最主要原因。在业界,无论算法性能有多好,总归还是要上线的,不然都是白扯,不上线就算不到kpi中去。而方便
2020-07-29
ML框架
#Tensorflow #Pytorch

《推荐系统实战》笔记

最近看了项亮老师的《推荐系统实践》,做了相关的心得和笔记。 一、推荐系统指标 用户满意度:调查问卷等方式,也可以通过线上其他指标来衡量 预测准确度: 评分预测:RMSE,MAE TopN推荐:准确率和召回率 覆盖率:物品流行度之间的差异,指标如熵、基尼系数 多样性:物品之间的相似性低,多样性高 新颖性:一般来讲,物品平均流行度低,新颖性高 如何在不牺牲精度的情况下提高多样性和新颖性? 惊喜
2020-07-22
搜推广
#《推荐系统实战》

伪多项式时间复杂度

背包问题是典型的NPC问题,用动规求解的话,其复杂度为$O(mn)$,m为物品个数,n为背包大小。所以你可能奇怪,为什么这个复杂度看着明明是多项式时间,但为什么是NP问题? 这里就涉及到了伪多项式时间复杂度这个概念,请参考知乎回答。 一句话归纳: ​ 如果时间复杂度和输入数据的本身数值大小有关(传统公式里输入数据只代表规模,例如n个int整数),那就是伪时间复杂度。
2020-07-20
数学

时间序列中的随机过程

哎,心累,上个月mac电脑进水导致硬盘坏了,写好的4-5篇博客全部丢失了,包含写好的一系列时间序列文章。懒得再码一遍了,我就贴一下之前的参考博客和课程吧。 总结得很好的博客,包含平稳性介绍、自相关函数、偏自相关函数、ARIMA模型、指数平滑模型等知识点。 北大金融数学硕士课程:金融时间序列分析讲义 ,包含线性时间序列(ARMIA模型、指数平滑、单位根过程等),资产波动率模型(ARCH模型,GA
2020-07-20
数学
#时间序列

计算复杂度通用公式

计算复杂度的计算存在一个通用公式,对于$T(n) = aT(n / b) + c n^k$ 这种,复杂度为: 如果$k > log_b(a)$,则$T(n) = O(n^k)$ 如果$k < log_b(a)$,则$T(n) = O(n^{log_b(a)})$ 如果$k = log_b(a)$,则$T(n) = O(n^klog(n))$ 一个例子: $T(n) = 25*T(n
2020-06-22
数学

前端开发环境配置

Step 1 - VS code 汉化插件: chinese simplied language 格式化代码:Prettier 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172
2020-06-20
Web开发
#前端

从零搭建Mac开发环境

前阵子电脑mac进水,搞了台备机,重新安装了各类软件搭建开发环境,特此记录…以防万一… 软件包 Chrome 搜狗输入法 pycharm(2020.1) 模板:Editor -> File and code Templates -> Python Script: 1234#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author:
2020-06-20
操作系统 > Mac

Github代理加速

12345678## 开启代理git config --global http.proxy 'socks5://127.0.0.1:7891'git config --global https.proxy 'socks5://127.0.0.1:7891'## 关闭代理git config --global --unset http.proxygit con
2020-06-05
编程开发

最大熵与最大似然估计

2020-05-24
机器学习
123456…11

搜索

Hexo Fluid