Spark中的UDF 我们做模型想要上线,很多时候都会借助spark的udf来实现,最近在摸索这个东西,有了一点心得记录一下。 Hive/Spark SQL中的UDF这种上线方式是经常会用到的,UDF分为三种: UDF:一进对应一出 UDTF:一进对应多出,经常遇到的就是比如一行数组数据分为多行,类似explode lateral view UDAF:多进对应一出,就是聚合函数,类似sum(),count() UD 2020-08-13 大数据 > Spark #模型上线
Tensorflow和Pytorch的比较 比较来自:https://zhuanlan.zhihu.com/p/110177607 Tensorflow 在工业界有着更广泛的应用,Pytorch在学术界有着更广泛的应用。 TensorFlow强在在线部署,多语言支持和较好的线上系统稳定性,我觉得这个是TensorFlow在业界被广泛应用的最主要原因。在业界,无论算法性能有多好,总归还是要上线的,不然都是白扯,不上线就算不到kpi中去。而方便 2020-07-29 ML框架 #Tensorflow #Pytorch
《推荐系统实战》笔记 最近看了项亮老师的《推荐系统实践》,做了相关的心得和笔记。 一、推荐系统指标 用户满意度:调查问卷等方式,也可以通过线上其他指标来衡量 预测准确度: 评分预测:RMSE,MAE TopN推荐:准确率和召回率 覆盖率:物品流行度之间的差异,指标如熵、基尼系数 多样性:物品之间的相似性低,多样性高 新颖性:一般来讲,物品平均流行度低,新颖性高 如何在不牺牲精度的情况下提高多样性和新颖性? 惊喜 2020-07-22 搜推广 #《推荐系统实战》
伪多项式时间复杂度 背包问题是典型的NPC问题,用动规求解的话,其复杂度为$O(mn)$,m为物品个数,n为背包大小。所以你可能奇怪,为什么这个复杂度看着明明是多项式时间,但为什么是NP问题? 这里就涉及到了伪多项式时间复杂度这个概念,请参考知乎回答。 一句话归纳: 如果时间复杂度和输入数据的本身数值大小有关(传统公式里输入数据只代表规模,例如n个int整数),那就是伪时间复杂度。 2020-07-20 数学
时间序列中的随机过程 哎,心累,上个月mac电脑进水导致硬盘坏了,写好的4-5篇博客全部丢失了,包含写好的一系列时间序列文章。懒得再码一遍了,我就贴一下之前的参考博客和课程吧。 总结得很好的博客,包含平稳性介绍、自相关函数、偏自相关函数、ARIMA模型、指数平滑模型等知识点。 北大金融数学硕士课程:金融时间序列分析讲义 ,包含线性时间序列(ARMIA模型、指数平滑、单位根过程等),资产波动率模型(ARCH模型,GA 2020-07-20 数学 #时间序列
计算复杂度通用公式 计算复杂度的计算存在一个通用公式,对于$T(n) = aT(n / b) + c n^k$ 这种,复杂度为: 如果$k > log_b(a)$,则$T(n) = O(n^k)$ 如果$k < log_b(a)$,则$T(n) = O(n^{log_b(a)})$ 如果$k = log_b(a)$,则$T(n) = O(n^klog(n))$ 一个例子: $T(n) = 25*T(n 2020-06-22 数学
前端开发环境配置 Step 1 - VS code 汉化插件: chinese simplied language 格式化代码:Prettier 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172 2020-06-20 Web开发 #前端
从零搭建Mac开发环境 前阵子电脑mac进水,搞了台备机,重新安装了各类软件搭建开发环境,特此记录…以防万一… 软件包 Chrome 搜狗输入法 pycharm(2020.1) 模板:Editor -> File and code Templates -> Python Script: 1234#!/usr/bin/env python# -*- coding: utf-8 -*-# @Author: 2020-06-20 操作系统 > Mac
Github代理加速 12345678## 开启代理git config --global http.proxy 'socks5://127.0.0.1:7891'git config --global https.proxy 'socks5://127.0.0.1:7891'## 关闭代理git config --global --unset http.proxygit con 2020-06-05 编程开发