少年游

欲买桂花同载酒,终不似,少年游。

0%

机器学习1000问

什么是机器学习?

利用大量的数据样本,使得计算机通过不断的学习获得一个模型,用来对新的未知数据做预测。

机器学习有哪些类别?

机器学习分为监督学习,非监督学习和强化学习。
监督学习:同时将数据样本和标签输入给模型,模型学习到数据和标签的映射关系,从而对新数据进行预测。监督学习又分为分类问题和回归问题。

非监督学习:只有数据,没有标签,模型通过总结规律,从数据中挖掘出信息。

逻辑回归相比于线性回归,有何异同?

  • 首先逻辑回归处理的是分类问题,线性回归处理的是回归问题,这是两者最本质的区别
  • 线性回归是一种拟合函数,逻辑回归是一种预测函数。
  • 线性回归求参采用最小二乘法,逻辑回归求参采用梯度下降。

树形结构为什么不需要归一化?

因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。归一化对模型没有影响。
问题来了,为何非树形结构比如 Adaboost、SVM、LR、Knn、KMeans 之类则需要归一化呢?
对于线性模型,特征值差别很大时,比如说 LR ,我有两个特征,一个是 (0,1) 的,一个是 (0,10000) 的,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。
但是如果进行了归一化,那么等高线就是圆形的,促使 SGD 往原点迭代,从而导致需要的迭代次数较少。在实际应用中,通过梯度下降法求解的模型一般都是需要归一化的,比如线性回归、logistic回归、KNN、SVM、神经网络等模型。

有哪些归一化方法

  • 线性归一化
  • 标准差归一化

  • 非线性归一化
    幂律分布可用log(v, 2) / log(max, 2)
    指数归一化
    反正切函数 arctan

新内容,曝光较少的内容的排序问题如何解决?

对于某件商品或广告X,其是否被点击是一个伯努利分布(Bernoulli)

求解$\alpha, \beta$

然而,Beta分布除了两个显性的重要参数α和β外,还有两个相对隐形但同样重要的参数,平均值和中位数,通过平均值和中位数可以唯一确定α和β的值,它们的数学关系如下:

威尔逊平滑

平滑,曝光次数n,点击率p
它只适用于样本较多的情况(np > 5 且 n(1 − p) > 5),对于小样本,它的准确性很差。

类别特征有哪些编码方式?

  • 独热编码
    独热编码通常用于处理类别间不具有大小关系的特征,每个特征取值对应一维特征,能够处理缺失值,在一定程度上也起到了扩充特征的作用。但是当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用 PCA 等方法进行降维。

  • 散列编码
    对于有些取值特别多的类别特征,使用独热编码得到的特征矩阵非常稀疏,再加上如果还有笛卡尔积等构造的组合特征,会使得特征维度爆炸式增长。使用2-3倍取模。

  • 打分排名编码

特征降维方法?

  • 频次阶段技术
    比如文档中某个词语出现的次数不超过5次,则不计入特征中。

参考文档

  1. 推荐系统-威尔逊区间法
  2. 考虑评分人数的用户评分模型
  3. Click-Through Rate Estimation for Rare Events in Online Advertising
  4. 如何用通俗的语言解释CTR和推荐系统中常用的Feature Hashing
  5. Feature hashing for large scale multitask learning.