AI10 A/B测试的陷阱

在互联网公司中,A/B测试是验证新模块、新功能、新产品是否有效,新算法、新模型的效果是否有提升,新设计是否受到用户欢迎,新更改是否影响用户体验的主要测试方法。在机器学习领域中,A/B测试是验证模型最终效果的主要手段。

阅读全文

在模型训练过程中,在不断地评估着样本间的距离,如何评估样本距离也是定义优化目标和训练方法的基础。

在机器学习问题中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常使用余弦相似度来表示。余弦相似度的取值范围是$[-1,1]$,相同的两个向量之间的相似度为1.如果希望得到类似于距离的表示,将1减去余弦相似度即为余弦距离。因此,余弦距离的取值范围为$[0,2]$,相同的两个向量余弦距离为0。

阅读全文

AI08 ROC曲线

二值分类器(Binary Classifier)是机器学习领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision、recall、F1 score、P-R曲线等。但这些指标或多或少只能反映模型在某一方面的性能。相比而言,ROC曲线则有很多优点,经常作为评估二值分类器最重要的指标之一。

阅读全文

在机器学习中,绝大部分模型都需要大量的数据进行训练和学习(包括有监督学习和无监督学习),然而在实际应用中经常会遇到训练数据不足的问题。不如图像分类,作为计算机视觉最基本的任务之一,其目标是将每副图像划分到指定类别集合中的一个或多个类别中。当训练一个图像分类模型时,如果训练样本比较少,该如何处理?

阅读全文

在模型评估过程中,分类问题、排序问题、回归问题等往往需要使用不同的指标进行评估,在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。

阅读全文

距离伦琴最初宣布发现X射线还不到一个月,就有了这篇对伦琴的发现的查证,这是一个应该引起人们警醒的事例,它表明科学界同行对重大发现的态度也会是冷淡的。坎贝尔一斯温顿含蓄地指出,报业为之感到兴奋的现象实际上并不是一个“全新的”现象。但他之所以这样说是因为他在某种程度上误会了伦琴得到的结论。斯温顿坚持把X射线看作是“阴极射线的一部分”,并指出人们早就知道阴极射线能够用于拍摄照片,可他没有注意到伦琴所称的X射线根本就不是阴极射线。

阅读全文

AI05 文字表示模型

文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重要研究方向。

阅读全文

作者的图片

努力学习AI的Qi

一个铁憨憨的个人博客站w(゜Д゜)w

AI炼金术师,科学史爱好者

湖南,长沙