皮尔逊相关系数

要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为: 当 Y = X 时,即与方差相同。当变量 X,Y 的变化趋势一致时,如果某个 大于 ,相应的 也大于 ;如果某个 小于 ,相应的 也小于 ,那么 COV(X...

推荐系统数据集

MovieLens点此获取数据 MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学中组织的。 MovieLens是电影评分的集合,有各种大小。 数据集命名为1M,10M和20M,是因为它们包含1万,10万和20万个评分。 最大的数据集使用约14万...

sklearn计算文本相似度的方法

余弦相似度在计算文本相似度等问题中有着广泛的应用,scikit-learn中提供了方便的调用方法 第一种,使用cosine_similarity,传入一个变量a时,返回数组的第i行第j列表示a[i]与a[j]的余弦相似度 123from sklearn.metrics.pairwise import cosi...

《原子习惯》-细微改变带来巨大成就

1. 改变要成功,在心理层面必须消耗最小能量好习惯无法养成、坏习惯无法停止,有个很大的原因是,我们做改变时,最大的阻力其实就是自己的注意力。 注意力让你改变时感到痛苦、也会消耗你的意志力能量,当意志力能量用完,改变就无法持续。 (有兴趣可以去看《轻松驾驭意志力》这本书)最有自制力的人,通常是最少用到自制力的。 技...

人工智能主要应用领域介绍

随着智能家电、穿戴设备、智能机器人等产物的出现和普及,人工智能技术已经进入到生活的各个领域,引发越来越多的关注。那么,人工智能目前都应用在哪些领域,运用了怎样的技术原理呢? 什么是人工智能?人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,是认知、决策、反馈的过程。曾...

什么是人工智能

What is Machine Learning? Althur Samuel(1959):“Field of study that gives computers the ability to learn without being explicity programmed.” Tom Mitchell...

词嵌入方法 (Word Embedding)

自然语言是一套用来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是用来表示词的向量,也可被认为是词的特征向量或表征。把词映射为实数域向量的技术也叫词嵌入(word embedding)。近年来,词嵌入已逐渐成为自然语言处理的基础知识。 为何不采用one-hot向量我们在自然语言处理 - 文...

利用余弦相似性比较两篇文章的相似程度

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫”余弦相似性”。 举个简单的例子: A:西米喜欢健身 B:超超不爱健身,喜欢打游戏 step1:分词 A:西米/喜欢/健身 B:超超/不/喜欢/健身,喜欢/打/游戏 ste...

自然语言处理 - 文本表示 (Representation)

文本表示即通过某种形式将文本字符串表示成计算机所能处理的数值向量。那么为什么要进行文本表示,根本原因是计算机不能直接对文本字符串进行处理,因此需要进行数值化或者向量化。不仅传统的机器学习算法需要这个过程,深度学习也需要这个过程,只不过这个过程可能直接包含在了深度学习网络中。同时,良好的文本表示形式也可以极大的提升...

TF-IDF算法原理及应用

有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多领域,但有一个非常简单的经典算法,可以给出令人相当满意的结果,这就是TF-IDF(Term Frequency–...