Word2Vec的Skip-Gram训练实战
我们需要从原始文本到模型可用的训练语料,在深度学习和 NLP 任务中,我们不能直接把一段中文扔给 Word2Vec 模型。模型无法理解“我爱人工智能”,它只能理解经过切分、清洗后的词序列。在 Word2Vec 出现之前,计算机会觉得“苹果”和“梨”完全没关系,就像“苹果”和“汽车”一样没关系。 Word2Vec 的出现,让计算机第一次“懂了”:苹果和梨差不多,但跟汽车差很远。由此,我们引入了Word2Vec,Word2Vec 是一种把“词”变成“向量坐标”的技术,并且让意思相近的词,在数学空间里靠得很近。