竹一木

对话模型的模板

简介 由于语言模型只接受非结构化的文本作为输入,为了方便模型处理多轮的对话消息列表,衍生出对话模板(chat template)。对话模板的目的是用于将消息列表转换为符合模型要求的文本字符串,这种有特殊标记的字符串格式被称为 Chat Markup Language(缩写为 ChatML)。 一般而言,消息列表是字典的列表,字典中通常包含字段:role 字段用于描述角色类型,可选值一般为...

文本生成策略

文本生成策略,即解码策略,是指自然语言生成(Natural language generation,NLG)任务中,对当前词或词元概率分布(一般由通过 Softmax 函数产生的)进行采样的方法。通过调整文本生成策略,可以使生成的文本更加多样、更加连贯、更加和谐。 确定性策略 确定性策略(Deterministic strategies)是指在输入固定时,模型的输出总是固定的,这种类型的...

向量数据库

向量与向量数据库 向量(vectors)也称为嵌入(embeddings),可以来自于结构化数据,也可以是对非结构化数据的抽象,例如文本、图像、语言等。一般地,利用一些模型手段,将非结构化数据转换为长度相同的向量形式,通过向量相似度比较,进而完成语义搜索或推荐,常见的任务包括推荐系统、人脸识别、文档问答、图文检索等。 一般地,向量可以分为浮点数向量(floating-point embe...