一些博文
技术报告
引导大语言模型生成计算机可解析内容
大语言模型 (LLMs, Large Language Models) 能够从大量语料的上下文中学习到模式,其包括词语之间的关系、句子的结构甚至更复杂的语义和语用信息。然而,让预训练语言模型生成结构化、严格遵循约定的内容仍然是一项挑战。
本文提出了一种引导大模型生成计算机高可用内容的方案,无需微调和额外的神经网络推理,通过提前约定的上下文无关文法 (CFG, Context-Free Grammar) 构建一个采用协程的约束装置,在自回归模型Transformer的解码阶段引导模型采样正确的词元,以构成符合程序约定的形式语言。这将保证计算机程序每次都能把语言模型生成内容解析为期望的数据结构、类型或指令,以便开发人员更容易地将大语言模型纳入具体应用程序。
本文作者在多个任务数据集上进行了实验,包括JSON、Mermaid框图和函数调用表达式生成等任务,结果表明本文的方法能够有效地提高LLMs生成内容对计算机程序的可用性。
- 中科院科技论文预发布链接:https://chinaxiv.org/abs/202403.00340
随便写写
扩散模型是如何工作的
Novel AI 于 2022 年 10 月初发布的,能够画各种精致二次元美少女的 NovelAI Diffusion 一下子把 AI 绘画推向风口浪尖。本文从技术角度和数学原理上简要介绍 Diffusion Model 的数学原理
技术文档
烧风的 Markdown 进阶教程
借助前端框架、 HTML 和 Markdown 拓展用法可以实现更多样化的图文排版。本文介绍 Markdown 的非标准拓展用法,适合进阶学习使用 Markdown
许可协议
Copyright © 2019-2024