|
Post by account_disabled on Dec 26, 2023 3:05:09 GMT -5
这是David McClure详细阐述的用于BLOOM训练的数据集的早期预览——BLOOM 是在欧盟资金和 HuggingFace 的帮助下创建的开源法学硕士。这是来自英语语料库的 1000 万块样本,仅代表 BLOOM 背后信息的 1.25%! 随着模型变得越来越大,它们通过简单提示提供准确答案的能力也会增强。 GPT-3 通过引入少样本设置的概念彻底改变了 NLP 。从 OpenAI 的原始论文中我们读到: “我们训练 GPT-3,这是一种具有 1750 亿个参数的自回归语言模型,比任何以前的非稀疏语言模型多 10 倍,并在少数样本设置中测试其性能。” 从那时起,发生了很多变化,但在不同模型中几乎没有什么原则仍然有效。这些原则适用于文本和图像的生成。让我们回顾一下它们: 元指令:在使用文本到文本模型时,这些指令尤其重要。诸如“为二年级学生总结这一点”或“像 SEO 专家一样编写以下文本”之类的内容。 通过这样做,随着模型的发展,这些初始说明变得越来越相关。我们现在拥有像 Google 的 FLAN-T5 这样的 手机号码数据 模型它们仅根据指令进行训练,并且性能令人印象深刻。对法学硕士所做的研究还揭示了这些模型的新兴特征,可以通过使用诸如“一步一步制作肉酱面食的食谱”或诸如“让我们一步一步思考,生命的意义是什么”之类的句子来最好地表达这些特征。 。 内容类型:这些修饰符在处理 CLIP 或其他使用图像和文本训练的模型时非常有用。例如,如果我希望 CLIP 从产品图像中提取特征,我将从“a 照片”开始。这将帮助 CLIP 了解我期望分析或生成的内容类型。 主题描述:这里我们希望尽可能具有描述性。这就是我们最需要知识图谱的地方。我需要一个强大的分类法及其所有属性来创建对产品的可靠描述。 风格:编写文本时,写作风格将成为元指令的一部分。 “我想用艾伦·金斯伯格的风格来写[a,b,c]”就是一个很好的例子。在生成图像时,我们可以参考著名画家或摄影师的风格。 在处理图像生成时,使用与知名图像网站相同的语言注入材料和技术也是一个很好的做法志制作封面?生成内容的预期格式是什么?提示的一个重要部分就是这样做的。帮助我们定义构图。如果我们处理图像,这将包括图像比例、相机角度、分辨率甚至镜头类型或渲染细节等方面这是处理诗歌时的格式示例。我只是编造出来的,但如果你需要一个兔子洞,请深入研究才华横溢的 Gwern的人工智能诗歌生成。 附加参数和权重:每个系统都有自己的一组参数,可以附加在提示的末尾。为了给您一个使用 Midjourney 时的简单示例,我们可以通过添加 —v 4 来指定它的版本,或者我们通常可以通过应用 —seed 来更改起点。
|
|