输入“/”快速插入内容

ChatGPT Papers

2024年12月21日修改
2023年9月19日创建
608
674
Title
year
Author
Notes
Coding
Evaluating Large Language Models Trained on Code
2021-07-Codex.pdf
2021.07
Wojciech Zaremba
OpenAI
把 GPT 在 code 上训练了一下,模型没有创新,但解决了新的问题。参考性主要是怎么处理数据。
从 GPT-3 的权重开始 finetune,精度上没有收益,但是,收敛速度更快。
只解决了 python
Competition-Level Code Generation with AlphaCode
2022-02-AlphaCode.pdf
2022.02
Yujia Li
Oriol Vinyals
DeepMind
数据集上,进一步 finetune 了数据本身。
模型结构,用了完整的 encoder-decoder transformer 结构。
沐神:诚意不如 codex,自卖自夸的成分更多一些。
用 12 种编程语言对 8600 万个程序进行预训练,并针对编码竞赛的内容进行了微调。
ChatGPT
Training language models to follow instructions with human feedback
2022-03-InstructGPT.pdf
2022.03
Long Ouyang
Ryan Lowe
OpenAI
20 页正文,48 页附录
1.
标了一个小数据集做监督学习
2.
RLHF: RL from human feedback。 把 model output 标 rank 排名,然后强化学习。-- 这好像也是我前几年想做落地时的思路。
TODO
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
2023-Visual-ChatGPT.pdf
2023.03
Chenfei Wu
Nan Duan
Microsoft Research Asia
Multimodal Chain-of-Thought Reasoning in Language Models
2023-02-Multimodal-CoT.pdf
2023.02
Zhuosheng Zhang
Mu Li
Alex Smola
Amazon Web Services
Sparks of Articial General Intelligence: Early experiments with GPT-4
2023-03-experiments-with-GPT-4.pdf
2023-03
Microsoft Research
GPT3 的相关文章 & 脉络
gpt-2 和 gpt-3 的引用,都不算高。
GPT 1-3 系列,模型输入是一句话,输出也是一句话。这就是对话模式。输入也叫 prompt。
AI中经常遇到的挑战之一,就是建立能够进行多步骤推理的系统,将复杂的问题分解成较小的任务,并结合这些任务的解决方案,解决更大的问题。谷歌最近在思维链提示方面的工作,就鼓励模型在解决新问题时「展示工作」,这样就能帮助语言模型遵循逻辑思维链,并产生更有条理、有组织和准确的响应。就像四年级的数学老师会鼓励学生展示解决问题的步骤,而不是仅仅写下答案一样,这种方法不仅使解决问题的方法更具有可解释性,而且对于需要多个推理步骤的复杂问题,也更有可能找到正确的答案。