More Photos of AWS COMMUNITY DAY in China (Shen Zhen)
长上下文问题:
- 随着上下文长度增加,性能降级同时发生。
- 上下文更长,预填充延迟指数增长。
- 上下文长度增加,解码延迟和上下文切换成本线性增加。
长内容优化硬件:
- A100内存层次结构 - 利用A100 GPU先进的内存架构来提高长上下文模型的性能。
长内容优化机器学习工程:
FlashAttention
一种高效的注意机制,可降低注意力机制对长序列的计算和内存成本。VLLM (超长语言模型)
专门的技术来实现训练和推理极长上下文的语言模型。
长内容优化模型架构:
MoE (专家混合)
使用模块化模型架构,具有多个专门的子网络,更有效地处理长上下文的不同方面。推测性解码
预测未来标记并并行处理它们的技术,可减少长期依赖的整体延迟。
预填充和解码背景:
- LLM集群推理的成本: 吞吐量 * 硬件利用率 / 硬件价格
预填充持续时间对吞吐量的影响:
- 预填充任务占用所有计算资源,因此预填充-预填充无法并行化。
- 解码任务需要很少的计算资源,可以与预填充任务并行。
分离预填充和解码,降低80%成本
- 引入DecodeOnly服务器。
- 通过网络传输推理数据实现预填充-解码分离。
- 原始架构专注于优化预填充任务。
- 预填充不再需要存储KV缓存数据(数据在生成后立即发送到解码服务器)。
- 推理不再需要大GPU内存支持
检索增强生成(RAG):
- 一种通过集成外部知识检索来增强语言模型,生成更有信息和相关响应的技术。
- RAG (包括:ETL、意图、检索)
- 模型生命周期管理(包括:模型、数据集、实体)
- 性能加速(包括:加速框架、量化)
- 基础设施操作(包括:自定义芯片、托管服务)
RAG工作流:
- 数据预处理(ETL)
- 知识提取
- 知识增强
- 知识矢量化
- 知识注入
LLM编排:
- 意图识别(意图)
- 知识检索(多会话重写)
- 检索
知识增强:
- QA文档合成
- 内容摘要
- 内容拆分
- 关键词提取
Editor
Danny Chan, AWS community builder (Hong Kong), specialty of FSI and Serverless
Kenny Chan, AWS community builder (Hong Kong), specialty of FSI and Machine Learning