热门搜索：

使用 NLP 改进生成式 AI _ Seuss

信息技术2024-05-13Data Summit 2024 数据峰会邓***

AI智能总结

主要内容总结

生成型AI在商业研究中的应用：
- 使用生成型AI提高商业研究的效率和质量。
- 生成型AI解决方案的选择和优化。
虚构与检索增强生成：
- 检索增强生成（RAG）通过从外部来源获取事实来提升生成AI的准确性和可靠性。
- RAG技术在提高生成AI答案的准确性方面的作用。
上下文窗口的重要性及克服方法：
- 大型语言模型（LLMs）的上下文窗口限制及其影响。
- 使用更大上下文窗口、分块文档和NLP方法来克服这些限制。
北极光的机密信息处理：
- 使用具有更大上下文窗口的LLMs处理敏感信息。
- 将文件分块、使用嵌入技术等方法以保持准确性。
自然语言处理（NLP）的应用：
- 使用NLP减少文档长度，提取有价值的信息。
- 通过解析树和语法标签来识别有意义的句子。
效果与应用实例：
- 生成AI解决方案在不同领域的应用案例。
- 通过实际测试验证生成AI的效果，如提高顾问工作效率和质量。

关键数据

上下文窗口大小：
- GPT-3.5 Turbo：16K
- GPT-4-Turbo：128K
API成本降低：
- 使用NLP技术可降低55%的文档文本长度。
- 将生成AI解决方案的API成本降低95%。
用户反馈：
- 使用生成AI后，任务完成速度提高40%，质量提高25%。
- 顾问绩效提高：低于平均水平的顾问提高43%，高于平均水平的顾问提高17%。
市场趋势：
- 75%的商业专业人士在工作中使用AI。
- 85%的员工表示AI帮助他们专注于最重要的工作。

以上总结涵盖了研报的主要内容和关键数据，条理清晰，易于理解。

使用NLP改进生成型AI 提交时间: 数据峰会2024 May9,2024 议程使用生成人工智能进行商业研究生成人工智能解决方案的选择虚构与检索增强生成语境窗口的重要性克服语境窗口限制的方法将自然语言处理应用于生成人工智能解决方案 SinglePoint集成了与客户端相关的所有内容，无论其来源如何客户北极光单点外部内容提供商搜索结果,内容和见解洞察力Distribution工具集成搜索自动标记 and分类最佳实践用户界面机器学习和 GenAI 主要研究Manager工作流系统用于市场研究和竞争情报的生成AI是一种强大的新工具用户问题 GenAI响应引用和链接出现时鼠标悬停在小鸡身上多个来源为了观察都被引用了哈佛商学院的一项研究发现，758名波士顿咨询集团（BCG）咨询顾问参与的研究表明，生成式和对话式AI对商业战略工作产生了巨大影响。顾问分为使用ChatGPT-4或不使用ChatGPT-4的小组给定一系列业务战略研究任务来执行按数量和质量衡量的产出那些以前被认为高于平均水平的顾问的业绩提高了17 % 那些以前被认为低于平均水平的顾问将其绩效提高了4 3％使用GenAI的小组完成任务的速度提高了40%，质量提高了25% 微软本周刚刚发布的对30,000名LinkedIn会员的调查发现，员工在采用AI方面遥遥领先于雇主 75％的商业专业人士在工作中使用AI 其中78%(75分中的59分带来自己的AI 点)是工作工具-不愿意等待他们的公司提供它们从婴儿潮一代(73％)到Z世代(85％)的所有世代都是AI的重度用户用户表示，人工智能帮助他们节省时间(90%)，专注于最重要的工作(85%)，更有创造力(84%)，更享受工作(83%) 创造了新的缩写词：“BYOAI”带来自己的AI 创建GenerativeAI解决方案的三个选项使用检索增强生成幻觉问题：大语言模型（LLMs）是概率性的文本预测器，在聊天应用中往往依赖于其训练数。 LLM训练数据：狗追逐(飞盘[100]汽车[50]猫[10])用户输入：一只狗在追Fluffy 用户提问：什么是Fluffy？LLM将问题表述为： •什么单词最有可能完成“Dogschase…”？•查询其训练数据以找到最可能的答案•这个单词是“Dogschasefrisbees”。生成AI答案：蓬松是飞盘避免幻觉从经审核的内容生成相关文档列表将文档文本与用户的问题一起发送到LLM的API 提示模型仅从提交的内容用户要求问题使用的搜索索引高品质，审核内容 "检索增强生成" 从收集文本最相关文档搜索结果生成的AI答案和摘要将文本发送到LLMAPI随着用户的 question 使用RAG避免幻觉并确保准确性 LLM训练数据：狗追逐(飞盘[100]汽车[50]猫[10])用户输入：一只狗在追Fluffy 用户提问：什么是Fluffy？搜索过程输入一组检索到的文档，这些文档具有单词“蓬松”在他们检索到的文档中有这样一句话：“蓬松，尽管是一只猫，喜欢追逐飞盘。" 该过程提示LLM模型仅使用检索到的文档中的文本来回答问题生成AI将问题表述为： •什么词最有可能完成“蓬松是一个...”生成AI答案：蓬松是猫当前模型已在通过增强检索增强生成（RAG）前端来允许提取模型外部的信息，以解决依赖记忆信息模型的不足方面取得了显著进展。-Intel 检索增强生成（RAG）是优化大型语言模型输出的过程，在生成响应之前，它会参考其训练数据来源之外的权威知识库。-亚马逊 RAG是一个基于外部知识库检索事实的AI框架，用于使大型语言模型（LLMs）基于最准确和最新的信息进行grounding-IBM 然而，在实际生产场景中使用[大规模语言模型（LLMs）]时，它们存在一些局限性，主要是因为它们只能回答与训练数据相关的提问。这意味着它们不知道发生在它们训练日期之后的事实，并且无法访问受防火墙保护的数据。检索增强生成（RAG ）是一种模式，旨在通过向LLM提供与用户问题相关的最新数据来克服上述限制，这些信息是通过提示注入的。-微软检索增强生成正在成为事实上的标准检索增强生成是一种技术，可以在查询上提供比单独的大语言模型更准确的结果，因为RAG使用了大语言模型中已包含数据之外的知识。-Oracle 检索增强生成（RAG）是一种通过从外部来源获取事实来提升生成AI模型的准确性和可靠性的技术。-Nvidia 商业问题大型语言模型(LLM)具有表示为令牌限制的上下文窗口(一个令牌平均.75个单词) •GPT-3.5Turbo去年夏天有一个4K上下文窗口•GPT-3.5Turbo今天有一个16K上下文窗口•GPT-4 -Turbo有一个128K上下文窗口上下文窗口约束输入和输出文本的总和多少就够了？使用检索增强生成来避免幻觉用户要求问题使用的搜索索引高品质，审核内容可以发送多少文本是上下文的地方窗口开始发挥作用从收集文本最相关文档搜索结果生成的AI答案将文本发送到LLMAPI随着用户的 question 多少上下文就足够了？令牌计数每个令牌计数文件 50th百分位数每个令牌计数文件第75百分位数 x20 生命科学期刊摘要 362 452 9,040 新闻文章 890 1,484 29,680 工程期刊文章 6,624 10,510 210,200 银团市场研究 4,123 12,520 250,400 初级市场研究 6,275 23,658 473,160 适应上下文窗口的策略使用具有更大上下文窗口的LLMs分块文档，仅发送相关片段使用LLM总结文档，在摘要上进行操作为每份文档分别发送交易；进行两轮处理使用NLP消除无意义的文字使用更大的模型有一个经济问题 GPT-3.5Turbo具有16K上下文窗口•每M令牌0.50美元 GPT-4Turbo具有128K上下文窗口•每M令牌10.00美元使用更大的上下文窗口每个令牌的成本增加20倍将文件分块，对分块进行操作在古代(2023年)，当上下文大小为4K时，人们谈论得更多将每个文档分解成段落大小的块使用嵌入(矢量搜索的一种形式)检索块发送最相关的块，并要求GenAI响应但是将文档分割可能会导致准确性丧失，因为相关上下文可能分布在不同的片段中而无法被检索到。使用LLM汇总文档，仅在RAG解决方案中发送摘要会丢失很多没有进入摘要的信息当只有一小部分将被使用时，必须处理整个语料库新闻示例 •语料库中有1500万篇新闻文章•而在任何给定年份，仅有一百万篇会在特定客户用户的搜索结果中出现•为什么需要为总结全部1500万篇付费？第二遍提供总体总结第一遍在用户的上下文中总结文档question 每个文档一个交易;发送尽可能多的第二遍将第一遍的输出总结为总体总结用户要求问题使用的搜索索引高品质，审核内容但是很难支持对话互动整体生成AI 摘要向LLM发送答案从收集文本最相关文档生成的AI答案从每个文档搜索结果将文本发送到LLMAPI随着用户的 question 用第二遍为每个文档发送单独的交易记录令牌计数每个令牌计数文件第75百分位数生命科学期刊摘要 452 新闻文章 1,484 工程期刊文章 10,510 银团市场研究 12,520 初级市场研究 23,658 适用于许多内容类型不会最适合最具成本效率的模型，适用于部分二级市场研究和大部分一级市场研究。使用NLP消除无用的文本减少文档至其“值得总结的句子”。值得总结的句子是陈述性的，可以通过句子的解析树来确定。值得总结的句子表达一个有趣的想法。例如：IBM今天以300亿美元收购了RedHat。不是值得总结的句子：IBM做了什么？请关注我们的社交媒体。本文件包含前瞻性声明……。[出版商名称]提供市场研究……。微软的新生产相似性。 21北极光的机密信息 NLP用于将文档压缩为其摘要有价值的句子蓝色：北极光专有红色：GoogleTensorFlow图书馆绿色：OpenAIAPI/AzureAI金牌：对用户的输出摄取内容应用摘要文本和元数据萃取使用Parsey 使用SyntaxNet 创✁搜索索引搜索结果有价值的句子规则每个图句子语音标签的一部分每一个字创✁“NLP文本”每个版本文件指出只包含句子表达想法，评注, 分析和事实 22 生成的AI答案将文本发送到LLMAPI随着用户的 question 从收集文本最相关文档 SyntaxNet和Parsey一起工作，产生可以解释的图解句子陈述性句子是思想和见解的单位。声明式句子有一个名词主语，一个词根中的动词谓语和一个直接宾语。我们可以使用解析的句子图来评估一个句子是否表达了一个相关的精巧的想法。在这种情况下，机器学习到该句子的主题是IBM（名词主语），并且IBM收购了RedHat（动词谓语）。北极光每天计算三百万个句子的解析树使用NLP专注于总结有价值的句子，平均可将文档文本减少55％令牌计数每个令牌计数文件第75百分位数生命科学期刊摘要 452 新闻文章 1,484 工程期刊文章 10,510 银团市场研究 12,520 初级市场研究 23,658 即使是商业组织中最大的文档也可以适应16K模型将API成本降低95% 对于任何给定的模型，将生成式AI解决方案的API成本降低55% 分开拍摄生成的AI改变了搜索范式，精灵不能放回瓶子里高回报将获得那些获得磁头开始生成式AI显著减少了完成任务的时间并提高了业务分析的工作质量。检索增强生成正在成为生成AI的事实上的标准上下文窗口对RAG解决方案的设计和操作施加了严重限制有许多策略可以克服这些限制，而将文档文本缩减为仅包含有意义句子的自然语言处理（NLP）方法往往非常有用。谢谢！ C.DavidSeuss首席执行官北极光David@northernlight.com1-617-515-5771 此演示文稿完全由人类撰写，GPT-3.5Turbo不对作者所犯的错误承担责任。

点击免费查看完整报告