网站建设如果没有源代码软件商城电脑版下载

张小明 2026/1/1 15:05:42
网站建设如果没有源代码,软件商城电脑版下载,下列关于wap手机网站,wordpress博客建站教程原文#xff1a;towardsdatascience.com/how-to-find-the-best-multilingual-embedding-model-for-your-rag-40325c308ebb 嵌入是捕获词语或句子语义意义的向量表示。除了拥有高质量的数据外#xff0c;选择一个好的嵌入模型是优化你的 RAG 应用最重要的且被低估的步骤。多语…原文towardsdatascience.com/how-to-find-the-best-multilingual-embedding-model-for-your-rag-40325c308ebb嵌入是捕获词语或句子语义意义的向量表示。除了拥有高质量的数据外选择一个好的嵌入模型是优化你的 RAG 应用最重要的且被低估的步骤。多语言模型尤其具有挑战性因为大多数都是在英语数据上预训练的。正确的嵌入会产生巨大的差异——不要只是抓住你看到的第一个模型语义空间决定了词语和概念之间的关系。准确的语义空间可以提高检索性能。不准确的嵌入会导致无关的信息块或缺失信息。更好的模型可以直接提高你的 RAG 系统的能力。在这篇文章中我们将从 PDF 文档中创建问答数据集以找到最适合我们任务和语言的模型。在 RAG 过程中如果检索到预期的答案这意味着嵌入模型在语义空间中将问题和答案定位得足够接近。虽然我们专注于法语和意大利语但这个过程可以适应任何语言因为最佳的嵌入可能不同。嵌入模型嵌入模型主要有两种类型静态和动态。静态嵌入如 word2vec 为每个词生成一个向量。这些向量通常通过平均组合来创建最终的嵌入。这些类型的嵌入现在在生产中很少使用因为它们没有考虑一个词的意义如何随着周围词语的变化而变化。动态嵌入基于 BERT 等 Transformer通过自注意力层引入上下文感知允许它们根据周围上下文来表示词语。大多数当前的微调模型使用对比学习。模型在训练期间通过看到正负文本对来学习语义相似性。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/562feb5034ad0bdb4951e008cc3be2be.png优化嵌入空间的过程。图片由作者提供。在一个准确的语义空间中意义相似的词语和短语彼此靠近而相互矛盾的词语则相距甚远。下面你可以看到使用bge-base-en-v1.5-angle嵌入的句子的二维 PCA。原始嵌入有 768 个维度PCA 将其减少到 2 个维度。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b37911e731a4c969417adb672bce6dfa.png示例2D PCA of Sentence Embeddings。图片由作者提供。该图展示了语义空间如何将具有相关意义的句子组织在一起。注意到句子“那辆新的跑车太酷了”和“I feel sick”这两个句子中的“sick”一词具有积极和消极的含义它们被放置得很远。嵌入模型理解单词的意义来自周围上下文。在 RAG 过程中检索机制使用语义相似性来识别接近用户查询的文档。因此一个不准确的语义空间会导致无关文档出现在查询附近从而导致答案不佳。预训练的 transformers 范围广泛为探索许多可能的文本嵌入模型创造了可能。确定特定需求的最佳模型并不容易。大规模文本嵌入基准Massive Text Embedding Benchmark…/Images/cbfd20f1457d3871d1e543007fe973a5.pngMTEB 中任务和数据集的概述。多语言数据集用紫色阴影标记。[3]大规模文本嵌入基准MTEB在 8 个任务和 58 个数据集上评估嵌入模型。其中 10 个数据集是多语言的覆盖 112 种语言。任务包括双语语料库挖掘、分类、聚类、成对分类、重排序、检索、语义文本相似度STS和摘要。我们只关注检索任务因为它对 RAG 来说是最相关的。为了评估它每个数据集都有一个语料库、查询和查询-文档映射。查询和语料库被嵌入以使用余弦相似性找到相关文档。模型性能通过 10 个位置的归一化折现累积增益nDCG10来衡量。这个指标考虑了相关文档在排名中的位置。我们不会过多地详细介绍 nDCG但如果您想了解更多我们推荐这篇深入的文章Demystifying nDCG。不幸的是最初的 MTEB 检索数据集仅限于英语。最近一些数据集被添加到了波兰语和瑞典语但多语言支持仍然有限[2]。…/Images/771760c3116fcff9f7c78d1850bd2a62.pngMTEB 排行榜 [1]我们将评估 MTEB 排行榜上当前的前 5 个多语言嵌入模型与基线 Sentence Transformers 模型进行比较。这项分析将揭示哪些模型在法语和意大利语检索方面表现最佳但您也可以轻松地为任何语言定制评估。首先让我们看看一些关键模型属性序列长度和嵌入维度。序列长度指的是模型一次可以处理的令牌的最大数量。任何超过上下文窗口的内容都会被截断。嵌入维度指的是向量的大小。更大的向量可以捕捉到句子中的更多意义但可能不太节省存储空间。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/8bff598c4c1ce2c5e288d654f4d5de8f.png嵌入模型规格比较。图片由作者提供。Cohere-embed-multilingual-v3.0 light-v3.0Cohere 提供了一种专有嵌入模型通过 API 以每 1000 万个令牌 0.10 美元的价格提供这与 ada-002 的价格相同。除了嵌入外该模型在检索时可以通过评估查询与文档主题的匹配度来将最相关的文档排在顶部。他们还实施了压缩感知训练以提高存储效率[4]。多语言 Cohere 模型的轻量版嵌入维度仅为 384 [7]。intfloat/multilingual-e5-largeE5 模型系列使用弱监督和 CCPair 数据集进行对比训练[5]。该数据集通过从包括 Reddit、StackExchange、Wikipedia、科学论文、Common Crawl 和新闻文章在内的各种来源提取文本对而创建。作者编制了包含一个查询q和相应的段落p的文本对如下所示。…/Images/3143b770ac011e096d9d49a619e887fe.pngCCPairs (Colossal Clean text Pairs) [5]text-embedding-3-largeOpenAI 声称这是他们性能最出色的模型其多语言性能优于ada-002。一个有趣的改进是增加了将嵌入维度从 3072 降低到任意低维度的可能性。虽然较低维度与准确性成本权衡相关但使用较小的嵌入可以提供在内存和存储需求上的有益节省[6]。sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2我们将此模型视为基线因为它是从 Hugging Face 下载量最大的 Sentence Transformers 模型之一。…/Images/71c18983475c9cd5e747c96de323e7b0.pngsentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 下载次数 [8]它基于 SBERT 架构该架构引入了三重网络结构的概念。网络接受三个输入——一个锚点、一个正例和一个负例。然后它被训练使得锚点在嵌入空间中比负例更接近正例。生成 QA 对为了尽可能减少语言之间的偏差我们选择的文档是 2023 年欧洲学期国家报告中的法国和意大利报告[9]。它们具有相同数量的页面和非常相似的结构是欧洲委员会的官方报告。我们将语料库中的每个文本块作为上下文提供给 GPT-3.5-turbo并提示它根据该上下文生成一个问题。当提示和期望的响应都在同一语言时LLMs 通常响应更准确因此我将提示翻译成了意大利语和法语。prompt_it Le informazioni sul contesto sono riportate di seguito. --------------------- {context_str} --------------------- Date le informazioni sul contesto e non le conoscenze pregresse. generare solo domande basate sulla domanda seguente. Siete un insegnante/professore. Il vostro compito è quello di impostare {num_questions_per_chunk} per un prossimo quiz. Le domande devono essere di natura diversa nel documento. Limitare le domande alle informazioni di contesto fornite. Le domande devono essere in italiano. prompt_fr Les informations contextuelles se trouvent ci-dessous. --------------------- {context_str} --------------------- Compte tenu des informations contextuelles et sans connaissances préalables, générer uniquement des questions basées sur la requête ci-dessous. Vous êtes enseignant/professeur. Votre tâche consiste à mettre en place {num_questions_per_chunk} pour un quiz à venir. Les questions doivent être de nature variée sur lensemble du document. Limitez les questions aux informations contextuelles fournies. Les questions doivent être en français. 我们已经将文本分割成 1000 个字符的块并将它们摄入节点中因此现在我们直接创建数据集。fr_datasetgenerate_qa_embedding_pairs(llmOpenAI(modelgpt-3.5-turbo),nodesfr_nodes,qa_generate_prompt_tmplprompt_fr)fr_dataset.save_json(fr_dataset.json)it_datasetgenerate_qa_embedding_pairs(llmOpenAI(modelgpt-3.5-turbo),nodesit_nodes,qa_generate_prompt_tmplprompt_it)it_dataset.save_json(it_dataset.json)结果数据集有 4 个键queries查询、corpus语料库、relevant_docs相关文档和 mode模式等于text。每个查询 ID 都有一个相关文档节点 ID。这是一个来自意大利数据集的查询及其对应的文本片段的示例。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c17736c2e4a51deb6d27f0d28e6756f7.png来自意大利数据集的第一个查询。图片由作者提供。评估指标我们将检索前 5 个文档并使用命中率Hit Rate和 MRR 来评估它们的相关性。命中率检查预期的相关文档是否在前 5 个中。因此整体值将是具有命中的查询比例。MRR 是通过找到相关文档的排名的倒数1/rank来计算的。如果找不到相关文档则该查询的 MRR 为 0。最终的 MRR 将是每个查询计算出的 MRR 值的平均值。模型性能https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2f4ace59d30a223d2e6f56eeea125d76.png模型性能。图片由作者提供。OpenAI 的最新模型取得了最高分这是预期的因为它也是 MTEB 基准测试上表现最好的多语言模型。第二名被 Cohere 的另一个专有系统获得。它们的正常版本和轻量版本在法语数据集上结果相似但在意大利数据集上正常版本的表现远超轻量版本。我们还尝试将text-embedding-3-large的嵌入减少到 256考虑到其小的维度性能相当令人印象深刻。OpenAI 的另一个嵌入模型ada-002的得分远低于其最新版本这表明更新带来了令人印象深刻的改进。Intfloat 的开源multilingual-e5-large是最好的开源模型在意大利数据集上的得分比在法语数据集上高得多。paraphrase-multilingual-MiniLM-L12-v2的结果令人失望。虽然它非常快但我们希望它能有更好的性能。结论MTEB 排行榜为评估多语言模型提供了一个良好的初始基准。然而为了提高检索效果最好根据您的需求定制评估。正如我们所见模型性能在不同语言之间差异很大。这就是为什么拥有一个系统来快速评估使用自己的文档嵌入模型很重要的原因。. . .如果您喜欢这篇文章请加入*文本生成** – 我们的时事通讯每周有两篇关于生成式 AI 和大型语言模型的最新见解的文章。*您可以在GitHub上找到这个项目的完整代码。您也可以在LinkedIn上找到我。. . .参考文献huggingface.co/spaces/mteb/leaderboardgithub.com/embeddings-benchmark/mteb?tabreadme-ov-fileMTEB大规模文本嵌入基准txt.cohere.com/introducing-embed-v3/huggingface.co/intfloat/multilingual-e5-large新的和改进的嵌入模型huggingface.co/Cohere/Cohere-embed-multilingual-light-v3.0huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v22023 年欧洲学期国家报告
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

土木毕业设计代做网站可玩儿小程序可以加盟么

Oracle 数据库性能优化与管理全解析 一、缓存性能指标 库缓存命中率 库缓存命中率概念上与缓冲区缓存类似,理想情况下应处于 90%以上的高位。可以通过以下查询获取相关信息: 3 from v$librarycache; EXECUTIONS MISSES RATIO ---------- ---------- ---------- …

张小明 2025/12/31 11:48:26 网站建设

可视化网站后台管理系统黄石网站推广排名服务

健康管理建议生成:从体检报告到个性化改善方案的智能闭环 在每年一次的体检结束后,你是否也曾盯着密密麻麻的数据项发愁?总胆固醇偏高、尿酸轻度升高、空腹血糖接近临界值……这些医学术语背后究竟意味着什么?又该从哪里开始调整生…

张小明 2026/1/1 1:41:06 网站建设

设计师做兼职的网站网站建设管理及维护

LangFlow 与 Fiddler:构建可观察的 AI 工作流调试体系 在今天,AI 应用的开发早已不再是“调用一个 API 返回一段文本”那么简单。随着 LangChain 等框架的普及,开发者正在构建越来越复杂的推理链、检索增强流程和多代理协作系统。然而&#x…

张小明 2026/1/1 1:41:08 网站建设

个人建网站流程在线设计房屋平面图

IPv4:互联网的基石与面临的挑战IPv4(Internet Protocol Version 4)作为互联网通信的核心协议,自1983年正式启用以来,支撑了全球互联网四十余年的高速发展。它通过32位二进制地址标识网络中的每一台设备,采用…

张小明 2026/1/1 1:41:08 网站建设

西安网站建设雄账号大气蓝色企业网站模板

一、编程范式:从“过程驱动”到“对象过程混合” C:纯面向过程 程序以“函数/过程”为核心组织逻辑,数据与操作(函数)分离。比如实现“学生信息管理”,会单独写 input_student() 、 print_student() 等函数…

张小明 2026/1/1 1:41:07 网站建设

郴州网站建设小程序开发流程步骤

Excalidraw:用一支“数字铅笔”释放团队创造力 你有没有经历过这样的会议——PPT翻来覆去讲不清逻辑,白板画满潦草线条却没人敢擦,最后只能靠截图和记忆拼凑结论?在远程协作日益频繁的今天,我们缺的不是工具&#xff…

张小明 2026/1/1 1:41:07 网站建设