离语

semaphore

首页 >> 离语 >> 离语最新章节(目录)
大家在看流放?姑奶奶看上你们的江山了 酒色财气?可我是个好海军 小师妹明明超强却过分沙雕 抄家流放,搬空皇家库房发家致富 重生年代大院娇媳美又飒 娱乐圈大清醒 民间风水师笔记 末世重生:炮灰真千金不做人了 齁甜!在恶人综艺里被病娇盯上啦 婚后,封太太靠撒娇拿捏禁欲教官 
离语 semaphore - 离语全文阅读 - 离语txt下载 - 离语最新章节 - 好看的其他类型小说

第266章 先睡了

上一章书 页下一章阅读记录

日常生活和经济全球化之间存在密切的关系。经济全球化是一个涉及全球范围内经济活动、贸易、投资、金融等方面的概念,它使得各国经济相互依存、相互联系,形成一个全球范围的有机经济整体。这种全球化的趋势对人们的日常生活产生了深远的影响。

以购物为例,经济全球化使得人们可以轻松地购买到来自世界各地的商品。无论是在大型超市、电商平台还是实体店,我们都可以看到来自不同国家的商品琳琅满目。这些商品可能包括食品、衣物、电子产品等,它们不仅丰富了我们的选择,也提高了我们的生活质量。

文本相似度计算是自然语言处理(NLp)领域的一个重要研究方向,它旨在衡量两个或多个文

本之间的相似程度。文本相似度计算的原理基于两个主要概念:共性和差异。共性指的是两个文本

之间共同拥有的信息或特征,而差异则是指它们之间的不同之处。当两个文本的共性越大、差异越

小,它们之间的相似度就越高。

文本相似度计算可以根据不同的分类标准进行分类。首先基于统计的方法分类,这种方法主要

关注文本中词语的出现频率和分布,通过统计信息来计算文本之间的相似度。常见的基于统计的方

法有余弦相似度、Jaccard 相似度等。其次是基于语义的方法分类,这种方法试图理解文本的含义

和上下文,通过比较文本的语义信息来计算相似度。常见的基于语义的方法有基于词向量的方法

(如 word2Vec、GloVe 等)和基于主题模型的方法(如 LdA、pLSA 等)。最后是基于机器学习的方

法分类,这种方法利用机器学习算法来训练模型,通过模型来预测文本之间的相似度。常见的基于

机器学习的方法有支持向量机(SVm)、神经网络等。

目前,在国内外,文本相似度计算已经取得了丰富的成果。国内方面,清华大学等机构的研究

者提出了基于深度学习的文本相似度计算方法,利用神经网络模型来捕捉文本的深层语义信息,实

现了较高的相似度计算精度。江苏师范大学的研究者提出了利用《新华字典》构建向量空间来做中

文文本语义相似度分析的方法,该方法在中文文本相似度计算方面取得了显着的效果。放眼国外,

Google 的研究者提出了 word2Vec 算法,该算法将词语表示为高维向量空间中的点,通过计算点之

间的距离来衡量词语之间的相似度。word2Vec 算法在文本相似度计算领域具有广泛的影响。斯坦

福大学等机构的研究者提出了 bERt 模型,该模型通过大量的无监督学习来捕捉文本的上下文信

息,可以实现高精度的文本相似度计算。bERt 模型在多项自然语言处理任务中均取得了优异的表

现。

2.5 本章小结

本章主要介绍了本项目中使用的四种关键技术与模型。这些技术主要基于大型语言模型,并且

依赖于 RAG 技术的原理。介绍了知识抽取技术,它利用先进的自然语言处理技术从文本中提取有意

义的信息和知识,随后讨论了文本处理中所使用的 RAG 技术,该技术可以显着提高大型语言模型在

专业领域的性能,增强信息检索的准确性和效率。最后探讨了在文本比对过程中所需的相似度计算

方法,这对于评估文本之间的相似程度至关重要。

了解清楚数据获取来源后,进行数据采集,数据采集的方法包括自动化和手动两种方式:

自动化采集:利用编写的 python 脚本通过 ApI 接口自动从上述数据库和期刊中下载文献和元

数据,部分代码如图 3.2 所示。这种方法的优点是效率高,可以大量快速地收集数据。使用

beautifulSoup 和 Requests 库从开放获取的期刊网站爬取数据。

手动采集:通过访问图书馆、研究机构以及联系文章作者等方式获取不易自动下载的资源。虽

然此方法更费时,但有助于获取更全面的数据集,特别是一些最新或尚未公开的研究成果。

将两种方法采集到的文献数据进行汇总,最大范围的将有关电力 LcA 领域的英文文献进行汇

总,共获得 507 篇。

最后是将各个途径获取到的文献数据和元数据汇总,进行数据预处理。

采集到的数据需经过清洗和预处理,才能用于后续的分析。

数据预处理的步骤包括:

数据清洗:删除重复的记录,校正错误的数据格式,填补缺失值。

数据整合:将来自不同来源的数据整合到一个统一的格式和数据库中,如表 3.1 所示,以便进

为了使后续知识库生成更加准确与完善,对文献具体内容进行筛选。例如部分文献中并未提到

所用数据,而是指出所用数据库链接,如图 3.3 所示,在对该篇文献进行解析后,数据部分就是欠

缺的,最终构建的知识库就不完整,在调用大模型回答相关问题时,极大概率产生幻觉。因此为了

构建更为准确的专业模型,对爬取下来的 507 篇文献进行筛选,选择包括流程图(system

boundaries)、各单元过程或生产环节的投入( input),产出( output),数据( ),以及数据的时间、地点、获取方法、技术细节的文献作为最后应用的数据。核对内容

后的文献数据集共 98 篇英文文献。

数据预处理

Unstructured 库是一个强大的工具,专为处理非结构化数据设计,具体流程如图 3.7 所示,

如从文本文档、pdF 文件或网页中提取数据。它支持多种数据提取方法,包括正则表达式匹配、自

然语言处理(NLp)技术等。

数据预处理步骤如下:

步骤一:数据清洗

去除杂质:从文本中去除无关的字符,如特殊符号、空白行等。

格式统一:将所有文本统一为相同的编码格式,通常为 UtF-8,以避免编码错误。

语言标准化:统一不同术语的使用,例如将所有\"photovoltaic\"统一替换为\"pV\",确保术语的

一致性。

步骤二:信息提取

关键信息标识:标识文献中的关键信息,如研究方法、主要结论、实验条件等。

数据分类:根据信息类型将数据分类,如作者、出版年份、研究结果等。

步骤三:结构化转换

结构化处理:将信息精细化拆解与清洗,将各种元素进行转换,形成结构化数据形式,拆分成

非结构化文本数据通常非常稀疏,即包含大量的词汇但每个文档只使用其中的一小部分。而结

构化数据则可以通过合并相似信息来降低数据的稀疏性,这有助于生成更加紧凑和有效的嵌入向

量。

结构化数据可以实现更高效的特征提取。结构化数据通常已经按照特定的模式或结构进行了组

织,这使得我们可以更加高效地从中提取有用的特征(如标题、作者、摘要、关键词等)。这些特

征可以作为后续的输入,帮助生成具有更强区分性和泛化能力的嵌入向量。结构化数据

中的元素(如主题、类别、属性等)通常具有明确的含义,这些含义可以在 过程中被保

留下来。因此,基于结构化数据的嵌入向量往往具有更强的解释性,有助于我们更好地理解模型的

预测结果和内部机制。

上一章目 录下一章存书签
站内强推退下,让朕来 烟雨楼 女总裁的超级兵王 上门龙婿 四合院之破落户翻身 猎艳江湖 年代1960:穿越南锣鼓巷, 领主:开局被侯爵老婆发配边疆 两界搬运:开局姐妹花嗦我老冰棍 李靖的中年危机 是谁让仙女们怀孕的! 老蛇修仙传 重生84,从养鱼开始 全球冰封:我打造了末日安全屋 全民海岛求生:我能听到万物心声 这个杂役是高手 宇宙网游,我能指定掉落 我岳父是李世民 都市之破案之王 超级神豪:开局十倍返现 
经典收藏爹爹开门,我带剧本来救全家了 惨死三世,女配摆烂后他们都慌了 流放?姑奶奶看上你们的江山了 睁开眼,多了个弟弟 快穿女配一身反骨,就爱给人添堵 快穿:虫族女王她靠生崽躺赢 斗罗V:写日记成神,开局小舞被我玩坏了 圣人之上的我加入了聊天群 快穿:女配才是真大佬 咒术回战:五条家锻刀人拒绝腰斩 婚后,封太太靠撒娇拿捏禁欲教官 嫌弃宇智波?我宇智波不玩了 快穿:炮灰剧本?抱歉我才是女主 快穿之疯批大佬别浪了 一颗电磁果实在海贼世界玩出花 皇叔独宠小王妃 综影视:苏颜 快穿之炮灰的悠闲生活 快穿:珍爱生命,远离极品 航海:海贼绝色,我全要! 
最近更新海贼:我助罗宾女帝一起变强 崩铁:我命运星神绑定二创直播间 【快穿】万人迷小漂亮又娇又软 宝塔仙缘记 出狱后,竟成狂魔 魔道祖师衍生之恨别 震惊!咸鱼妾室被清冷王爷宠翻了 无限流:我的脑袋又被打飞了 遗山之月 寻仙旅录 我一个人质,又美又飒很合理吧? 阴阳美人尸 长生仙侣时空追命 海贼:我的伙伴这么强? 那根稻草 有系统加持:狂点怎么了 和离后,我追了九千岁100次 穿书后不做憋屈小炮灰 引凤归,公主在逃中 孤舟:致我的易中人 
离语 semaphore - 离语txt下载 - 离语最新章节 - 离语全文阅读 - 好看的其他类型小说