一、观测指标标识符逻辑命名与编码系统(LOINC)数据库介绍(论文文献综述)
任慧玲,李晓瑛,邓盼盼,冀玉静,刘懿,黄裕翔[1](2021)在《国际医学术语体系进展及特色优势分析》文中进行了进一步梳理文章深入调研国际主流医学术语体系的新进展,为中文医学术语体系建设提供参考。选取国际具有较高影响力的医学术语体系,概要阐述其编制目标、内容结构及应用现状等基本情况,并对其特色优势进行剖析与归纳,发现国际主流医学术语体系表现出更新持久、应用目标明确、开放易获取、语义关系丰富等特色。国际医学术语体系的编制模式及新进展,开辟了一条融合创新与应用验证相结合的医学术语标准化之路,有助于推动中文医学术语体系的建设落地。
井杰[2](2021)在《知识和数据双驱动的检验人工智能疾病诊断系统的构建》文中研究指明研究背景:近年来,人工智能(artificial intelligence,AI)技术在医学领域迅速发展,越来越多模拟医生诊断能力的医疗AI被开发,以期为患者提供更优质的医疗服务。然而,目前医疗AI系统在现实世界中的临床应用尚未普及。迄今为止,AI一共经历了两代发展。第一代AI是基于知识驱动AI模型,旨在模仿人类专家的推理和决策能力,其显着优点是输出结果具有可解释性。主要缺点是处理大数据时耗时耗力且计算成本高昂。第二代AI是以深度学习为代表的数据驱动AI模型。该类模型可从大量案例中自动提取规则,而无需专家知识的指导。其优点是具有大数据处理优势,可自动搜索和处理大量变量,从而可靠地对结果进行分类和预测。但输出结果缺乏可解释性是其面临的主要问题。因此,近几年AI学者提出了一个新的概念,即第三代AI,大体说来,是通过结合知识驱动和数据驱动方法的优势,构建更强大、兼具可解释性和鲁棒性的AI系统,推动AI的创新应用。检验医学是现代医学的重要组成部分,临床决策所需信息70%来自检验。检验项目涵盖临床化学、毒理学、血液学、免疫学以及微生物学等在内的数千项指标,为临床医生提供大量客观数据以支持临床决策。众所周知,糖尿病、癌症、内分泌、感染性以及遗传性疾病在内的大量常见病都需实验室检查确诊或协助确诊。然而,目前临床专科化发展趋势不可避免,临床医生只熟悉自己专科常用的检验项目,很容易忽视超出其专科知识范围的关键结果和重要参数。此外,随着检验医学的快速发展,检验项目越来越多。临床医生在疾病诊疗过程中,面临多个检验项目指标异常时,很难从异常检验数据中综合提取其对应的医学信息。由于疾病影响着机体的整体状态,许多异常检验数据之间隐藏着疾病的关键信息或重要趋势。然而,当众多检验指标发生异常时,即使是经验丰富的医生也很容易忽视其内在关系,从而造成疾病的漏诊或误诊。尽管综合分析检验数据的相互关联对临床病情判断具有深远意义,但这一过程涉及了复杂的逻辑推理和计算,给人脑分析带来了巨大的挑战。因此,通过AI技术开发基于实验室检查的可解释检验AI工具以挖掘检验数据中的隐藏价值,为提高实验室诊断价值提供了巨大的应用前景。研究目的:本研究的主要目的是运用知识图谱和ML算法对大量实验室检查数据和实验诊断数据进行训练和分析,建立一个由知识和数据双驱动的,兼具鲁棒性和可解释性的检验AI系统,其核心功能是准确诊断疾病并提供合理的解释。同时,开发集检验数据标准化、智能检验报告解读和智能疾病推荐为一体的多功能智慧检验平台,以便于检验AI系统运用于临床实践。研究方法:本课题所采用的研究方法如下所述:1.构建检验知识图谱。检验知识图谱的构建主要包括概念设计、知识构建、知识图谱应用和知识补充四个方面。2.数据预处理。数据预处理过程包括数据清洗、数据集成、特征标准化和特征变换。3.数据收集、研究人群和研究设计。以2020年1月1日为时间节点,2010年1月1日至2020年10月31日所有门诊和住院患者的合格参与者被分为回顾性队列和前瞻性队列。其中,回顾性队列以8:2的比例随机分为训练集和验证集。训练集用于训练和构建检验AI系统。前瞻性测试队列用于测试检验AI系统的疾病诊断性能。4.构建多标签疾病诊断系统。模拟医生对疾病诊断推理的全过程,本研究构建了基于不同器官系统的疾病诊断体系。首先,将诊断分为不同器官系统诊断。然后,每个器官系统内又进一步分为不同的疾病诊断。5.构建检验AI系统。采用了LR、XGBoost以及ANN三种ML算法分别构建三种检验AI系统数据驱动模型。基于检验知识图谱的知识驱动模型和基于ML算法的数据驱动模型的集成呈现了知识和数据双驱动检验AI系统的形式与内容。6.检验AI系统的网页应用与图形化展示。开发智慧检验平台,核心组件主要包括检验医师智能助手、临床检验数据中台、检验AI运行监测以及检验大数据看板在内的四大模块。7.数据分析。模型诊断效能的评价使用召回率(Recall)和平均精度均值(m AP)指标。研究结果:1.基线特征。2010年1月1日至2020年10月31日期间,所有门诊和住院患者共730,113名合格参与者被纳入临床研究。其中,训练集509,841人,验证集235,074人,测试队列69,101人。2.数据驱动模型。基于LR算法模型的检验AI系统预测疾病准确性(m AP=87.53%)要略优于ANN(m AP=86.83%),强于XGBoost(m AP=84.41%)。因此,本研究选择LR算法构建检验AI系统的数据驱动模型。3.知识和数据双驱动检验AI系统的构建。检验AI系统由两个核心模型组成,即基于检验知识图谱的知识驱动AI模型和基于LR算法的数据驱动AI模型。本研究共建立了4,147种知识驱动AI模型和168种疾病的数据驱动AI模型。4.检验AI系统的工作思路。检验AI系统存在四种通用类型诊断模式。模式1被称为“金标准”诊断的知识驱动AI诊断模式;模式2被称为“分类诊断”的叠加知识驱动AI诊断模式;模式3被称为“鉴别诊断”的“知识+数据”双驱动AI诊断模式;模式4被称为“以临床特征驱动诊断”的“知识+数据”双驱动AI诊断模式。5.检验AI系统对多系统多疾病的诊断性能评价。检验AI系统在各个诊断层次水平都实现了高水平的准确性和全面性。预测10种器官系统时,m AP值为95.19%,Recall值为100.00%;预测10种具体疾病时,m AP值为96.01%,Recall值为78.90%。6.检验AI系统的临床应用。检验医师智能助手展示基于患者检验数据的模型算法诊断推荐并附有疾病的诊断解释。临床检验数据中台用于实现检验数据的结构化、标准化以及归一化。检验AI运行监测可记录和展示检验AI系统的预测结果。检验大数据看板展示检验AI系统的运行状态等情况。结论:在本研究中,基于知识和数据双驱动的检验AI系统能够自动识别并综合分析2,071种检验指标,完成对包含感染、呼吸系统以及血液系统等在内10种器官系统疾病和441种具体疾病诊断的多元关系推理,且所有推理过程具备良好的可解释性。预测10种器官系统和10种具体疾病诊断时漏诊极少且准确性高。检验AI系统良好的疾病诊断性能有助于辅助临床医生进行诊疗决策;对复杂及疑难疾病的早期诊断也具有重要意义。
陈禄明[3](2021)在《基于真实世界医疗大数据的中文医学本体重构的研究》文中研究说明高质量的医学本体,可以打破不同医学文本数据之间的藩篱,使得医学数据能以统一的标准形式被各类信息处理方法充分利用,进而形成一套有效的医学知识表示体系,从而产生有价值的临床应用。相较于西方发达国家,尤其是英语国家,国内的生物医学本体无论从规模、数量还是内容上都处于相对滞后的水平,因此我们急需发展出一套具有中国特色的中文医学本体构建策略与技术路径,来实现中文信息处理技术与中文临床生物医学数据间的有效融合。在我们的调研工作之中,我们会系统性调研并分析整理出国际上已有生物医学本体的构建策略与技术路径,再依据中文语言特性、国内临床现状及中文临床生物医学数据的特点提出一套自己的具有创新性的中文医学本体构建策略,其包括问题定义、术语富集、关系属性提取等七个关键步骤。以此为基础,我们将中文生物医学本体重构定义为三个不同层次的问题,即:中文生物医学本体关注问题的重构、内容的重构及结构的重构。内容的重构是医学本体构建的基础,因此本论文以生物医学本体内容的重构作为研究重心。我们首先尝试了面向内容重构中文生物医学实体挖掘。此外,大部分本体都是表型概念,缺乏表型属性,因此我们提出了一种通过表型属性的定义,实现临床表型信息的精细表征,即实现疾病的细粒度知识表征图谱。属性作为本体内容的进一步丰富和扩充,为本体在实际场景中的应用提供了更细粒度的信息表示策略,因此我们提出一种利用本体属性的细粒度语义信息模型PhenoSSU(表型的语义结构单元),可为本体对疾病知识的描述提供更为丰富的表达能力,为临床诊断提供依据。。在中文生物医学实体挖掘的工作之中,我们首先构建了基于深度学习模型的有监督生物医学实体挖掘方法,该方法以Bert预训练语言模型为核心结合Bi-LSTM神经网络,实现生物医学实体的挖掘。然而,有监督方法存在依赖人工标注质量和上下文多样性方面的问题。因此,我们又基于n-gram统计语言模型以及句法分析模型实现了基于无监督方法的中文生物医学实体挖掘。最后,为了更近一步的提高实体挖掘的收录范围,将罕见词汇、不规范词汇也尽可能进行挖掘,我们提出利用双语映射方法引入高质量英文生物医学本体辅助中文生物医学本体建设的思路,并以UMLS术语集、SimAlign双语词对齐工具以及MetaMap术语标注工具为基础,完成了基于双语资源的中文生物医学实体挖掘。最终采用多方法有机组合的策略,在海量真实世界中文医学大数据语料的加持之下,完成了中文生物医学实体挖掘。为了评测基于多方法融合策略的实体挖掘成果,我们将挖掘后的扩展词表与现有最全面、权威的中文术语集合进行对比,来测试重构所得中文生物医学实体的表达能力是否能得到显着提高。相比已有术语集合,挖掘所得的生物医学术语扩展词表,对真实世界医学信息的描述能力得到明显提升,从原来的58.2%上升到80.2%,提高了37.8%。在构建细粒度本体属性语义模型PhenoSSU工作中,我们旨在用一系列属性和值来获取表型描述背后的完整语义信息。选取维基百科中193个传染病临床指南作为研究语料,基于表型概念和属性值的共现性,将SNOMED-CT中的12个属性引入到PhenoSSU模型中。通过分析PhenoSSU实例是否能够捕获对应表型描述背后的完整语义来评估PhenoSSU模型的表达能力。为了自动构建细粒度表型知识图,提出了一种融合MetaMap标注工具以及机器学习属性识别算法的混合策略。最后,用BRAT标注工具手工构建了 193种传染病的细粒度表型知识图。共形成4020个PhenoSSU语义单元,其中3757个(89.5%)能够很好地捕获临床指南中列出的相应表型描述的完整语义。相比之下,其他信息模型,如CEM和HL7-FHIR模型,分别只能捕获48.4%(2034/4020)和21.8%(914/4020)的完整语义信息。混合策略在表型概念识别子任务上的F1得分为0.732,在属性值预测子任务上的加权平均准确率为0.776。因此,PhenoSSU是一个有效的进行临床指南知识表征的语义信息模型。
杨涛[4](2020)在《面向医学大数据的实验室检查结果结构化、标准化研究》文中提出目的:近年来,人工智能在医疗领域取得了前所未有的进展,对疾病的诊断和治疗具有重要的应用价值。而人工智能的发展,离不开大数据的支持。电子病历作为医学大数据的重要来源,包含了大量的疾病诊疗知识和患者健康数据。其中,实验室检查作为临床信息的重要组成部分,对医生做出疾病诊断和治疗起到了举足轻重的作用。但是,这些信息都蕴含在非结构化的医学文本中,这对计算机读懂实验室检查信息带来了极大的困难。并且,由于检查的表述多种多样,其结构化、标准化本身就具有很大的挑战。除此之外,医学本体主要是以单个术语形式存在,但是实验室检查结果是一般是由“样本、检查对象和异常情况”三个部分构成,所以从检查本体到医学本体之间存在着结构和语义的差距。为了解决这一系列问题,本课题探索了通过建立UMLS编码的实验室检查知识库,并发展相应的算法,将电子病历中非结构化的实验室检查,转换为术语形式的结构化、标准化的表述方式,为后续的研究奠定了基础。方法:①构建知识库。利用相关英文实验室检查名称资源,构建以UMLS术语为核心的实验室检查知识库。②首先将自由文本中的实验室检查转换为结构化的三联体格式“样本—检查对象—异常情况”,再通过本知识库将此逻辑型的实验室检查表述转换为UMLS术语型表达。最终,我们选择在互联网上获取的电子病例作为语料集,评估本知识库及配套算法的效果。结果:我们将453个实验室检查映射到2242个UMLS术语,这453个检查中,72.6%为定量检查,27.4%为定性检查。另外,我们共收集了 966份电子病历,覆盖26个不同科室。以专家标注作为金标准,一共标注出12949个实验室检查结果,其中定量检查10585个,定性检查2364个。①对专家标注的金标准检查结果进行标准化的准确率、召回率和F1值分别为:1.000,0.731和0.845。②首先将这些病例进行预处理,经过算法输出为结构化的三联体格式,一共得到11219个结构化的实验室检查结果,再将这些结构化数据标准化为UMLS编码。统计结果,其中真阳性个数为7262个,准确率、召回率和F1值分别为:0.647,0.767和0.701。③我们使用了 210份病例,针对21个不同科室进行分科室测评,其中算法评估最高的为普外科,其F1值分别为0.933、0.833。结论:本课题构建了一个从逻辑表达表型到术语表达表型的知识库,并基于该知识库,发展了将病例中的实验室检查结果自动结构化、标准化的配套算法工具。该知识库及算法可以成功的将非结构化的实验室检查结果转换为结构化、标准化的术语型表述。这对计算机理解实验室检查结果以及电子病历的二次利用具有重要作用,例如相同特征的患者聚类、机器学习、医学人工智能等都具有重要应用价值。除此之外,该知识库也为我们以后构建实验室检查结果本体奠定了基础。
陈东华[5](2020)在《面向决策支持的医学文本语义分析方法研究》文中认为随着医疗信息化的快速发展,医疗信息系统中存储着各类医疗数据的体量不断增长,海量异构医疗数据的分析成为推动医疗健康领域管理决策支持的挑战。医学文本信息是推动该领域相关研究的重要数据基础。患者的电子病历中包含了大量症状、诊断、病程、会诊等文本信息,充分利用这些包含丰富临床医学知识的医学文本对医疗健康领域决策支持非常重要。然而,当前这些有价值的医学文本却难以有效地应用在实际医院管理、临床决策支持、个人健康管理、公共卫生决策等实际场景中,原因包括:非结构化医学文本无法精准结构化、医学文本丰富的语义信息致使难以分析、医学文本信息无法脱离具体的医学情境、不一致的医疗信息标准导致信息交换困难、不同医疗机构之间共享数据机制的缺失等。这些问题的根源在于医学文本是特殊的专业领域语言,不仅具有各类语义信息,还包含丰富医学领域知识。有效的医学文本语义分析成为解决这些难题的关键技术。当前语义分析研究更多地是研究面向通用领域的自然语言处理技术,相关技术虽然在方法上进行创新,却无法结合医学场景和领域知识推动医学文本语义的分析,致使无法为机器学习乃至深度学习模型提供高质量训练数据集,降低决策的质量。同时,海量医疗文本在分布式计算环境的分析和处理也成为利用这些数据分析决策的障碍和挑战,现有研究遇到了方法和性能上的瓶颈。本博士研究依托国家自然科学基金重点项目“大数据驱动的智慧医疗健康管理创新”(编号:71532002),在充分对国内外理论和技术文献综述基础上围绕着面向决策支持的医疗文本语义分析相关方法进行研究,研究内容包括医学场景下的文本语义分析、医疗信息标准化、领域知识建模、机器学习和大数据分析等方法,解决当前医疗信息行业中海量医学文本数据挖掘和分析的难题,为大数据时代下我国医疗信息化发展提供借鉴。研究内容和结果如下:(1)基于自然语言处理的医学文本结构化和标准化方法首先分析现有中文和英文电子病历中存在的医学文本特征和信息结构,建立基于N-Gram的医学文本语义模型。然后,针对非标准化的医学叙述性文本,研究具体的医学文本分析任务,对医学文本进行分词、词性标注、语义关系提取等分析,提出针对中文病历文本的自动结构化处理方法;结合医学场景的语义和语境知识,以中文超声检查报告分析为例,对该类文本关键信息进行分解、标注和重组。结果表明,基于语义分析的医学文本分析方法在医学文本结构化、分词、标注等文本分析任务的性能得到明显提升。(2)基于领域知识库的医学文本语义分析和知识发现方法首先研究医学领域的相关知识库,并分析这些知识库在医学文本数据挖掘和知识发现上的应用前景。然后,为了解决医学文本语义相似度计算方法,提出一种基于加权Levenshtein距离和N-Gram的文本相似度计算方法。为了解决医学概念相似度计算的问题,提出基于UMLS的医学文本相似度和相关性度量的计算方法。结果表明,在融入医学文本语义特征和领域知识库中医学概念文本定义信息后,基于文本相似度和相关性计算的医学文本分析任务能更好地满足实际需求。最后,针对医院中计算机辅助ICD编码的决策支持场景,融合Word Net语义知识库,提出一种基于语义分析的计算机辅助ICD-11编码方法,提高患者诊断信息编码的精确度和ICD编码员的工作效率。(3)面向决策支持的海量医学文本分析方法及应用案例研究在研究内容(1)和(2)基础上研究面向海量医学文本分析的方法和应用案例,并提出大数据分析性能自动优化方法。首先,研究面向具有复杂结构的医学文本的主题建模方法,分析相关机器学习算法在不同场景的应用特点;然后,针对海量医疗文本数据的分析,创新地提出基于Map Reduce分布式计算模型的医学文本处理方法,并以医疗数据的关联操作和自动编码等应用场景,对提出的分布式医学文本分析方法性能进行实验和分析。最终,提出基于无导数优化理论的Map Reduce性能自动调优方法,解决了海量医学文本分析方法在分布式计算环境运行的方法设计和性能自动优化的关键问题。
逯畅[6](2020)在《基于序列的膜蛋白配体交互研究》文中研究说明生物信息学是以计算机为辅助工具,通过数学及统计学方法对生物学领域内问题进行建模、分析和仿真的一门交叉学科。随着生物学研究手段取得突破性进展,生物数据不断积累,计算机技术日新月异,生物大数据时代已然来临。生物信息学研究日趋成熟,成为生物学领域不可或缺的重要组成部分,为传统生物研究方法提供强有力的补充和支持。生物信息学在微观领域主要包括基因组学和蛋白质组学,本文研究内容属于蛋白质组学范畴,是用机器学习方法对膜蛋白及跨膜蛋白的结构和功能进行预测分析。膜蛋白是具有特殊结构和功能的一类蛋白质,这类蛋白质与生物膜关系密切,或永久地附着在生物膜上,或短暂地与生物膜发生交互。膜蛋白参与诸多重要的细胞生命活动,例如物质传递、信号传导、免疫应答、能量代谢等。跨膜蛋白是最典型且含量最多的膜蛋白种类,它们贯穿生物膜并永久稳定地嵌于生物膜上,其异常会直接导致疾病的产生。与此同时,跨膜蛋白是医药学领域的重点研究目标,目前市场上超过半数药物的靶蛋白为跨膜蛋白。鉴于膜蛋白及跨膜蛋白的重要生物学意义,科研工作者们一直孜孜不倦地对它们进行研究,并取得了丰硕的成果。利用生物信息学手段对膜蛋白及跨膜蛋白进行研究可以辅助蛋白质相互作用网络建立、代谢通路绘制、药物筛选等工作,针对膜蛋白及跨膜蛋白结构与功能的研究已然成为生物信息学领域的重要研究方向。本文围绕膜蛋白及跨膜蛋白开展一系列研究工作,主要目标是通过机器学习方法,从蛋白质一级序列中提取特征,预测并分析膜蛋白-配体的相互作用。首先,为了弥补一级序列信息不足的缺点,构造两个基于深度学习的跨膜蛋白结构描述符预测器,分别是残基表面可及性预测器(TMP-SSurface)和残基Z坐标预测器(TM-ZC)。残基表面可及性以及Z坐标是与功能密切相关的结构信息,可以为后续针对膜蛋白功能的研究提供帮助。接下来,将预测的残基表面可及性和Z坐标作为特征,构造基于随机森林的膜蛋白-配体结合位点预测器(MPLs-Pred),并根据不同配体类型训练配体特异性预测模型,从而进一步提高预测性能。在对膜蛋白-配体进行研究的过程中,笔者注意到一种典型的以膜蛋白作为靶蛋白的配体:泛醌,并构造了基于XGBoost的泛醌结合蛋白预测器(UBPs-Pred),并对泛醌结合蛋白进行生物信息学分析。根据上述研究思路,本文的研究工作如下:1)本文提出了基于深度学习的跨膜蛋白残基表面可及性预测器TMP-SSurface,残基的表面可及性用于描述残基暴露于外部环境的情况,用相对溶剂可及表面积进行衡量。TMP-SSurface适用于所有类型跨膜蛋白的全序列残基,对跨膜蛋白类型,残基拓扑结构均没有限制,即没有先验知识的约束。TMP-SSurface使用进化保守性、二进制编码以及序列终端标识符作为输入特征,分类模型是Inception与CapsuleNet相融合的复合型深度学习网络。实验证明TMP-SSurface是一个稳定、高效的模型,且具有良好的泛化能力。对不同类型的跨膜蛋白均可取得良好的预测效果。同时,预测器对特征依赖少,深度学习网络可以挖掘跨膜蛋白序列与结构之间的内在联系。2)本文提出了基于深度学习的跨膜蛋白残基Z坐标预测器TM-ZC,跨膜蛋白的残基Z坐标描述残基到生物膜中心平面的垂直距离,是定量衡量残基与生物膜之间相对位置关系的结构描述符。与TMP-SSurface相似,TM-ZC同样适用于所有类型跨膜蛋白的全序列残基,使用者不需要先验知识。TM-ZC使用的特征与TMP-SSurface相同,即进化保守性、二进制编码以及序列终端标识符。分类模型是包含七个卷积层的卷积神经网络。实验证明TM-ZC模型稳定,具有良好的泛化能力,且对各种类的跨膜蛋白预测性能良好。3)在前面工作的基础上,本文提出了基于随机森林的膜蛋白-配体结合位点预测器MPLs-Pred。蛋白质很多基本功能是依赖于与配体发生交互而完成的,配体结合位点预测是蛋白质功能注释的重要工作之一。MPLs-Pred使用四种特征对膜蛋白残基进行特征编码,分别为进化保守性、物理化学属性、表面可及性以及Z坐标,其中表面可及性和Z坐标分别由TMP-SSurface和TM-ZC预测得到。MPLs-Pred的分类器为随机森林,并使用多倍随机欠采样策略解决严重的样本不平衡问题。此外,考虑到不同配体存在巨大差异,将配体分为三种类型,分别为类药化合物、金属以及生物大分子,并分别训练得到配体特异性预测模型,进一步提高预测器性能。除此之外,本研究还对人类的类药化合物靶标膜蛋白进行了基因本体富集分析和KEGG通路富集分析。4)在对膜蛋白-配体交互数据进行整理分析的过程中,泛醌引起了笔者的关注,其靶蛋白中有86.9%为膜蛋白,其中68.5%为跨膜蛋白,是一种典型的以膜蛋白作为靶标的配体。本文提出了泛醌结合蛋白识别模型UBPs-Pred,并对泛醌结合蛋白进行生物信息学分析。UBPs-Pred使用氨基酸组成、二肽组成以及进化保守性三种特征对蛋白质进行特征编码,使用随机森林对特征重要性进行排序,并通过增量特征选择策略进行特征选择。UBPs-Pred使用XGBoost作为分类器,考虑到XGBoost涉及参数较多且性能对参数敏感,本实验使用多目标粒子群算法对XGBoost的参数进行优化。实验证明UBPs-Pred性能很好。为了对泛醌结合蛋白进行进一步了解,本实验对泛醌结合蛋白进行了生物信息学分析,包括:对泛醌结合域中的模体进行统计;对泛醌结合蛋白的超级家族进行分类统计;对人类的泛醌结合蛋白进行基因本体富集分析以及KEGG通路富集分析。
张盼[7](2020)在《中医临床信息分类与代码体系构建及应用研究》文中指出随着信息化、大数据技术的发展,中医药逐渐步入标准化、现代化、科学化的应用进程,也为中医药信息资源数字化的处理和研究提供了手段和机会。为促进信息化与标准化双向融合,在大数据世界观和方法论引导下,通过“规范化数据、多元化采集、主题化汇聚、集约化存储和知识化处理”形成以“数据说话、数据管理、数据决策和数据创新”的大数据治理能力实现医院临床、科研、教学和运营相结合的管理与决策。由于中医在诊断、治疗疾病的过程中采用自然语言的方法记录,使得丰富、复杂的临床信息表达难以规范和统一,导致计算机无法对这些信息进行快速的识别和存储,不能对中医临床信息的内涵属性进行深入的探索。因此,构建中医临床信息分类与代码体系,统一规范中医药数字化流程,开展应用研究,为中医药大数据挖掘提供数据支撑,是中医药大数据治理研究亟需开展的一项基础工作。目的:构建中医临床信息分类与代码体系,以真实世界临床电子病历为原始数据,基于中医药数据标准,统一、规范中医临床信息数字化流程,通过应用研究,验证标准体系及其数字化流程的科学性、可行性和可操作性,为计算机识别、处理中医临床信息奠定基础,从不同角度观察、认知中医药辨证论治全方位视图,探索中医临床信息处理、利用的新思维和新手段。方法:采用统一建模语言(UML)中的活动图了解中医望闻问切、辨证论治的整个活动过程,分析中医临床信息诊疗活动业务信息流,通过静态建模的方法对其信息流进行分析建立相应的中医临床信息概念模型,为构建中医临床信息模型提供基础信息。信息模型建立之后提取需要进行分类编码的信息元素构建中医临床信息分类与代码体系,应用中医药数据标准和信息分类编码技术,统一规范中医临床信息数字化流程和方法。最后通过319例臌胀病患者的中医电子病历数据进行应用示范研究,探讨中医临床数据分析的应用方法以及当前存在的不足。结果:(1)设计了中医临床信息模型。采用统一建模语言动态建模的活动图分析对象的行为活动,描述中医临床医生辨证论治的诊疗活动全过程,从而进一步分析中医临床信息诊疗活动业务信息流,通过静态建模的方法建立相应的中医临床信息概念模型,构建中医临床信息模型。(2)构建了中医临床信息分类与代码体系。在中医临床信息模型的基础上,参考中医药行业标准体系框架结构层次图,从基本信息、中医临床诊断信息、中医临床治疗信息和中医临床评价信息等四大类信息中提取需要进行分类编码的信息,建立中医临床信息分类与代码体系。该体系中一共提取出77个信息元素,需要进行分类编码的有38个,其中基本信息12个、中医临床诊断信息12个、中医临床治疗信息10个、中医临床评价信息4个。(3)应用研究。在大数据理念和技术法指引下,应用中医药数据标准和信息分类编码技术,在统一规范的中医临床信息数字化流程的基础上,选取某中医医院319例臌胀病患者的电子病历数据,按中医临床信息模型对临床信息进行数据规范化、标准化采集和整理,根据中医临床信息数字化流程对采集的数据进行数字化,形成主题数据库。建立中医临床信息数据库之后可以从多个方面进行探讨和分析,如病种基本情况分析以及挖掘症状与病种、处方用药、中药药性与功效等关联关系。结论:构建中医临床信息分类与代码体系,将临床信息标准化、规范化,解决了当前信息系统之间数据接口与标准不统一的问题。同时,构建中医临床信息数字化模型,充分挖掘其临床信息内涵属性并数字化,为计算机从语义识别和处理中医临床诊疗信息、分析挖掘有价值的揭示真实世界状态和规律提供依据,对中医电子病历信息的深度挖掘与利用进行了深入的探索。然而,在体系构建的过程中还存在属性分类不够完善、考虑信息内涵属性内容不够全面等不足,下一步将继续进行研究和优化。
朱天一[8](2020)在《SDTM与ADaM在肿瘤临床试验中的应用》文中进行了进一步梳理药物临床试验是指以人体(病人或健康志愿者)为研究对象进行的药物系统性研究,以发现或证实试验药物的临床及药理学作用,根据其不良反应及药代动力学,确定试验药物的有效性与安全性。在研究过程中,数据管理和统计分析是至关重要的环节,试验数据质量的高低直接影响到整体临床研究的质量,关系到对药物有效性和安全性的客观评价。实现临床数据标准化,有助于优化数据管理中数据交流、递交的流程,缩短研究周期、节省费用,提高研究效率,加快药物上市速度。为解决临床试验数据的标准化问题,全球32家机构于2000年开始成立了临床数据交换标准协会(Clinical Data Inter-change Standards Consortium,CDISC),至今已有200家机构。临床数据交换标准协会是一个全球性、开放、多学科、非盈利性的组织,致力于临床医疗和医学研究信息价值的最大化、研究过程的合理化、研究成果转化为临床决策的便捷化,并为此制定了一系列的标准,支持临床研究数据与元数据的采集、交换、递交和储存工作。其中与临床试验数据相关的包括临床试验数据采集整合标准(Clinical Data Acquisition Standards Harmonization Model,CDASH)、研究数据列表模型(Study Data Tabulation Model,SDTM)、分析数据模型(Analysis Data Model,ADa M)。我国国家药品监督管理局(National Medical Products Administration,NMPA)于2016年7月发布了《临床试验数据管理工作技术指南》,建议在新药上市注册申请时,采用CDISC标准递交原始数据库和分析数据库。目前国内部分大型药企和合同研究组织(Contract Rearsch Organization,CRO)公司已经开始使用CDISC中的部分标准,如SDTM和ADa M标准,但对于这些标准的了解和应用还处于初级阶段,在应用时也是以手动编程为主。目的 本课题将从CDISC的介绍入手,考虑肿瘤药物临床试验本身特点和复杂性,结合具体肿瘤药物临床试验项目,说明CDISC在肿瘤临床试验过程中的应用;同时,为解决手动编写SAS程序速度较慢等问题,将编写能快速实现数据格式转换的宏程序,实现从原始数据到SDTM再到ADa M的自动化转换,提高数据转换的效率,加快肿瘤药临床试验的统计分析进程。方法 首先在数据管理环节,根据临床试验中常用的域及变量,如人口统计学域、实验室检查域、生命体征域、心电图域、不良事件域、合并用药域等;结合肿瘤药物临床试验的专用域,如肿瘤识别(Tumor Identification,TU)、肿瘤结果(Tumor Results,TR)、疾病反应(Disease Response,RS)域;设计元数据文件,编写EXCEL映射文件,编写通用的调用元数据的宏,由原始数据生成SDTM数据集。其次在统计分析环节,根据临床试验方案和统计分析计划,明确肿瘤药物的主要疗效指标和次要疗效指标,设计合理数量的分析数据集,设计元数据文件,编写EXCEL映射文件,编写通用的调用元数据的宏,由SDTM数据生成ADa M分析数据集。结果 通过一项实际的肿瘤药物临床试验,设计SDTM域,配置EXCEL文件,并运行宏程序,产生人口统计学域、实验室检查域、生命体征域、心电图域、不良事件域、合并用药域等,完成从原始数据到SDTM数据的转换;再设计ADa M数据集,配置EXCEL文件,运行宏程序,生成相关的分析数据集,完成从SDTM数据到ADa M数据集的转换;最后在原始数据和ADa M数据集两个数据集的基础上,分别编程进行统计分析,进行结果比对,显示分析结果一致,且基于ADa M数据集进行分析更快捷,更能节约时间。结论 本课题以肿瘤药为例,在数据管理和统计分析过程中,采用SDTM和ADa M实现数据标准化,优化数据管理中数据交流、递交的流程,提高数据质量,使统计分析更快捷。在医药研发过程中统一数据标准,不仅可以解决某一个或某一类正在研发的药物临床试验的数据规范问题,而且可以促进以后所有临床试验数据质量水平的提高,以及全行业包括研究者和监管者之间的信息交流。对于药企方面来说,统一数据标准,解决的也不仅仅是单个或单类药物临床试验过程中物力财力和人力成本过高的问题,它为临床试验提供的标准数据模板,具有可重复性,为以后临床试验过程中的工作节约时间和成本,提高效率。因此在数据管理和统计分析中实现临床数据标准化,有助于优化数据管理中数据交流、递交的流程,有助于注册临床试验数据的审核,有助于临床试验数据的荟萃,从而缩短研究周期、节省研究费用,提高研究效率,加快药物上市速度。
周招福[9](2020)在《面向上市公司三类公告的摘要生成系统设计与实现》文中指出上市公司公告是公司按照证监会要求发布的报告,其中包含的丰富信息对经营状况的分析、投资决策和部门监管具有重要作用。对公告摘要的自动生成,可以快速获取公告的核心信息,提高阅读效率。然而,公告的结构复杂,公告的内容冗长且干扰信息多,传统的摘要生成方法难以准确地生成通顺的公告摘要。本文提出一种以摘要模板为基础的摘要生成方法,并以三类公告为研究对象,根据类别的不同设计了三种不同的摘要元素抽取方法,将抽取的摘要元素填充至模板中生成公告摘要。具体分为三个部分:1.分析公告结构特点,提出一种基于文档结构的公告分类方法,将公告标题和一级小标题作为分类特征进行分类。首先设计公告小标题提取方案,接着将提取的小标题和公告标题组成特征文本,然后使用预训练的词向量将文本向量化,最后构建卷积神经网络对公告分类。实验表明,该方案在公告分类任务上F1值达到98.47%。2.分别制定解禁类、定期报告类和并购重组类公告的摘要模板,以摘要模板为基础,抽取摘要元素并填充至模板中生成摘要。对于解禁类公告,利用规则法匹配摘要句,经过后处理组成摘要。对于定期报告类公告,采用表格定位及表格解析的方法抽取摘要字段,将其填充至模板中生成摘要。对于并购重组类公告,分为摘要句抽取和摘要字段抽取两阶段进行:第一阶段采用标题规则和内容规则组合的方式抽取摘要句,首先自定义一套规则标识符;然后根据标识符制定各级标题规则、内容规则、规则组合表达式;最后解析组合表达式用于抽取摘要句。第二阶段,构建多特征融合的命名实体识模型用于识别摘要句中的摘要字段,首先在语料库上预训练词向量和字符向量;接着编写领域词典用于构建特征向量,并与词向量和字符向量融合;然后使用长短期记忆网络对上下文语义建模,再由条件随机场得到文本序列的最佳标签;最后通过标签的解析来抽取摘要字段,并将其填充至模板中生成摘要。经实验和验证,解禁类公告的摘要句抽取平均F1达到98.59%,定期报告类公告的摘要字段抽取平均F1达到98.10%,并购重组类公告的摘要句抽取平均F1达到96.47%,摘要字段的识别平均F1达到93.51%。实验结果表明,以摘要模板为基础,按公告类别的不同采用不同的摘要元素抽取方法,能够保证摘要元素抽取的准确性。3.在理论研究的基础上,根据实际的业务需求,面向解禁类、定期报告类和并购重组类三类公告,设计并实现了包含公告获取模块、公告分类模块、公告摘要生成模块、展示及存储模块的公告摘要生成系统,将各个功能模块整合在一起,实现自动化地生成公告摘要。此外,对整个系统和各个模块进行了测试。
蔡烨[10](2019)在《基于CDISC标准的EDC临床试验数据标准化研究》文中指出研究目的随着国家监管部门对临床试验数据质量要求的逐渐提高,使用电子数据采集(Electronic Data Capture,EDC)系统和临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)标准成为必然趋势。CDISC提供一系列标准涵盖试验设计、数据收集、交换、递交和分析多个过程。目前国内临床试验过程中仍存在一些不规范之处,临床试验从方案设计到数据收集交换分析的全生命周期若均能使用CDISC标准,可提高试验数据标准化程度,保证数据质量。临床试验方案设计是否合理与完整是一个试验成功与否的基础,利用CDISC中的方案表述模型(Protocol Representation Model,PRM)不仅可以为研究方案撰写提供标准化的参考和指导,还可以对已完成撰写的方案进行标准化程度评估,提高研究方案质量。临床试验过程中涉及外部实验室数据交流时,常常由于传送数据没有统一格式而需要进行多次数据转换处理,无法形成可重复利用的处理程序,因此造成时间和人力成本的增加,根据实验室数据模型(Laboratory Data Model,LAB)形成统一的传输格式可在一定程度上解决这个问题。当前国内临床试验电子化和标准化仍处于初级发展阶段,行业内EDC系统应用水平参差不齐,存在不少纸质研究项目依旧采用Epidata软件进行数据转录或使用EDC进行已收集数据再电子化录入的情况,这些数据变量命名、数据结构均与CDISC标准相差较大,可利用SAS编写自动化程序将这类非标准原始数据按照临床数据获取协调标准(Clinical Data Acquisition Standards Harmonization,CDASH)进行整理,提高数据标准化水平,并进一步向其他数据标准转化。目前针对CDISC核心标准间的数据转化已有一些研究,如线性法、混合法。但在一些不需要向监管机构递交数据的情况中,如非注册临床研究,如何简化数据整理过程,直接从CDASH标准向分析数据模型(Analysis Data Model,ADaM)标准进行映射的问题缺乏研究。研究方法本研究基于EDC系统进行实例数据收集,通过对多个数据阶段应用相应CDISC标准对该实例的方案信息和原始数据进行标准化研究。根据PRM提供的方案关键信息大纲形成模板,提取研究方案中核心信息,按照提取信息匹配程度初步评估试验方案设计的标准化程度,并将该部分信息存储为单独文件供日后重复使用。利用SAS将外部实验室检测数据合并至整体数据集,对照LAB中字段信息,利用SAS编写程序生成分隔符平面文件(flat file),并进一步编写宏程序设计可拓展标记语言(Extensible Markup Language,XML)对应字段模板,生成LAB格式的XML传输文件。根据非标准数据的整理需求,编写数据标准化整理SAS宏程序,结合填写Excel参数表,将从EDC或其他数据库导出的非标准数据统一进行变量名标准化重命名、数据结构转化,按照CDASH域生成对应数据集。在本课题组线性法工作基础上,分析CDASH数据与ADaM数据差别,编写SAS工具宏处理新增的数据映射需求,并将工具宏嵌入原始主程序,保持CDISC数据自动化系统一致性。研究结果按照PRM模板摘取某狂犬疫苗研究方案中相关信息,找到对应信息点,根据提取信息的完整程度评价该试验方案满足基本的标准化要求,此外,提取数据可存为单独数据文件,用于其他数据管理步骤,为数据管理过程提供便利。利用SAS完成LAB字段的批量规范化整理,利用PROC EXPORT语句直接生成分隔符数据文件,利用SAS编写宏程序将XML文件中各层次字段信息编写为模板,读取实验室数据集中对应数据,生成有效的XML文件。编写SAS宏程序,并以Excel作为宏参数的组织及调用载体,实现非标准变量名称和标签的修改,横向数据结构向纵向数据结构的转化,并最终按域生成CDASH数据集。分析课题组线性法SAS自动化主程序,将编写的工具宏嵌入,实现从CDASH自动化生成ADaM数据集。研究结论借助PRM大纲可形成便于应用的模板文件,可进行方案信息条目化提取,根据提取信息可初步评价方案标准化程度,该模板文件还可以为研究方案的撰写和修改提供参考。根据模板文件中存储的方案内容,能够方便重复利用方案信息,加速方案信息的映射,避免从整个方案中多次寻找,可提高信息复用效率。根据LAB模型生成的平面数据文件可以直接用SAS语句读取,由于使用统一的字段信息,不仅文件内变量信息明确,易于理解,还可以避免重复编程,而XML格式文件更适合其他数据管理软件平台解析,根据提供的Schema文件可开发固定的功能接口,实现数据自动对接。通过填写Excel参数表和调用对应SAS宏程序,可快速得到CDASH和ADaM数据集,实现非标准数据的标准化整理和转化。用于数据标准化整理的程序通用性和灵活性较高,可根据实际需要组合调用,适应各种形式的非标准数据。用于生成ADaM数据集的自动化程序添加工具宏后丰富了数据转化能力,提高了程序通用性。
二、观测指标标识符逻辑命名与编码系统(LOINC)数据库介绍(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、观测指标标识符逻辑命名与编码系统(LOINC)数据库介绍(论文提纲范文)
(1)国际医学术语体系进展及特色优势分析(论文提纲范文)
引言 |
1 国际医学术语体系进展 |
1.1 《医学主题词表》 |
1.2 《系统化临床医学术语集》 |
1.3 《国际疾病分类法》 |
1.4 《观测指标标识符逻辑命名与编码系统》 |
1.5 《肿瘤学叙词表》 |
2 特色优势分析 |
3 结语 |
(2)知识和数据双驱动的检验人工智能疾病诊断系统的构建(论文提纲范文)
摘要 |
Abstract |
缩略词表 |
前言 |
一、AI简介 |
二、AI的发展历程 |
三、医疗AI发展面临的问题 |
四、检验医学研究现状 |
五、可解释检验AI研究开展的可行性和优势 |
六、本课题的创新性工作 |
材料与方法 |
一、构建检验知识图谱 |
二、数据预处理 |
三、数据收集、研究人群和研究设计 |
四、基于检验知识图谱的多标签疾病诊断系统 |
五、构建检验AI系统 |
六、检验AI系统的网页应用与图形化展示 |
七、数据分析 |
实验结果 |
一、参与者的基线特征 |
二、数据驱动模型 |
三、知识和数据双驱动检验AI系统的构建 |
四、知识和数据双驱动检验AI系统的工作思路 |
五、检验AI系统对多系统多疾病的诊断性能评价 |
六、检验AI系统的临床应用 |
讨论 |
结论 |
参考文献 |
文献综述 可解释人工智能助力检验医学在疾病诊疗中的应用 |
参考文献 |
在读期间发表论文和参加科研工作情况 |
致谢 |
(3)基于真实世界医疗大数据的中文医学本体重构的研究(论文提纲范文)
摘要 |
Abstract |
引言 |
第1章 绪论 |
1.1 研究背景与研究意义 |
1.1.1 生物医学本体的概念与分类 |
1.1.2 生物医学本体的表示方法 |
1.1.3 生物医学本体的构建工具 |
1.1.4 研究意义 |
1.2 国内外生物医学本体发展与研究现状 |
1.2.1 国外生物医学本体现状 |
1.2.2 国内生物医学本体现状 |
1.3 研究方法与文章结构 |
第2章 生物医学本体内容重构的研究策略讨论与相关资源收集 |
2.1 中文生物医学本体内容重构的构建策略 |
2.2 中文医学本体内容重构的方法探究 |
2.2.1 中文生物医学本体内容重构的关键科学问题 |
2.2.2 中文生物医学本体内容重构的技术路径 |
2.2.3 资源收集与预处理 |
2.3 小结 |
第3章 面向内容重构的中文生物医学本体实体挖掘 |
3.1 基于有监督方法的中文医学实体挖掘 |
3.1.1 背景介绍 |
3.1.2 实验设计 |
3.1.3 实验结果与分析 |
3.1.4 总结 |
3.2 基于无监督方法的生物医学实体挖掘 |
3.2.1 背景介绍 |
3.2.2 实验设计 |
3.2.3 数据准备 |
3.2.4 实验流程 |
3.2.5 评测任务 |
3.2.6 实验结果与分析 |
3.2.7 小结 |
3.3 基于双语词对齐方法的生物医学实体挖掘 |
3.3.1 背景介绍 |
3.3.2 实验设计 |
3.3.3 实验结果与分析 |
3.4 结果分析与讨论 |
3.5 本章小结 |
第4章 表型语义单元在传染疾病精细表型谱构建中的应用 |
4.1 研究背景 |
4.2 实验设计 |
4.2.1 实验任务 |
4.2.2 实验过程与评价标准 |
4.3 实验结果 |
4.3.1 PhenoSSU模型及基于PhenoSSU的知识图谱构建 |
4.3.2 自动化PhenoSSU识别方法结果分析 |
4.3.3 PhenoSSU表达能力评价结果分析 |
4.4 本章小结 |
第5章 总结与展望 |
5.1 成果总结 |
5.2 理论创新与技术创新 |
5.3 未来展望 |
参考文献 |
附录 |
附表1 UMLS词表组成 |
附表2 词性缩写及其作用 |
附表3 PhenoSSU属性定义及取值 |
文献综述 生物医学本体研究与应用:综述与当前发展 |
参考文献 |
致谢 |
博士期间发表的学术论文与成果 |
第一作者或共同第一作者发表工作 |
其他已发表工作 |
待发表工作 |
(4)面向医学大数据的实验室检查结果结构化、标准化研究(论文提纲范文)
中文摘要 |
Abstract |
前言 |
1.1 研究背景 |
1.2 研究目的 |
1.3 实验室检查结果抽提研究进展 |
研究基础 |
2.1 LATTE简介 |
2.2 一体化医学语言系统 |
2.3 观测指标标识符逻辑命名与编码系统 |
2.4 LOINC to HPO映射库 |
2.5 英文实验室检查对象及来源 |
材料和方法 |
3.1 包含实验室检查结果的病例收集 |
3.2 人工实验室检查结果标注 |
3.3 UMLS编码的实验室检查知识库构建 |
3.4 实验室检查结果标准化转换 |
知识库及算法评价结果 |
4.1 知识库概览 |
4.2 评估结果 |
4.3 在胃肠病学中的应用 |
讨论 |
结论 |
参考文献 |
综述 电子病历信息抽提研究进展 |
参考文献 |
附录 概念说明 |
攻读硕士学位期间发表的论文 |
致谢 |
(5)面向决策支持的医学文本语义分析方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景及研究意义 |
1.2 研究内容及关键问题 |
1.3 研究创新点 |
1.4 技术路线 |
1.5 章节安排 |
2 文献综述和相关方法 |
2.1 文献综述 |
2.1.1 医学文本分词方法 |
2.1.2 医学文本结构化方法 |
2.1.3 语义分析和医学概念抽取 |
2.1.4 基于医学文本的决策支持 |
2.2 相关数据与方法 |
2.2.1 医学领域知识库 |
2.2.2 机器学习方法 |
2.2.3 大数据分析方法 |
2.2.4 评估方法和指标 |
2.3 本章小结 |
3 基于自然语言处理的医学文本结构化和标准化方法 |
3.1 医学文本特征和语义复杂性分析 |
3.1.1 医学文本数据的来源和特征 |
3.1.2 医学文本分析的N-Gram语言模型 |
3.1.3 医学文本语料库的使用及影响分析 |
3.2 基于医学文本语料库的文本结构化方法 |
3.2.1 基于字典的机械分词和N-Gram分词方法研究 |
3.2.2 基于序列标注的医学文本分词方法研究 |
3.2.3 基于语义理解的医学文本分析方法研究 |
3.3 中文超声检查报告文本分析和性能评估 |
3.3.1 专家辅助的超声检查报告文本标注方法 |
3.3.2 超声检查报告的文本结构化方法 |
3.3.3 超声检查报告的文本语义分析方法 |
3.3.4 标注系统的性能评估方法 |
3.3.5 标注系统的整体性能测试与分析 |
3.4 本章小结 |
4 基于医学领域知识的医学文本语义分析和知识发现方法 |
4.1 面向医学文本的语义相似度计算方法 |
4.1.1 语义关系与文本特征提取方法 |
4.1.2 基于加权Levenshtein距离和N-Gram的文本相似度计算方法 |
4.1.3 评估方法和实验分析 |
4.2 基于UMLS的医学概念相似度和相关性计算方法 |
4.2.1 医学文本语义相似度计算方法 |
4.2.2 医学文本语义相关性计算方法 |
4.2.3 相关方法的测试和分析 |
4.3 基于语义分析的计算机辅助ICD-11编码方法 |
4.3.1 相关知识库 |
4.3.2 ICD-11编码语义模型 |
4.3.3 ICD-11编码规则建模方法 |
4.3.4 ICD-11候选编码相关性计算方法 |
4.3.5 相关方法的测试和分析 |
4.4 本章小结 |
5 面向决策支持的海量医学文本分析方法及应用案例研究 |
5.1 医学文本主题建模和知识发现方法 |
5.1.1 基于LDA的医学文本主题建模方法 |
5.1.2 知识约束下医学文本主题建模和预测方法 |
5.1.3 相关方法性能的对比分析 |
5.2 基于大数据分析的典型医学文本分析方法设计和分析 |
5.2.1 基于Map Reduce模型的大规模数据集连接方法 |
5.2.2 基于Map Reduce模型的大规模文档相似度计算方法 |
5.3 面向医疗大数据分析的HADOOP性能自动调整优化方法 |
5.3.1 Hadoop性能自动调优框架设计方法 |
5.3.2 基于无导数优化理论的Hadoop最优参数搜索方法 |
5.3.3 典型Map Reduce算法性能调优和实验分析 |
5.4 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(6)基于序列的膜蛋白配体交互研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 生物信息学及蛋白质组学 |
1.1.1 生物信息学 |
1.1.2 蛋白质组学 |
1.2 膜蛋白及跨膜蛋白 |
1.3 研究相关数据资源 |
1.4 研究相关工具资源 |
1.5 本文工作 |
1.5.1 本文研究内容 |
1.5.2 本文组织结构 |
第二章 跨膜蛋白残基表面可及性预测 |
2.1 引言 |
2.2 研究背景与思路 |
2.3 实验方法 |
2.3.1 数据集 |
2.3.2 计算rASA |
2.3.3 特征编码 |
2.3.4 TMP-SSurface回归模型 |
2.3.5 从概率到rASA |
2.3.6 实验环境 |
2.3.7 评价指标 |
2.4 实验结果及讨论 |
2.4.1 模型稳定性测试 |
2.4.2 模型训练过程 |
2.4.3 参数选择 |
2.4.4 子网络消融实验 |
2.4.5 不同类型跨膜蛋白测试 |
2.4.6 预测器性能对比 |
2.4.7 短序列跨膜蛋白测试 |
2.4.8 预测器效率对比 |
2.4.9 案例分析 |
2.5 本章小结 |
第三章 跨膜蛋白残基Z坐标预测 |
3.1 引言 |
3.2 研究背景与思路 |
3.3 实验方法 |
3.3.1 数据集 |
3.3.2 计算残基Z坐标 |
3.3.3 特征编码 |
3.3.4 TM-ZC回归模型 |
3.3.5 实验环境 |
3.3.6 评价指标 |
3.4 实验结果及讨论 |
3.4.1 特征分析 |
3.4.2 滑窗尺寸调整 |
3.4.3 Z坐标阈值调整 |
3.4.4 模型稳定性测试 |
3.4.5 不同类型跨膜蛋白测试 |
3.4.6 预测器性能对比 |
3.4.7 拓扑结构相关性 |
3.4.8 案例分析 |
3.5 本章小结 |
第四章 膜蛋白-配体结合位点预测 |
4.1 引言 |
4.2 研究背景与思路 |
4.3 实验方法 |
4.3.1 数据集 |
4.3.2 特征编码 |
4.3.3 MPLs-Pred分类模型 |
4.3.4 实验环境 |
4.3.5 评价指标 |
4.4 实验结果及讨论 |
4.4.1 配体结合位点分析 |
4.4.2 特征分析 |
4.4.3 多倍随机欠采样测试 |
4.4.4 分类算法对比 |
4.4.5 配体特异性模型性能 |
4.4.6 独立测试结果 |
4.4.7 预测器性能对比 |
4.4.8 案例分析 |
4.4.9 人类药物靶标膜蛋白分析 |
4.5 本章小结 |
第五章 泛醌结合蛋白识别与分析 |
5.1 引言 |
5.2 研究背景与思路 |
5.3 实验方法 |
5.3.1 数据集 |
5.3.2 特征编码 |
5.3.3 特征选择 |
5.3.4 UBPs-Pred分类模型 |
5.3.5 参数寻优 |
5.3.6 实验环境 |
5.3.7 评价指标 |
5.4 实验结果及讨论 |
5.4.1 分类算法对比 |
5.4.2 特征选择结果 |
5.4.3 参数寻优结果 |
5.4.4 预测器性能 |
5.4.5 案例分析 |
5.4.6 泛醌结合域模体统计 |
5.4.7 泛醌结合蛋白超级家族分布 |
5.4.8 人类泛醌结合蛋白GO富集分析 |
5.4.9 人类泛醌结合蛋白KEGG通路富集分析 |
5.5 本章小结 |
第六章 在线服务平台 |
6.1 网站简介 |
6.2 服务器环境 |
6.3 在线预测 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
附录 |
在学期间公开发表论文及着作情况 |
(7)中医临床信息分类与代码体系构建及应用研究(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 研究内容及方法 |
1.3.1 研究内容 |
1.3.2 研究方法 |
1.3.3 技术路线 |
1.4 本文组织结构与章节安排 |
第2章 基本理论基础及相关技术 |
2.1 基本理论 |
2.1.1 中医临床学 |
2.1.2 分类学 |
2.1.3 大数据 |
2.2 相关概念 |
2.2.1 临床信息分类 |
2.2.2 临床信息代码 |
2.2.3 数字化 |
2.3 相关技术 |
2.3.1 信息分类与编码技术 |
2.3.2 信息建模技术 |
第3章 中医临床信息分类与代码体系及数字化流程的建立 |
3.1 中医临床信息模型的构建 |
3.1.1 中医临床诊疗活动分析 |
3.1.2 中医临床信息的抽取与整理 |
3.1.3 中医临床信息模型 |
3.2 中医临床信息分类与代码体系框架的构建 |
3.2.1 基本信息分类与代码框架 |
3.2.2 中医临床诊断信息分类与代码框架 |
3.2.3 临床治疗信息分类与代码框架 |
3.2.4 临床评价信息分类与代码框架 |
3.3 中医临床信息数字化流程的建立 |
3.3.1 患者基本信息数字化流程 |
3.3.2 临床诊断信息数字化流程 |
3.3.3 临床治疗信息数字化流程 |
3.3.4 临床评价信息数字化流程 |
第4章 应用研究 |
4.1 中医临床信息数据的来源及预处理 |
4.2 中医临床信息数字化 |
4.2.1 患者基本信息数字化 |
4.2.2 临床诊断信息数字化 |
4.2.3 临床治疗信息数字化 |
4.2.4 临床评价信息数字化 |
4.3 应用结果与分析 |
4.3.1 描述性统计分析 |
4.3.2 中药药性关联分析 |
第5章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录1 :中医临床信息模型 |
文献综述 |
参考文献 |
研究生期间发表论文情况 |
致谢 |
(8)SDTM与ADaM在肿瘤临床试验中的应用(论文提纲范文)
中文摘要 |
Abstract |
前言 |
1.1 研究背景 |
1.2 研究目的与意义 |
1.3 研究方法和内容 |
第一部分 原始数据到SDTM的实现 |
2.1 SDTM介绍 |
2.1.1 模型概念 |
2.1.2 通用观测类别 |
2.2 肿瘤专用域介绍 |
2.2.1 TU域 |
2.2.2 TR域 |
2.2.3 RS域 |
2.3 实际案例 |
2.3.1 EXCEL映射表设计 |
2.3.2 SAS实现 |
2.4 讨论 |
第二部分 SDTM到 ADa M的实现 |
3.1 ADaM介绍 |
3.1.1 元数据类型 |
3.1.2 基本数据结构 |
3.2 肿瘤相关分析数据集 |
3.2.1 ADTTE |
3.2.2 ADRS |
3.3 实际案例 |
3.3.1 EXCEL映射表设计 |
3.3.2 SAS实现 |
3.4 讨论 |
总结 |
4.1 总结 |
4.2 拓展 |
参考文献 |
综述 CDISC 标准及其应用 |
参考文献 |
附录 |
附录1 干预类观测 |
附录2 事件类观测 |
附录3 发现类观测 |
附录4 宏程序代码 |
攻读学位期间发表文章情况 |
致谢 |
(9)面向上市公司三类公告的摘要生成系统设计与实现(论文提纲范文)
摘要 |
abstract |
注释表 |
第1章 引言 |
1.1 公告摘要生成的背景及意义 |
1.2 公告摘要及相关技术的国内外研究现状 |
1.2.1 文本摘要研究现状 |
1.2.2 文本分类研究现状 |
1.2.3 命名实体识别研究现状 |
1.3 本文研究内容以及组织结构 |
1.3.1 本文研究内容 |
1.3.2 组织结构 |
第2章 公告摘要生成相关技术 |
2.1 文本摘要方法 |
2.1.1 基于统计的文本摘要方法 |
2.1.2 基于图结构的方法 |
2.1.3 基于深度学习的生成式摘要方法 |
2.1.4 基于信息抽取的文本摘要 |
2.2 正则表达式 |
2.3 词向量技术 |
2.4 条件随机场 |
2.5 深度学习模型 |
2.5.1 神经网络 |
2.5.2 卷积神经网络 |
2.5.3 循环神经网络 |
2.5.4 长短期记忆网络 |
2.6 实验评测指标 |
2.7 本章小结 |
第3章 基于文档结构的公告分类 |
3.1 公告文本结构 |
3.2 小标题提取方案设计 |
3.3 公告分类方案设计 |
3.3.1 预训练词向量 |
3.3.2 卷积神经网络 |
3.4 实验结果及结果分析 |
3.4.1 实验数据 |
3.4.2 实验环境及参数设置 |
3.4.3 实验及结果分析 |
3.5 本章小结 |
第4章 基于模板的公告摘要生成方法 |
4.1 公告摘要模板制定 |
4.2 解禁类公告摘要生成方法 |
4.2.1 解禁类公告特点 |
4.2.2 解禁类公告摘要生成方法 |
4.3 定期报告类公告摘要生成方法 |
4.3.1 定期报告类公告特点 |
4.3.2 定期报告类公告摘要生成方法 |
4.4 并购重组类公告摘要生成方法 |
4.4.1 并购重组类公告特点 |
4.4.2 并购重组类公告摘要生成方法 |
4.5 实验设计及结果分析 |
4.5.1 解禁类公告 |
4.5.2 定期报告类公告 |
4.5.3 并购重组类公告 |
4.6 本章小结 |
第5章 公告摘要生成系统设计与实现 |
5.1 系统整体框架设计 |
5.2 系统各模块实现 |
5.2.1 公告获取模块 |
5.2.2 公告分类模块 |
5.2.3 公告摘要生成模块 |
5.2.4 展示及存储模块 |
5.3 模块测试 |
5.3.1 公告获取模块 |
5.3.2 公告分类模块 |
5.3.3 摘要生成模块 |
5.3.4 展示及存储模块 |
5.4 系统测试 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(10)基于CDISC标准的EDC临床试验数据标准化研究(论文提纲范文)
摘要 |
Abstract |
中英文对照缩略词表 |
第一章 前言 |
1.1 研究背景 |
1.2 研究目的与意义 |
第二章 原理与方法 |
2.1 研究方法与技术路线 |
2.2 方案表述模型(PRM) |
2.2.1 PRM内容简介 |
2.2.2 PRM初步应用方法 |
2.3 实验室数据模型(LAB) |
2.3.1 LAB内容简介 |
2.3.2 LAB传输文件 |
2.3.3 利用SAS生成LAB传输文件 |
2.4 CDASH数据集 |
2.4.1 非标准数据 |
2.4.1.1 非标准数据来源 |
2.4.1.2 非标准数据与CDASH数据的区别 |
2.4.2 非标准数据向CDASH转化的SAS实现 |
2.4.2.1 添加CDASH中指示变量 |
2.4.2.2 规范变量命名 |
2.4.2.3 变量名分域 |
2.4.2.4 调整数据结构生成CDASH数据集 |
2.5 ADaM数据集 |
2.5.1 CDASH数据与ADa M数据的区别 |
2.5.2 CDASH数据向ADa M转化思路 |
2.5.3 CDASH数据生成ADa M数据的SAS实现 |
2.5.3.1 分析原始程序框架中工具宏接入点 |
2.5.3.2 工具宏的SAS实现 |
2.5.3.3 主体程序的扩展 |
第三章 结果与分析 |
3.1 实例简介 |
3.2 根据PRM进行方案信息标准化提取 |
3.3 根据LAB模型生成外部实验室数据传输文件 |
3.3.1 生成平面文件 |
3.3.2 生成XML文件 |
3.4 生成CDASH数据集 |
3.4.1 添加STUDYID和 SITEID |
3.4.2 变量名修改 |
3.4.3 变量名分域 |
3.4.4 调整数据结构生成CDASH数据集 |
3.4.4.1 生成横向结构数据集 |
3.4.4.2 生成纵向结构数据集 |
3.5 生成ADaM数据集 |
3.6 程序验证 |
3.6.1 验证方法 |
3.6.2 预期数据集结果 |
3.6.3 验证结果 |
3.6.3.1 CDASH数据集 |
3.6.3.2 ADaM数据集 |
3.6.3.3 验证结果分析 |
第四章 讨论 |
第五章 总结 |
参考文献 |
综述:临床试验数据管理中的电子化和标准化 |
参考文献 |
附录 A |
附录 B |
附录 C |
附录 D |
作者简介 |
硕士在读期间发表论文情况 |
致谢 |
四、观测指标标识符逻辑命名与编码系统(LOINC)数据库介绍(论文参考文献)
- [1]国际医学术语体系进展及特色优势分析[J]. 任慧玲,李晓瑛,邓盼盼,冀玉静,刘懿,黄裕翔. 中国科技术语, 2021(03)
- [2]知识和数据双驱动的检验人工智能疾病诊断系统的构建[D]. 井杰. 中国人民解放军海军军医大学, 2021(09)
- [3]基于真实世界医疗大数据的中文医学本体重构的研究[D]. 陈禄明. 北京协和医学院, 2021(02)
- [4]面向医学大数据的实验室检查结果结构化、标准化研究[D]. 杨涛. 苏州大学, 2020(02)
- [5]面向决策支持的医学文本语义分析方法研究[D]. 陈东华. 北京交通大学, 2020(03)
- [6]基于序列的膜蛋白配体交互研究[D]. 逯畅. 东北师范大学, 2020(01)
- [7]中医临床信息分类与代码体系构建及应用研究[D]. 张盼. 湖北中医药大学, 2020(12)
- [8]SDTM与ADaM在肿瘤临床试验中的应用[D]. 朱天一. 南京医科大学, 2020(07)
- [9]面向上市公司三类公告的摘要生成系统设计与实现[D]. 周招福. 重庆邮电大学, 2020(02)
- [10]基于CDISC标准的EDC临床试验数据标准化研究[D]. 蔡烨. 东南大学, 2019(01)