NAR:哈工大/腾讯AI实验室合作构建迄今最大规模的单细胞蛋白质组数据库SPDB

2023-12-01 测序中国 测序中国

哈尔滨工业大学研究团队联合腾讯人工智能实验室团队构建了一个全面的单细胞蛋白质组学数据库SPDB。

单细胞蛋白质组学能够在单细胞分辨率下直接定量蛋白质丰度,为细胞表型提供有价值的见解。2018年,单细胞蛋白质组学技术被《自然方法》评为“值得关注的方法”。2021年9月,《自然》发表了题为“single-cell proteomics takes centre stage”的技术专题文章,预计单细胞蛋白质组学技术的新浪潮将对生物学和临床研究产生深远的影响。但是,目前可用的单细胞蛋白质组学数据库仍存在不足,例如仅提供存储、提交和下载功能,缺乏用户友好的数据处理统一格式,缺乏直观的界面来可视化数据集,数据集覆盖不全面。大规模集成数据库的不足阻碍了研究人员获取和探索单细胞蛋白质组学,阻碍了该领域的发展。

为弥补上述不足,哈尔滨工业大学研究团队联合腾讯人工智能实验室团队构建了一个全面的单细胞蛋白质组学数据库SPDB,可用于一般单细胞蛋白质组学数据,包括基于抗体或基于质谱的单细胞蛋白质组学,提供了从单细胞角度研究蛋白质组学的强大工具。SPDB具有标准化的数据处理流程和友好的web界面,提供统一的数据格式,方便与下游分析交互,并提供数据集级和蛋白质级的数据搜索和探索能力。SPDB还提供了一个模块,用于从细胞元数据或蛋白质特征的角度对数据进行可视化。迄今为止,SPDB集成了来自12种基于抗体和质谱技术的143个单细胞蛋白质组学数据集,涵盖了4个不同物种的3亿个细胞和8000多种不同的蛋白质。该研究结果已发表在Nucleic Acids Research上,文章题为“SPDB: a comprehensive resource and knowledgebase for proteomic data at the single-cell resolution”。

图片

据文章介绍,存储在SPDB中的所有数据集都经过标准化管道的处理,组装成统一的数据格式。SPDB的当前版本涵盖了4个不同物种(人类、小鼠、猕猴和猪)的30种组织样本,包含133个基于抗体的单细胞蛋白质组学数据集,涉及超过3亿个细胞和800多种标记/表面蛋白质,以及10个基于质谱的单细胞蛋白质组学数据集,涉及超过4000个细胞和7000多种蛋白质。值得注意的是,其中90个数据集涉及42种不同的疾病类型,如COVID-19 、HIV和乳腺癌,这将有助于从单细胞蛋白质组学的角度进行疾病研究和药物发现。

作为一个用户友好的网络服务器,SPDB提供了广泛的功能,包括单细胞蛋白质组数据部署,数据集搜索和挖掘模块、蛋白质搜索和挖掘模块、数据统计模块,以及详细的用户手册。

数据搜索和挖掘模块

为方便用户方便地搜索目标数据集,SPDB提供了三种数据查询选项:(i)在数据库主页上设置了多个按物种或技术类型分类的快速搜索按钮,方便用户对特定数据集进行筛选;(ii)存储在SPDB中的所有数据集都在数据页面上进行了编目,并配有与原始论文相对应的标题;(iii)数据页面上有8个组件,即发布时间、样本物种、组织、疾病、技术和技术类型以及细胞/蛋白质的数量,为用户提供了通过指定一个或多个标准来过滤数据集的各种选项(图1)。

SPDB可从不同的角度全面挖掘先进的单细胞蛋白质组学数据集。应用数据过滤器后,用户可以选择一个目标数据集,并通过点击相应的“More Details”按钮进入模块的二级页面。随后,用户可以从不同角度(即关键信息、数据可视化、蛋白质比较)有效地探索该数据集。同时,通过点击“rds file”按钮,可以下载统一格式的处理数据。

图片

图1.SPDB中的数据搜索和探索演示。(A) SPDB中所有采集数据集的浏览界面和过滤组件。(B) SPDB的数据信息面板。(C) SPDB的UMAP可视化面板。(D) SPDB蛋白对比图。(E) SPDB分析结果面板。

蛋白质搜索和挖掘模块

除了数据集搜索功能,SPDB还提供蛋白质搜索功能。有三种途径可以搜索目标蛋白质(图2)。用户可以输入蛋白质名称/UniProt登录号/一种蛋白质的相应官方基因符号,然后点击“Show Candidates”按钮检索目标蛋白质,相关数据集在SPDB中可用。然后,用户可以点击蛋白质的条目名称进入该模块的二级页面,进入“Protein Summary”标签页,检索蛋白质的摘要信息,包括蛋白质名称、家族、相关基因名称、蛋白质组长度和序列、功能等关键细节。此外,用户还可以导航到“Datasets”选项卡来访问检测相应蛋白质的数据集信息。对于目标数据集,单击“Scan Expression”按钮后,将出现一个新窗口,直接显示所查询蛋白质在UMAP图中的表达水平。此外,通过点击“More Details”按钮,用户将被重定向到数据探索页面,可以详细探索数据集。

图片

图2.SPDB中蛋白质搜索和探索演示。(A) SPDB蛋白检索页面。(B)一个由模糊搜索得到的可用蛋白质列表的例子。(C)在至少一个数据集中检测到的候选蛋白表。(D) SPDB蛋白汇总图。(E)相关数据集的浏览界面和一个选定数据集的新弹出窗口。

数据比较模块

在“Protein”页面上搜索特定蛋白质后,用户将能够从“Datasets”选项卡中选择两个相关的数据集,并执行数据比较功能,以研究不同条件下的蛋白质表达模式(图3)。点击“Compare Expression”按钮,将显示一个新窗口,显示两个UMAP图,说明特定蛋白在不同条件下的表达。此外,在选择“Compare Correlation”按钮后,用户将被重定向到一个专门的网页,该网页可在两种不同条件下对蛋白质相关模式进行比较分析。

图片

图3.SPDB中数据比较的演示。(A)相关数据集的浏览界面。(B)两个特定数据集中蛋白表达的比较。(C)两个特定数据集中蛋白质相关模式的比较。

总体而言,SPDB提供了几个创新功能:

SPDB的当前版本精心规划了数百个单细胞蛋白质组学数据集,用户能够有效地定位和访问特定数据集;

SPDB按照标准化的工作流程对数据集进行预处理,并将数据与必要的元数据以统一的数据格式存储,节省了用户收集数据的时间,简化了下游分析;

SPDB提供全面的数据探索模块,使数据集能够通过交互式或静态图表可视化,以直观和翔实的方式表示复杂的信息;

SPDB还提供了蛋白质搜索模块,使研究人员能够访问简明的蛋白质信息并定位检测到目标蛋白质的数据集;

SPDB集成了数据比较模块,使用户能够在数据集中探索目标蛋白质的不同表达模式。

图片

研究概述

SPDB是为单细胞蛋白质组学数据量身定制的最大规模的综合数据库,将为促进单细胞蛋白质组学在癌症研究和药物发现领域的广泛应用奠定坚实的基础。未来,利用SPDB中存储的大量单细胞蛋白质组学数据,该研究团队计划开发针对单细胞蛋白质组学的专门计算工具,例如细胞类型注释、数据集成和drop-out imputation方法,并将新开发的工具集成到SPDB平台中。同时,研究团队将努力获取类似组织或细胞条件下蛋白质的相关基因表达数据,使用户能够在单细胞水平上进行蛋白质和基因表达的比较分析。此外,研究团队将通过纳入新的相关研究和技术来不断维护和更新SPDB,同时增强其功能和工具集成。

SPDB免费访问,无需注册 https://scproteomicsdb.com/ 

原文链接:

https://doi.org/10.1093/nar/gkad1018

作者:测序中国



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题

相关资讯

The Mikey Czech Foundation向丹娜法伯癌症研究院捐100万美元

由Stephen J.和Jennifer L. Czech成立的旨在资助儿童脑肿瘤医学研究的符合501(c)(3)条款的非营利性基金会The Mikey Czech Foundation, Inc.(简称“该基金会”,www.mikeyczech.org )宣布向丹娜法伯癌症研究院(Dana-Farber)的儿科医学神经肿瘤部门捐助了100万美元。

专家希望大数据能彻底改变癌症研究

癌症研究人员曾对唐纳德?特朗普替换美国国家癌症研究所(NCI)主任Harold Varmus感到紧张。但在去年6月份,事实证明他们的担心是毫无根据的,因为特朗普选择了Norman “Ned” Sharpless接手NCI。

Science:光遗传技术开创癌症研究新见解

8月31日《Science》报道,一种形式的非小细胞肺癌(non-smallcelllungcancer,NSCLC)突变可能通过模糊细胞对关键生长信号的感知来驱动肿瘤形成。由加州大学旧金山研究所领导的这项研究对许多人类癌症缺陷机制具有重要意义。

吕有勇教授:癌症研究和免疫疗法的困惑

近年来,免疫疗法在治疗癌症方面取得了突破性的进展,它不仅可以预防癌症的发生,通过强化人体的免疫能力,也可能将其击退。通过强化人体免疫力而对付癌症,就是目前世界上盛行的“免疫疗法”。 免疫疗法是利用免疫系统来治疗疾病的一种重要手段。免疫疗法目前分特异性和非特异性两类,处在研究和开发阶段的主要免疫疗法有:DNA疫苗、NK细胞免疫疗法、PD-1/PD-L1抗体、CAR-T 技术等。

冠科生物宣布加快获得用于大规模筛查检测板的ATCC和NIH优质细胞系

JSR生命科学公司旗下冠科生物(Crown Bioscience)今天宣布,其已与ATCC和美国国立卫生研究院(NIH)下属国家癌症研究所(NCI)代表的美国卫生与公共服务部签署了单独但互补的系列产品

国际癌症研究机构:2020年超过74万例新的癌症病例同使用酒精有关

国际癌症研究机构(IARC)最新发表在知名医学杂志《柳叶刀》上的一份研究显示, 2020年, 全球估计有74.1万个新的癌症病例与饮酒有关。