Releases: openbiox/weekly
issue 4
生信爱好者周刊(第 4 期):生信有一天可以得诺贝尔奖吗
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
光环。(via)
本周话题:生信有一天可以得诺贝尔奖吗
【2021年诺贝尔生理学或医学奖揭晓】北京时间10月4日下午,2021年诺贝尔生理学或医学奖揭晓。美国科学家David Julies、Ardem Patapoutian获奖,以表彰他们“发现温度和触觉的受体”。
人们对热、冷和触觉的感知能力对生存至关重要,支撑着我们与周围世界的互动。在日常生活中,我们认为这些感觉理所当然,但神经冲动是如何产生的,从而使温度和压力可以被感知?今年的诺贝尔奖得主解决了这个问题。
生信发展了几十年,为各类生物医学研究进展立下汗马功劳。但生信技术中一些核心的原创性方法、目前不断变更的测序手段是否能够在未来获得诺贝尔奖呢?你知道有哪些重要的生信方法和技术手段?你觉得它们能值一个诺贝尔奖吗?
生信科技动态
1、多款测序平台性能评估成果发布,华大智造测序仪可提供高质量WGS
近日,由生物分子资源设施协会(Association of Biomolecular Resource Facilities, ARBF)主导的ABRF NGS II期研究成果发表于Nature Biotechnology,文章题为“Performance assessment of DNA sequencing platforms in the ABRF Next-Generation Sequencing Study”。研究团队基于来自Illumina、Pacific Biosciences、Thermo Fisher Scientific、BGI、Oxford Nanopore Technologies和Genapsys的多款测序平台,在多个实验室对同一人类基因组家族、三个单独菌株和十种细菌的宏基因组混合物进行测序,并将各平台数据进行全方位、系统性比较,分析各个测序平台的性能差异和测序质量,以提供真实全面的参考证据。
数据显示,在短读长测序平台中,Illumina的HiSeq 4000和HiSeq X10平台提供了最一致、最高的基因组覆盖率,华大智造的BGISEQ-500、MGISEQ-2000平台提供了最低的测序错误率。在长读长测序平台中,PacBio CCS具有最高的基于参考的映射率和最低的非映射率。PacBio CCS和Oxford Nanopore的PromethION、MinION平台在重复序列丰富的区域和跨均聚物检测中均显示出最佳的序列定位性能。NovaSeq 6000使用2×250 bp读取化学是捕获已知INDEL事件的最强大的仪器。
近期,在Nature杂志上发表了一篇名为Structure-based classification predicts drug response in EGFR-mutant NSCLC的文章,描述了一种基于结构的方法来定义EGFR突变的功能群,这种方法可以有效地指导EGFR突变NSCLC患者的治疗和临床试验选择,并表明基于结构-功能的方法可以提高对不同癌基因靶向治疗药物敏感性的预测突变。
华大基因唐冲博士团队于近日在表观遗传与染色质研究权威期刊Epigenetics & Chromatin上发表题为Sequencing of methylase-accessible regions in integral circular extrachromosomal DNA reveals differences in chromatin structure的论文,开发出一种单分子层级研究ecDNA染色质开放性的新技术—— CCDA-seq。
本文主要评估了ctDNA靶向测序的临床应用,作者选择了不同时期的患者样本进行ctDNA分析,结合KM分析观察BRAF突变及与其共发生的突变对疗效的影响,从而确定对BRAF靶向治疗耐药的因素和相关基因组改变,最终明确,对BRAF突变和其他共发生突变的连续检测在临床治疗策略的制定上是有意义的。
文章
通常各种软件做GO富集性分析,都是使用超几何分布进行计算。超几何分布是偏态的,所以fisher.test默认的双侧检验,其实是使用单侧来计算p值,我们可以对数据进行测试,使用双侧和单侧的p值是一样的,不过会影响对置信区间的估计。
2、Sina图
在可视化分布时,箱线图可以隐藏双模态,而小提琴可以显示不存在的数据。Sina图,其中的点与密度成比例抖动,提供了一个很好的解决方案。ggforce::geom_sina
提供了ggplot2的layer支持!
3、河流图
河流图(Streamg raph),有时候也叫做“主题河流图”(Theme River),是堆积面积图的一种变形,通过“流动”的形状来展示不同类别的数据随时间的变化情况。但不同于堆积面积图,河流图并不是将数据描绘在一个固定的、笔直的轴上(堆积图的基准线就是x轴),而是将数据分散到一个变化的中心基准线上(该基准线不一定是笔直的)。
4、浅谈Chip-seq/DNase-seq/ATAC-seq
在生物信息领域,测序技术的学习是必不可少的一环,要知道生物信息这门学科的起源就来自于各种各样的测序技术。这里谈一下Chip-seq、DNase-seq以及ATAC-seq这三种常见且比较相似的测序技术。
5、把你用R画的图(base或ggplot2)变成ASCII纯文本!
工具
1、vcfstats - 强大的vcf统计与作图工具
做生信免不了和vcf文件打交道,但是如何快速的统计其中的信息与作图并不是一件容易的事。vcfstats提供了一种快速提取vcf文件信息与作图的方式,强大,快速而且容易扩展。
2、UCSCXenaShiny - 基于UCSC Xena癌症数据库的R包和可视化Shiny应用
UCSCXenaShiny是一个交互式探索UCSCXena的R包。它主要是为了提供一个web应用程序(建立在Shiny框架和UCSCXenaTools包之上),用于下载、分析和可视化UCSCXena的数据集。
支持CRAN、Docker、Conda等下载、安装方式。
3、officeverse - 为生成office文档提供强大支持
4、rustdesk - 又一个强大的远程桌面软件
远程桌面软件,开箱即用,无需任何配置。
螺旋桨(PaddleHelix)是一个生物计算工具集,是用机器学习的方法,特别是深度神经网络,致力于促进以下领域的发展:
- 新药发现。提供1)大规模预训练模型:化合物和蛋白质; 2)多种应用:分子属性预测,药物靶点亲和力预测,和分子生成。
- 疫苗设计。提供RNA设计算法,包括LinearFold和LinearPartition。
- 精准医疗。提供药物联用的应用。
6、RectChr
RectChr主要用于基于Chr染色体水平上多层次的可视工具。
资源
工作流管理器提供了一种简单直观的方法来简化管道开发。在这里,我们为选定的工作流管理器提供基本的概念验证实现。分析工作流是基于RNA-seq管道的一小部分,使用fastqc进行质量控制和鲑鱼进行转录物定量。
3、最常用的R包整理
在实际工作中,每个数据科学项目各不相同,但基本都遵循一定的通用流程。具体如下:
- 数据导入
- 数据整理
- 数据转换
- 数据建模
- 数据可视化
- 统计推断
- 报告展示
- 自动化分析
本文列出每个步骤最有用的一些R包。
4、现代科研指北 - 图书
本书初稿写作于我处于学生与独立科研人员或转行的过渡期,也就是博士后阶段。在这一阶段身处海外的我意识到了现代科研的一些趋势与这个年龄段科研人员的种种迷茫,为了铭记,也为了启迪,我将这一阶段对于现代科研的一些思考整合为一本书。这本书是开源的,在初稿完成后开放协作,我也鼓励科研人员能记录自己的成长经历,如果实在不知从哪下手,可以参考这本书来整理。是否认可本书观点并不重要,但没有自己的科研思考过程对于科研人员是一种悲哀。
贡献者
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
感谢以下往期赞赏/捐赠的读者:
- 李淑娴
- *书
订阅
这个周刊每周日发布,同步更新在微信公众号「优雅R」(elegant-r)上。
微信搜索“优雅R”或者扫描二维码,即可订阅。
(完)
issue 3
生信爱好者周刊(第 3 期):百年杨振宁
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
GitHub 粉们可以通过 Watch 仓库的 Release(提前)关注发布内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
对抗与对流。(via)
本周话题:百年杨振宁
2021年10月1日,杨振宁先生将迎来农历100周岁生日,学术界纷纷推出活动或文集祝贺杨先生百岁诞辰。《赛先生》自8月起陆续刊发系列重温杨振宁先生重要贡献的经典文章。9月22日起与《知识分子》联合推出 “百年风华杨振宁” 系列文章。邀请朱邦芬、潘建伟、施一公、饶毅等科学家及杨振宁先生学生为杨先生百岁诞辰送上祝福。
你认识杨振宁吗?知道他有哪些成果?哪些成果和品德让你钦佩?他的经历是否促进你对科学和生信科研的思考?🤔
欢迎读者在留言讨论区进行评论交流。
愿我们都能为国家、为生信、为自己奋斗百年!
生信科技动态
1、Science再次发布“全世界最前沿的125个科学问题”
其中生命科学领域的问题可以作为各位读者思考和以后攻克的方向。
- What could help conservation of the oceans?
什么可以帮助保护海洋? - Can we stop ourselves from aging?
我们可以阻止自己衰老吗? - Why can only some cells become other cells?
为什么只有一些细胞会变成其他细胞? - Why are some genomes so big and others very small?
为什么有些基因组非常大而另一些却很小? - Will it be possible to cure all cancers?
有可能治愈所有癌症吗? - What genes make us uniquely human?
哪些基因使我们人类与众不同? - How do migratory animals know where they're going?
迁徙动物如何知道它们要去哪里? - How many species are there on Earth?
地球上有多少物种? - How do organisms evolve?
有机体是如何进化的? - Why did dinosaurs grow to be so big?
为什么恐龙长得如此之大? - Did ancient humans interbreed with other human-like ancestors?
远古人类是否曾与其他类人祖先杂交? - Why do humans get so attached to dogs and cats?
人类为什么会对猫狗如此着迷? - Will the world's population keep growing indefinitely?
世界人口会无限增长吗? - Why do we stop growing?
我们为什么会停止生长? - Is de-extinction possible?
能否复活灭绝生物? - Can humans hibernate?
人类可以冬眠吗? - Where do human emotions originate?
人类的情感源于何处? - Will humans look physically different in the future?
未来人类的外貌会有所不同吗? - Why were there species explosions and mass extinction?
为什么会发生物种大爆发和大灭绝? - How might genome editing be used to cure disease?
基因组编辑将如何用于治疗疾病? - Can a cell be artificially synthesized?
可以人工合成细胞吗? - How are biomolecules organized in cells to function orderly and effectively?
细胞内的生物分子是如何组织从而有序有效发挥作用的?
一系列迅速发展的软件工具正在帮助研究人员分析多个庞大的组学数据集。过去十年见证了单细胞基因组学的爆炸式增长。描述基因表达的单细胞RNA测序 (RNA-seq)是最常用的技术。其他方法则详细描述了甲基化、遗传变异、蛋白质丰度和染色质可及性等过程。
3、Robust haplotype-resolved assembly of diploid individuals without parental data
常规单样本单倍型解析组装仍然是一个未解决的问题。在这里,我们描述了一种新算法,该算法结合了 PacBio HiFi 读数和 Hi-C 染色质相互作用数据,以生成单倍型解析的组装,而无需对亲本进行测序。应用于人类和其他脊椎动物样本,我们的算法始终优于现有的单样本组装管道,并生成与最佳基于谱系的组装质量相当的组装。
4、利用长读长测序数据解析遗传变异的深度学习算法NanoCaller
与短读长测序技术相比,长读长测序技术成本更低,reads长度更长,可以克服短读长测序无法解决的多个挑战性问题,已成功用于对不同物种的基因组进行测序。但与短读长测序数据相比,长读长测序的精准度较低,检测错误率也更高。有研究表明,利用基于深度学习的算法,在长读长测序数据上可以精确检测变异。根据单倍型数据的分阶段比对可提高变异识别的准确性,现有的三种算法(DeepVariant、Clairvoyante和Clair)在短读长和长读长数据上都能很好地运行单倍型数据比对,但这些算法在SNP检测中都忽略了来自远端单倍型SNP的重要信息。
近日,费城儿童医院王凯教授团队开发了一种新的深度学习算法--NanoCaller,可充分利用长读长测序在基因组区域中检测变异,并在Genome Biology上发表了题为NanoCaller for accurate detection of SNPs and indels in difficult-to-map regions from long-read sequencing by haplotype-aware deep neural networks的研究文章。NanoCaller可利用单倍型信息检测SNP,使用称为SNP的长reads进行定相,并通过局部重新排列检测InDel。研究团队利用NanoCaller检测了一个被广泛使用的基准基因组中的41个全新变体,这是此前其他方法无法实现可靠检测,有助于从长读长测序中发现复杂基因组区域的新变体。
5、Subtype-GAN: a deep learning approach for integrative cancer subtyping of multi-omics data
癌症亚型的发现有助于探索癌症发病机制,确定治疗中的临床可操作性,并提高患者的生存率。然而,由于多组学数据的多样性和复杂性,开发用于肿瘤分子亚型的集成聚类算法仍然具有挑战性。本文提出了 Subtype-GAN,这是一种基于多输入多输出神经网络的深度对抗学习方法,可以准确地对复杂的组学数据进行建模。通过从神经网络中提取潜在变量,Subtype-GAN 使用共识聚类和高斯混合模型来识别肿瘤样本的分子亚型。与其他最先进的子分型方法相比,Subtype-GAN 在由来自 10 种癌症类型的 4000 个 TCGA 肿瘤组成的基准数据集上取得了出色的表现。作者将 Subtype-GAN 应用于 BRCA 数据集,并自动获得了 1031 个 BRCA 肿瘤的亚型数量和亚型标签。通过详细分析,作者发现识别出的亚型具有临床意义,并且在特征空间中显示出不同的模式,证明了 Subtype-GAN 的实用性。
- 论文链接:https://doi.org/10.1093/bioinformatics/btab109
- Github链接:https://github.com/haiyang1986/Subtype-GAN
预测DTI的方法可以利用药物的表型效应来识别潜在的药物靶点而间接进行,也可以是直接的利用分子信息直接预测结合亲和力。这两种方法都可以与有关交互网络的信息相结合。作者开发了DTI-Voodoo,将药物的分子特征和本体编码的表型效应与蛋白质-蛋白质相互作用网络相结合,并使用GCN来预测DTI。作者证明了药物效应特征可以利用相互作用网络中的信息,而分子特征则不能。DTI-Voodoo旨在预测给定蛋白质的候选药物;实验证明了DTI-Voodoo比最先进的DTI预测方法有显著的改进。
- 论文链接:https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btab548/6329632
- 代码链接:https://github.com/THinnerichs/DTI-VOODOO
7、Cathy Wu/Shirley Liu 团队建立多中心免疫肿瘤生物标志物开发平台
哈佛大学/丹特-法博癌症研究所Cathy Wu及X.Shirley Liu 团队在Clinical Cancer Research 期刊上发表了题为Cross-Site Concordance Evaluation of Tumor DNA and RNA Sequencing Platforms for the CIMAC-CIDC Network的文章。该研究建立并描述了免疫治疗临床试验中产生的跨中心多组学数据的整合分析平台及策略,并描述了建立多中心网络免疫肿瘤生物标志物开发的关键要素。其中包括平台建设、免疫分析检测的验证和协调、数据读取和集成平台以及多组学数据分析的策略。该研究也指出,DNA 和 RNA 平行测序能够显著提高肿瘤免疫治疗标志物筛选结果,可为精准诊断、精准治疗提供重要的参考信息。
文章
1、绘制GC含量和测序深度(GC-Depth)分布图评估基因组质量
对于组装后的基因组序列,将组装基因组结果中的contigs/scaffolds序列分隔为一定长度的滑窗,统计每段滑窗内的各碱基占比,或者GC含量等,以查看组装结果中碱基分布是否均匀,基因组中存在多少比例的高GC区域等。据此,可在一定程度上推测物种基因组结构特征,组装中是否存在明显的错配,或判断测序数据中是否存在其他物种污染等。
2、Lessons learned in writing my first book
作者介绍了自己写第一本书的的经历感悟以及一些技巧分享。
3、Visualize the 'real' circular genome
circlize包提供了基因组的环形可视化方法。现在的问题是如何可视化一个“真正的”环形基因组,其中完整的圆圈对应于基因组,并且基因组的“末端”平滑地越过基因组的“起点”。
4、R tips: rlang中的expression操作符
生信菜鸟团的这篇推文简要介绍了rlang操作非标准计算的方式。
画热图的体系用的比较多的是pheatmap和ComplexHeatmap这两个包,前者胜在代码简单,功能强大,而后者胜在细节无穷无尽,只有你想不到,没有它做不到。ggplot2在画热图这件事上,是存在感不太强的。但有时候还必须得用它来画,以期和其他ggplot2的图严丝合缝的拼在一起。
因此我收集了一下ggplot2的成果,发现又解锁了y叔的一个新包aplot,以及前段时间刚出的ggheatmap(居然是大三的学生写的,后生可畏)。我写了三种方法,ggheatmap最为简单,可以直接去看方法3。
工具
1、typora - 最好用的Markdown编辑器
除了默认内置的几种主题,读者还可以通过https://theme.typora.io/从主题库中筛选自己喜欢的。
2、spiralize - 可视化螺旋数据
顾神新出品的精品R包。可以螺旋化沿阿基米德螺线可视化数据。它在可视化方面有两大优势:
- 它能够以高分辨率可视化具有很长轴的数据。
- 时间序列数据可以有效地揭示周期性模式。
作者在https://jokergoo.github.io/spiralize_vignettes/examples.html提供了非常多的实例,感兴趣的一定要看看!
3、jupyverse - 一组实现一个Jupyter服务器的FPS插件
4、ggheatmap - ggplot2的热图实现
本期文章有一篇相关推文。
5、可视化代码执行
【原载于《科技爱好者周刊(第 177 期)》】。
这个网站会将代码的执行流程,转成可视化图形,展示代码一步步是怎么执行的。目前支持 Python、Java、C、C++、JavaScript 和 Ruby 代码。
资源
1、数据科学小抄
我之前收集各类数据科学小抄,感兴趣的读者可以通过阿里云盘https://www.aliyundrive.com/s/688q5eGAKdE下载。
2、R中处理因果推断
包含如下内容:
- 00 Intro
- 01 Whole Game
- 02 Causal Diagrams
- 03 Introduction to Propensity Scores
- 04 Using Propensity Scores
- 05 Checking Propensity Scores
- 06 Fitting the outcome model
- 07 G-Computation
- 08 Tipping Point Sensitivity Analyses
3、Information is beautiful网站 - 一个非常多可视化案例的网站
该网站里面包含了各种各样好看的可视化图表,以及相关的介绍。
赞赏
如果你想要支持本周刊,可以对推文进行赞赏或者提供的支付宝/微信二维码打赏。
| |
|
| ------------------------------------------------------------ | --------------------------------------------------...
issue 2
生信爱好者周刊(第 2 期):生信的境界与道路
这里记录每周值得分享的生信相关内容,周日发布。
本杂志开源(GitHub: ShixiangWang/weekly),欢迎提交 issue,投稿或推荐生信相关内容。
讨论区的帖子《谁在招人?》,提供生信深造和就业信息,欢迎访问或发布学位攻读/工作/实习等岗位。
封面图
如果先做一个菜鸟。(via)
让别人看到你在学习~。
本周话题:生信的境界与道路
华中科技大学教授薛宇翻译生物信息学研究的5个层次水平并加入自己的理解:
-
0级(Level 0):为建模、而建模(modeling for modeling’s sake)。简称:渣级。
-
1级(Level 1):给数据、能分析。简称:菜鸟级。
-
2级(Level 2):想新招、玩数据。简称:肉鸟级。
-
3级(Level 3):玩数据、作发现。简称:顶级。
-
X级(Level X):玩科学、讲政治。简称:神级。
希望每一位生信学习者都能从渣打到神级。
如果读者对本期话题感兴趣,欢迎到讨论区评论交流。
生信科技动态
全国生物信息学与系统生物学学术大会自1998年首届召开以来,已成功举办九届,是中国生物信息学研究领域学术水平最高、影响最大的全国盛会。第十届全国生物信息学与系统生物学学术大会将于2021年10月25日至28日在四川省成都市召开。此次会议由中国生物信息学学会(筹)主办,四川省生物信息学学会承办,大会主题为“生物信息学前沿——人工智能大数据系统生物学与人类健康”。
2、未来科学大奖公布:香港大学袁国勇/裴伟士因SARS获生命科学奖
未来科学大奖(Future Science Prize)是由华裔科学家、企业家群体共同发起的民间科学奖项,设置“生命科学”和“物质科学”、“数学与计算机科学奖”三大奖项,单项奖金100万美元,于2016年首次颁发。旨在奖励在大中华地区(包含中国大陆地区、香港、澳门及台湾)取得杰出科技成果的科学家。
2021年未来科学大奖生命科学奖获奖者为:袁国勇(香港大学)、裴伟士(香港大学)。
获奖原因:他们发现了冠状病毒(SARS-CoV-1)是导致2003年全球重症急性呼吸综合征(SARS)的病原,以及由动物到人的传染链,为人类应对MERS和COVID-19冠状病毒引起的传染病产生了重大影响。
3、聚焦五大领域:浙江大学发布《重大领域交叉前沿方向2021》报告
以智能化为特征的第四次工业革命已经全面开启,会聚技术的不断涌现,正引领各领域创新突破性跃迁。学科交叉是这场变革的核心驱动力,主要表现为信息、生命、物质三大学科板块间的深度融合,最终将推动人类生产生活发生深刻变化。把握全球科技发展趋势,瞄准交叉前沿领域加快布局,对于抢抓创新竞争未来制高点具有重要意义。
很多内容应该可以更生信关联起来。
4、Nat. Comput. Sci. | 深度学习建模基因调控网络
【drugAI】单细胞测序技术的快速发展为生物学家研究细胞状态提供了前所未有的机会。而在批量测序数据中未发现的实验噪声会显着降低下游生物信息学分析结果的准确性。为了解决这个问题,人们利用深度学习通过模拟基因之间复杂的相互作用模式来过滤单细胞转录组数据中的噪声。先前的基于深度学习的方法虽然能更清晰的揭示细胞异质性,捕捉转录组学相似性和细胞之间的差异,但很难评估基因调控网络(GRN)结构或数据其他内部结构。而许多计算模型是将GRN推断和单细胞数据分析模型进行结合。然而,通常需要设计复杂的实验,并且还可能引入额外的噪声。此外,基于单细胞RNA测序(scRNA-seq)数据的方法也有明显的局限性。
针对上述问题,本文作者提出基于β-VAE框架的DeepSEM模型,可以联合嵌入基因表达数据,同时构建GRNs反映单细胞内基因相互作用的内部结构,而无需依赖任何额外信息,例如TF结合motif或单细胞ATAC测序(scATAC-seq)数据。作者在多个基准数据集上评估DeepSEM在各种单细胞任务中的性能都获得了不错的结果,并且由于VAE模型本身可以对潜在向量空间进行扰动来生成新的数据,因此在训练样本数据有限的情况下,仍能保证细胞类型分类的准确性。
5、吃下去的药被肠道细菌吸收了?可能会降低药效并改变肠道菌群
人体肠道自然包含许多不同种类的细菌群落,这些细菌对健康和疾病都很重要,它们被称为肠道微生物群。人与人之间的细菌种类组成差异很大,此前已有研究表明,肠道细菌的种类与肥胖、免疫反应和心理健康等多种疾病有关。
不仅如此,肠道细菌还可以通过生化反应来改变某些药物的特性,这一过程被称为生物转化。那么,与之相反,某些常用药物在肠道的累积是否会改变人体的肠道微生物群呢?
2021年9月8日,剑桥大学医学研究委员会毒理学部门和德国欧洲分子生物学实验室的研究人员在Nature上发表题为:Bioaccumulation of therapeutic drugs by human gut bacteria的研究论文。
这项研究首次表明,某些种类的肠道细菌会积累人体药物,并改变细菌的类型及其活动。这可能会直接改变药物的有效性,因为积累可能会减少药物对身体的可用性,同时也可能间接地改变细菌的功能和成分,因为可能会产生副作用。
6、上海交通大学王卫庆/曹亚南团队发表用于中国人群准确基因型插补的ChinaMAP参考Panel
研究团队基于中国代谢分析项目(ChinaMAP)的WGS数据构建了该高分辨率和群体特异性参考panel。与此前的中国样本的参考panel相比,ChinaMAP参考panel在样本量、测序深度、插补准确性、精确度和灵敏度方面表现出显著优势。ChinaMAP插补服务器(www.mbiobank.com)可以为中国和东亚人群的遗传研究提供最佳插补方法,有助于中国人群遗传研究中更全面的插补和更新颖的发现。
大的单细胞地图集现在经常被生成,作为小范围研究分析的参考。然而,由于数据集之间的批处理效应、有限的计算资源可用性以及原始数据的共享限制,从参考数据中学习变得复杂。在这里,我们介绍了一种深度学习策略,用于在引用之上映射查询数据集,称为单细胞架构手术(scArches)。scArches使用迁移学习和参数优化来实现高效、分散、迭代的参考构建和新数据集的上下文化,而无需共享原始数据。使用来自小鼠大脑、胰腺、免疫和全生物地图集的例子,我们表明,尽管使用的参数比从头整合少四个数量级,但能保留生物状态信息,同时消除批效应。scArches可推广到多模态参考映射,允许对缺失的模态进行归因。最后,scArches保留了2019冠状病毒病(COVID-19)的疾病变异,当映射到健康参考时,可以发现特定疾病的细胞状态。scArches将通过迭代构建、更新、共享和有效使用参考地图集来促进合作项目。
目前,机器学习技术在解释图像以诊断各种疾病方面显示出潜力。虽然面部特征的计算分析已广泛用于一般的安全应用,但尚未被用于医疗诊断。前期的初步研究结果表明,使用面部分析和机器学习技术识别与遗传综合征相关的面部畸形是可行的。但那些研究只是为了支持专业医疗机构对预先筛查的患者进行临床诊断,没有解决确定哪些儿童有出现遗传综合征的风险并应寻求专业治疗的关键需求,且其纳入的研究人群较为局限。
近日,美国华盛顿国立儿童医院的研究团队在The Lancet Digital Health期刊在线发表了题为Development and evaluation of a machine learning-based point-of-care screening tool for genetic syndromes in children: a multinational retrospective study的文章。研究团队开发出一种基于深度神经网络和面部统计模型的遗传病筛查技术,并评估了其在儿童遗传综合征预测层面的性能。根据多个国家的多中心数据分析表明,该深度神经网络学习模型能够在一般的儿科人群中识别任何遗传畸形,解释与种族、年龄和性别相关的表型变异性。
文章
1、在ggplot2散点图中自动添加回归系数或回归方程、R2、P值等
有时候使用ggplot2绘制散点图展示两组变量的关系时,同时也做了一些描述二者关系的统计,如相关性分析、回归分析等,并期望将相关系数或回归方程、R2、P值等也添加在ggplot2的散点图中,该如何实现呢?
分析肿瘤空间异质性是历来研究的热点,但也是难点。因此,今天为大家深度解读一篇2021年6月发表在《Cancer Discovery》(IF=39.397;中科院1区)上的文章,学习作者如何利用公共数据探索空间异质性的分子特征。
3、生物网络中的小世界系数(small-world coefficient)及R语言计算
本文简介一种网络拓扑属性,小世界系数(small-world coefficient)。
本文介绍如何构建基本的Shell脚本,掌握Linux终端编程。
内容:
- 使用多个命令
- 创建脚本文件
- 显示消息
- 使用变量
- 输入输出重定向
- 管道
- 数学运算
- 退出脚本
step1 input.txt | less
step1 input.txt | step2 | less
step1 input.txt | step2 | step3 | less
Linux管道
本文参考学习《Bioinformatics. Data. Skills》,这里简要地整理下Linux用来处理数据文本的工具。
该书的获取方式见上期。
delays <- flights %>%
group_by(dest) %>%
summarize(
count = n(),
dist = mean(distance, na.rm = TRUE),
delay = mean(arr_delay, na.rm = TRUE)
) %>%
filter(count > 20, dest != "HNL")
dplyr管道与数据操作
本文参考学习《R for Data Science》,这里介绍dplyr数据处理和编程基础。
我有兴趣学习更多关于矩阵分解及其在scRNAseq数据中的应用。我想对Elana J. Fertig研究组的论文Enter the Matrix: Factorization Uncovers Knowledge from Omics进行深入学习。
工具
在生信分析中,R
是很常用的语言,R
中数据处理的包,特别是tidyverse
开发的包,包括dplyr、tidyr、 forcats等,很受欢迎。他们的API设计简单易记,配合ggplot2
,简直数据分析+作图的神组合。而python
中,pandas
虽然强大,但API繁多且不容易记住。datar
将R
中相关的包在python
中进行了实现,使得python
中的数据分析也可以用上dplyr
的语法。datar
不仅实现了管道操作,并且尽量遵循原包的API设计,对R熟悉的同学很容易上手。
本工具是作者本人分享,我简单的看了下项目仓库以及与作者交流,不仅发现tidyverse中极多有用功能被纳入,而且是纯Python实现的(与简单提供R接口不同)。非常厉害的工具,称得上Python中的tidyverse,推荐大家尝试使用!
from datar import f
from datar.dplyr import mutate, filter, if_else
from datar.tibble import tibble
# or
# from datar.all import f, mutate, filter, if_else, tibble
df = tibble(
x=range(4),
y=['zero', 'one', 'two', 'three']
)
df >> mutate(z=f.x)
"""# output
x y z
<int64> <object> <int64>
0 0 zero 0
1 1 one 1
2 2 two 2
3 3 three 3
"""
df >> mutate(z=if_else(f.x>1, 1, 0))
"""# output:
x y z
<int64> <object> <int64>
0 0 zero 0
1 1 one 0
2 2 two 1
3 3 three 1
"""
df >> filter(f.x>1)
"""# output:
x y
<int64> <object>
0 2 two
1 3 three
"""
df >> mutate(z=if_else(f.x>1, 1, 0)) >> filter(f.z==1)
"""# output:
x y z
<int64> <object> <int64>
0 2 two 1
1 3 three 1
"""
2、eulerr
eulerr生成面积比例欧拉图,显示与圆或椭圆的集合关系(交、并、解)。欧拉图是维恩图,不要求所有集合的相互作用都存在(无论它们是空的还是空的),这意味着,根据输入,欧拉有时会产生维恩图,有时不会。
3、gt - 表格制作神器
使用gt包,任何人都可以使用R编程语言制作好看的表。gt的哲学是:我们可以用一组内聚的表部件来构造各种各样的有用的表。这包括表头、存根、列标签和跨组列标签、表主体和表脚。
4、gtExtras
gtExtras的目标是提供一些额外的辅助函数来帮助使用gt创建漂亮的表。这些函数通常是对样板文件的包装,或者添加了gt中尚未内置的功能。gt包是惊人的,确保去阅读官方文档。
主题
数据高亮
5、gtsummary - 准备好的演示数据总结和分析结果表
gtsummary包提供了一种优雅而灵活的方法来使用R编程语言创建可发布的分析和汇总表。gtsummary包总结了数据集、回归模型等等,使用了具有高度可定制功能的合理默认值。
6、mathpix - 图片转公式神器