估计阅读时长: 14 分钟宏基因组测序所处理的对象是直接对环境样本中的所有DNA进行测序。达到无需培养即可揭示微生物群落的组成和功能潜力的目的。在数据处理中,一个核心任务是从海量短读序列中估算物种丰度(即每个物种在样本中的相对含量)和基因丰度(即每个基因或功能单元的相对含量)。传统的基于序列比对的方法计算成本高昂,而基于k-mer的方法通过利用固定长度的子序列(k-mer)信息,能够在不依赖完整比对的情况下快速估算丰度。 k-mer是指长度为k的连续子序列,例如在k=2的时候,DNA序列“ATCG”包含的2-mers有“AT”、“TC”、“CG”。通过统计读序列中k-mer的出现频率,并将其与参考数据库中的k-mer频率进行比较,我们可以推断出样本中各物种或基因的丰度。这种方法具有计算速度快、内存效率高的优势,并且无需对每个读进行精确比对,因此在处理大规模宏基因组数据时非常实用。 Order by Date Name Attachments workflow1 • 272 kB • 236 click 2025年12月8日workflow2 • […]
估计阅读时长: 3 分钟在BILIBILI上观看视频:《【GCModeller教程】基因组GO功能注释原理》 哈喽,各位小伙伴们好啊,你们可爱的六神无主鸠今天又开新课了。今天主要为大家讲解的内容是GO基因功能注释的原理和操作。在开始今天的新视频前,我先为大家来讲一个圣经中的神话: 大洪水过去后, 诺亚的三个儿子的后裔形成了人类的三大支系,居住在世界各地,遍布地面。那时候人们的语言、口音都没有分别。他们在往东边迁移的时候,在示拿这个地方遇见一片平原,就在那里住下。因为在平原上,用作建筑的石料很不易得到,他们就发明了制造砖的方法,用泥作成方块,再用火烧透,他们就拿砖当石头,又拿石漆当灰泥,建造起繁华的巴比伦城。 人们为自己的业绩感到骄傲,他们决定在巴比伦修一座通天的高塔,来传颂自己的赫赫威名,并作为集合全天下弟兄的标记,以免分散。因为大家语言相通,同心协力,阶梯式的通天塔修建得非常顺利,很快就高耸入云。 上帝是不允许凡人达到自己的高度的。他看到人们这样统一强大,心想,他们语言都一样,如果真修成宏伟的通天塔,那以后还有什么事干不成呢? 必须制止人类接近自己的狂妄。上帝就离开天国到人间,变乱了人们的语言。人们各自操起不同的语言,感情无法交流,思想很难统一。修造工程因语言纷争而停止了,通天塔的建造终于半途而废了。 Order by Date Name Attachments gene_ontology_annotation • 576 kB […]
博客文章
March 2026
S M T W T F S
1234567
891011121314
15161718192021
22232425262728
293031  
  1. […] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释(EC Number)的向量化嵌入》的方法,得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后,如果将这里所得到的嵌入结果矩阵中的基因组,基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果,能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢? […]

  2. […] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释(EC Number)的向量化嵌入》的方法,得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后,如果将这里所得到的嵌入结果矩阵中的基因组,基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果,能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢? […]

  3. […] 在前面的一篇《基因组功能注释(EC Number)的向量化嵌入》博客文章中,针对所注释得到的微生物基因组代谢信息,进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果,通过UMAP进行降维,然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]