自然语言处理 – この中二病に爆焔を！

估计阅读时长: 20 分钟LDA（Latent Dirichlet Allocation，潜在狄利克雷分配）是一种用于发现文档集合中潜在主题的生成式概率模型。它假设文档是由多个主题混合而成的，而每个主题又是通过一定的概率分布选择词语生成的。LDA模型包含词、主题和文档三层结构，通过概率生成过程模拟文档的形成。Gibbs LDA 的核心在于使用吉布斯采样方法来推断这些隐藏的主题分布。 Attachments v2-883ac9db7f1cbd7325b2450cd225a897_b • 29 kB • 76 click 2026年2月23日

基因组功能注释（EC Number）的向量化嵌入

谢桂纲 -

12:39 AM

估计阅读时长: 17 分钟EC Number是国际酶学委员会（IUBMB）制定的一套酶分类编号体系，EC Number采用层级分类法，由4个数字组成，分别代表酶的大类、亚类、亚亚类和序号。例如，“EC 1.1.1.37”中，第一个“1”表示氧化还原酶大类；第二个“1”表示作用于CH-OH基团；第三个“1”表示以NAD+或NADP+为受体的酶；第四个“37”表示特定酶苹果酸脱氢酶。这种层次结构意味着EC编号蕴含了丰富的功能信息，包括酶催化的反应类型和底物/机制。将EC Number嵌入为向量，有助于我们利用机器学习模型进行功能预测、相似性分析等。 Order by Date Name Attachments Capture • 14 kB • 134 […]

TF-IDF与N-gram One-hot文档嵌入算法原理

谢桂纲 -

10:38 PM

估计阅读时长: 11 分钟在将生物序列（如基因组或蛋白质序列）或文本数据转换为数值向量形式时，TF-IDF（Term Frequency-Inverse Document Frequency）和N-gram One-hot（又称Bag-of-n-grams）是两种经典且基础的文档嵌入算法。它们各自侧重于不同的特征提取方式，常被用于自然语言处理和生物信息学领域。 Attachments scatter_plot • 433 kB • 134 click 2026年2月10日

知识库图查询

谢桂纲 -

7:21 PM

估计阅读时长: 5 分钟https://github.com/xieguigang/graphQL 构建一个图数据库，可以用来帮我们解决复杂的知识关联计算问题。例如我们想要程序向我们回答dihydrogen oxide与water是否是同一个东西。如果光从字符串比较角度上面来看待这个问题的话，很显然，二者的字符串比较结果肯定是False。面对上面的这个问题，图数据库则可以很简单的向我们回答道上面的两个字符串都是指代的同一个东西。 Order by Date Name Attachments tumblr_inline_mqvdlydGCp1qz4rgp • 124 kB • 642 click 2022年3月5日Capture […]

【数据可视化】基于必应学术搜索的知识网络可视化

谢桂纲 -

11:15 PM

估计阅读时长: 7 分钟https://github.com/rsharp-lang/bing-academic 我们在进行一个新的课题项目开始之前，会需要经历过一个开题立项的报告过程。在这个过程之中，我们需要收集与课题相关的信息，例如相关的知识背景信息，建立出一个与课题相关的知识网络。基于此知识网络进行课题的技术相关概念的梳理。 Order by Date Name Attachments v2-8119594eef2838042df8fb5af0523c0c_720w • 126 kB • 721 click 2021年8月15日v2-96d82f034d4084cf1ed6eb4784f36ed4_r • […]

对代码库的网络可视化

谢桂纲 -

12:48 AM

估计阅读时长: < 1 分钟https://github.com/xieguigang/codegraph Attachments Microsoft.VisualBasic.Framework_v47_dotnet_8da45dcd8060cc9a.dll • 10 MB • 626 click 2021年8月29日

March 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

Posts in 自然语言处理

基因组功能吉布斯LDA主题建模

基因组功能注释（EC Number）的向量化嵌入

TF-IDF与N-gram One-hot文档嵌入算法原理

知识库图查询

【数据可视化】基于必应学术搜索的知识网络可视化

对代码库的网络可视化

Recent Posts

Archives

博客文章

Posts in 自然语言处理

基因组功能吉布斯LDA主题建模

基因组功能注释（EC Number）的向量化嵌入

TF-IDF与N-gram One-hot文档嵌入算法原理

知识库图查询

【数据可视化】基于必应学术搜索的知识网络可视化

对代码库的网络可视化

Recent Posts

Archives

博客文章

Tags