估计阅读时长: 6 分钟大家好呀,今天的这篇文章主要是为了回答在B站上的一位小伙伴的请求 Order by Date Name Attachments render-parameters • 18 kB • 582 click 2023年10月15日view-umap • 427 […]
估计阅读时长: 24 分钟假若现在有两条Fasta序列放在你面前,现在需要你进行这两条Fasta序列的相似度计算分析。如果对于我而言,大学刚毕业刚入门生物信息学的时候,可能只能够想到通过blast比对的方式进行序列相似性计算分析。基于blast比对方式可以找到生物学意义上的序列相似性结果,但是计算的效率会比较低。假设现在让你使用这些序列进行机器学习建模分析,或者基于传统数学意义上的基于相似度的无监督聚类分析的时候,面对这些长度上长短不一的生物序列数据,可能会比较蒙圈,因为传统的数学分析方法都要求我们分析的目标至少应该是等长的向量数据。 Order by Date Name Attachments Fasta-A • 544 kB • 559 click 2023年6月29日visualize • 45 […]
Recent Posts
Archives
- February 2026 (2)
- January 2026 (2)
- December 2025 (10)
- November 2025 (2)
- October 2025 (1)
- August 2025 (3)
- July 2025 (2)
- June 2025 (6)
- May 2025 (3)
- November 2023 (1)
- June 2023 (2)
- May 2023 (2)
- April 2023 (2)
- March 2023 (2)
- February 2023 (1)
- August 2022 (2)
- July 2022 (2)
- June 2022 (5)
- May 2022 (5)
- April 2022 (4)
- March 2022 (3)
- January 2022 (2)
- December 2021 (2)
- November 2021 (2)
- October 2021 (6)
- September 2021 (8)
- August 2021 (8)
- July 2021 (6)
- June 2021 (20)
- May 2021 (10)
博客文章
| S | M | T | W | T | F | S |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | ||||
| 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 |
| 18 | 19 | 20 | 21 | 22 | 23 | 24 |
| 25 | 26 | 27 | 28 | 29 | 30 | |
Tags
algorithm (33)
bilibili (3)
binary tree (3)
clustering (19)
contour (3)
Darwinism (4)
dataframe (3)
data visualization (23)
dotnet-core (25)
GCModeller (20)
gdi+ (23)
gem (7)
ggplot (14)
graph (14)
heatmap (5)
http (4)
image processing (7)
kegg (8)
kmeans (3)
language (7)
linq (3)
linux (8)
machine learning (4)
mass spectrometry (12)
math (19)
metagenomics (5)
motif (4)
MSI (4)
mzkit (19)
network (8)
pathway (4)
pipeline (4)
query (5)
R# (44)
rsharp (23)
scripting (14)
single-cell (6)
sql (3)
symbolic computation (3)
text processing (4)
typescript (3)
ubuntu (4)
uniprot (3)
vb (19)
VisualBasic (50)

Thank you so much for your thoughtful and encouraging comment! I truly appreciate the time you took to read through…
已经写完了
A very inspiring pipeline for turning EC-based annotations into genome-scale embeddings. Great post! I really enjoyed the clear, end‑to‑end pipeline…
[…] 基于之前的一篇文章《TF-IDF与N-gram One-hot文档嵌入算法原理》的学习,我们了解到可以将生物序列通过分解为kmer,组成单词集合用来表示一个文档。从而将长度各异的生物序列嵌入为长读一致的数值向量,进而可以用于后续的各种数据处理工作中。在这里,假设我们将基因组中的所有基因提取出来,然后通过blast比对的方式将基因注释到对应的ec number编号,既可以将某一个基因组使用一个ec number的集合来表示。通过这样子的数据表示方法,我们就可以将任意一个大小各异,基因组成不同的基因组都嵌入为具有相同维度特征的数值向量用于机器学习建模之类的工作。 […]
I'm fine, thank you. and you?