Exploiting network embedding in pharmacogenomics to study drug-disease associations
STRING PPI network version 11 https://string-db.org
transer node name by mygenehttps://docs.mygene.info/en/latest/
https://www.kegg.jp
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2686461/
https://maayanlab.cloud/Enrichr/#libraries
https://reactome.org
http://www.gsea-msigdb.org/gsea/msigdb/index.jsp
from
https://www.sciencedirect.com/science/article/pii/S2666389920301185
https://maayanlab.cloud/covid19/
CRISPR-ihttps://www.nature.com/articles/s41467-021-21213-4
CRISPR-ahttps://pubmed.ncbi.nlm.nih.gov/34431042/
interactomehttps://pubmed.ncbi.nlm.nih.gov/33357464/
from enrichr download
https://maayanlab.cloud/Enrichr/#libraries
https://github.com/wangshenguiuc/set2gaussian
https://maayanlab.cloud/Enrichr/
- SVM
- Random forest
- XGBoost
- Decision tree
all of the model selected use the default parameter in sci-kit learn package setting.
using powerlaw(pathway package)
In order to realize the difference between genes whether in the gene set will make the dimension reduction output change dramatically.
using node embedding output as feature To create target matrix need to transfer gene set list by one-hot encoding. Five fold cross validation, use accuracy to scoring. training:testing = 2:1
Using disease gene set to extract genes' vector in node embedding ouput with pathway location in the embedding space(mu output file) expect to analysis distance between disease and pathway. With the more shorter distance,the more closer relationship between disease and pathway.
- 算術平均數和中位數的版本都有寫 (公式在論文)
- 結果也同樣在論文
同上面方法,疾病基因集的方式,選取對應基因在嵌入式空間的向量,然後取算數平均數,藥物基因集也是一樣的做法。這個部分還有計算z-score,透過固定疾病基因集,隨機選取100次藥物基因集,來計算疾病與整個藥物資料庫的距離,取得mean和standard error後,會有z-score,使用z-score來排名。 透過相對距離(z-score)來說明藥物和疾病的關係,數值越小表示距離越近。
- random selcet的大小,可能不夠大,導致結果不太穩定,但其他GSEA 選用100次,或許我們的方法與藥物資料庫的選擇,會需要重決定random select的次數
- 算術平均數和中位數的版本都有寫(公式在論文)
- 每個疾病基因集,各排出300個候選藥物。
實作https://www.nature.com/articles/s41467-019-09186-x
操作的公式主要有兩個(都在文獻中,使用networkx,來實作)
- shortest distance
- z-score
- separation value
後來有些間gene's的shortest distance計算出來,建成表。(加速)
要達成drug combination theory,需要疾病藥物間的z-score小於零,且兩個藥物間的separation value大於零。
所以我們將三百個候選藥物都去算出z-score。
只有一個疾病基因集的候選藥物,z-score有小於零的存在。 因此我們將符合條件的候選藥物,去計算倆倆之間的separation value。 結果也發現都大於零。 最後用兩個不同的方式來進行排序。
使用driverdbv3 http://driverdb.tms.cmu.edu.tw
caner driver gene去分析,想應證兩件事。