UniProt
UniProt, genom dizileme projelerinden elde edilen birçok girdiden oluşan, serbestçe erişilebilen bir protein dizisi ve fonksiyonel bilgi veritabanıdır. Araştırma literatüründen elde edilen proteinlerin biyolojik işlevi hakkında büyük miktarda bilgi içerir. Çeşitli Avrupa biyoenformatik kuruluşlarından ve Washington, DC, ABD'den bir vakıftan oluşan UniProt konsorsiyumu tarafından sürdürülmektedir.
İçerik | |
---|---|
Açıklama | UniProt, Swiss-Prot, TrEMBL ve PIR-PSD veritabanının birleştirilmesiyle oluşturulan protein verilerinin merkezi bir deposu olan Universal Protein kaynağıdır. |
Yakalanan veri türleri | Protein açıklaması |
Organizmalar | Tümü |
İletişim | |
Araştırma merkezi | EMBL-EBI, Birleşik Krallık; SIB, İsviçre; PIR, ABD. |
Birincil alıntı | UniProt Konsorsiyumu[1] |
Erişim | |
Veri formatı | Özel düz dosya, FASTA, GFF, KTÇ, XML. |
İnternet sitesi | uniprot.org uniprot.org/news/ |
İndirme bağlantısı | uniprot.org/downloads & tüm veri setlerini indirmek için ftp.uniprot.org |
Web hizmeti bağlantısı | Evet - Java API bilgi için bakınız here & REST bilgi için bakınız here |
Araçlar | |
Web | Gelişmiş arama, BLAST, ClustalO, toplu alma/indirme, kimlik eşleme |
Diğer | |
Lisans | Creative Commons Attribution-NoDerivs |
Sürümleme | Evet |
Veri yayınlama sıklığı | 8 hafta |
Kürasyon politikası | Evet - manuel ve otomatik. Veritabanı küratörleri ve hesaplama algoritmaları tarafından oluşturulan otomatik açıklama kuralları. |
Yer imi konulabilir varlıklar | Evet - hem bireysel protein girişleri hem de aramalar |
UniProt konsorsiyumu
değiştirUniProt konsorsiyumu Avrupa Biyoenformatik Enstitüsü (EBI), İsviçre Biyoenformatik Enstitüsü (SIB) ve Protein Bilgi Kaynağı'ndan (PIR) oluşmaktadır. Birleşik Krallık, Hinxton'daki Wellcome Trust Genome Campus'te bulunan EBI, geniş bir biyoenformatik veritabanı ve hizmet kaynağına ev sahipliği yapmaktadır. İsviçre'nin Cenevre kentinde bulunan SIB, proteomik araçlar ve veritabanları için merkezi bir kaynak olan Expasy (Uzman Protein Analiz Sistemi) sunucularını muhafaza etmektedir. Washington, DC, ABD'deki Georgetown Üniversitesi Tıp Merkezindeki Ulusal Biyomedikal Araştırma Vakfı (NBRF) tarafından barındırılan PIR, ilk olarak 1965 yılında yayınlanan Margaret Dayhoff'un Protein Dizisi ve Yapısı Atlası adlı en eski protein dizisi veritabanının varisidir.[2] 2002 yılında EBI, SIB ve PIR, UniProt konsorsiyumu olarak güçlerini birleştirmiştir.[3]
UniProt veritabanlarının kökleri
değiştirHer bir konsorsiyum üyesi, protein veri tabanı bakımı ve açıklamasında yoğun bir şekilde yer almaktadır. Yakın zamana kadar, EBI ve SIB birlikte Swiss-Prot ve TrEMBL veritabanlarını üretirken, PIR Protein Sekans Veritabanını (PIR-PSD) üretti.[4][5][6] Bu veritabanları, farklı protein dizisi kapsamı ve açıklama öncelikleri ile bir arada var olmuştur.
Swiss-Prot 1986 yılında Amos Bairoch tarafından doktorası sırasında oluşturulmuş ve İsviçre Biyoenformatik Enstitüsü tarafından geliştirilmiş ve daha sonra Avrupa Biyoenformatik Enstitüsünde Rolf Apweiler tarafından geliştirilmiştir.[7][8][9] Swiss-Prot, yüksek düzeyde açıklama (bir proteinin işlevinin tanımı, alan yapısı, translasyon sonrası modifikasyonlar, varyantlar vb. gibi), minimum düzeyde fazlalık ve diğer veritabanlarıyla yüksek düzeyde entegrasyon ile ilişkili güvenilir protein dizileri sağlamayı amaçlamıştır. Sekans verilerinin Swiss-Prot'un yetişme kabiliyetini aşan bir hızda üretildiğini kabul ederek, Swiss-Prot'ta bulunmayan proteinler için otomatik ek açıklamalar sağlamak üzere TrEMBL (Translated EMBL Nucleotide Sequence Data Library) oluşturulmuştur. Bu arada PIR, PIR-PSD'yi ve protein dizileri ve küratörlü ailelerden oluşan bir veritabanı olan iProClass da dahil olmak üzere ilgili veritabanlarını sürdürmüştür.
Konsorsiyum üyeleri örtüşen kaynaklarını ve uzmanlıklarını bir araya getirerek Aralık 2003'te UniProt'u başlattılar.[10]
UniProt veritabanlarının organizasyonu
değiştirUniProt dört temel veritabanı sağlamaktadır: UniProtKB (alt parçaları Swiss-Prot ve TrEMBL ile birlikte), UniParc, UniRef ve Proteome.
UniProtKB
değiştirUniProt Knowledgebase (UniProtKB), iki bölümden oluşan, kısmen uzmanlar tarafından küratörlüğü yapılan bir protein veritabanıdır: UniProtKB/Swiss-Prot (gözden geçirilmiş, manuel olarak açıklanmış girişleri içerir) ve UniProtKB/TrEMBL (gözden geçirilmemiş, otomatik olarak açıklanmış girişleri içerir).[11] 22 Şubat 2023 itibarıyla, UniProtKB/Swiss-Prot'un "2023_01" sürümü 569.213 dizi girişi (291.046 referanstan özetlenen 205.728.242 amino asitten oluşur) ve UniProtKB/TrEMBL'in "2023_01" sürümü 245.871.724 dizi girişi (85.739.380.194 amino asitten oluşur) içerir.[12]
UniProtKB/Swiss-Prot
değiştirUniProtKB/Swiss-Prot, manuel olarak açıklanmış, yedekli olmayan bir protein dizisi veritabanıdır. Bilimsel literatürden elde edilen bilgileri ve biyoküratör tarafından değerlendirilen hesaplama analizlerini birleştirir. UniProtKB/Swiss-Prot'un amacı, belirli bir protein hakkında bilinen tüm ilgili bilgileri sağlamaktır. Ek açıklama, güncel bilimsel bulgulara ayak uydurmak için düzenli olarak gözden geçirilir. Bir girişin manuel ek açıklaması, protein dizisinin ve bilimsel literatürün ayrıntılı analizini içerir.[13]
Aynı genden ve aynı türden diziler aynı veritabanı girişinde birleştirilir. Diziler arasındaki farklılıklar tanımlanır ve nedenleri belgelenir (örneğin alternatif birleştirme, doğal varyasyon, yanlış başlatma bölgeleri, yanlış ekson sınırları, çerçeve kaymaları, tanımlanamayan çatışmalar). UniProtKB/Swiss-Prot girişlerinin ek açıklamasında bir dizi dizi analiz aracı kullanılır. Bilgisayar tahminleri manuel olarak değerlendirilir ve ilgili sonuçlar girişe dahil edilmek üzere seçilir. Bu tahminler, translasyon sonrası modifikasyonları, transmembran alanlarını ve topolojiyi, sinyal peptidlerini, alan tanımlamasını ve protein ailesi sınıflandırmasını içerir.[13][14]
PubMed gibi veri tabanları taranarak ilgili yayınlar tespit edilir. Her makalenin tam metni okunur ve bilgiler çıkarılıp girişe eklenir. Bilimsel literatürden kaynaklanan açıklama, bunlarla sınırlı olmamak üzere şunları içerir:[10][13][14]
- Protein ve gen isimleri
- Fonksiyon
- Katalitik aktivite, kofaktörler ve katalitik kalıntılar gibi enzime özgü bilgiler
- Hücre altı konum
- Protein-protein etkileşimleri
- İfade biçimi
- Önemli alanların ve sitelerin konumları ve rolleri
- İyon-, substrat- ve kofaktör-bağlanma bölgeleri
- Doğal genetik varyasyon, RNA düzeltme, alternatif splicing, proteolitik işleme ve post-translasyonel modifikasyon ile üretilen protein varyant formları
Açıklamalı girişler UniProtKB/Swiss-Prot'a dahil edilmeden önce kalite güvencesinden geçer. Yeni veriler elde edildiğinde, girişler güncellenir.
UniProtKB/TrEMBL
değiştirUniProtKB/TrEMBL, otomatik ek açıklama ile zenginleştirilmiş, hesaplamalı olarak analiz edilmiş yüksek kaliteli kayıtlar içerir. UniProtKB/Swiss-Prot'un zaman ve emek tüketen manuel açıklama süreci, mevcut tüm protein dizilerini kapsayacak şekilde genişletilemediğinden, genom projelerinden kaynaklanan artan veri akışına yanıt olarak tanıtılmıştır.[10] EMBL-Bank/GenBank/DDBJ nükleotid dizisi veritabanındaki açıklamalı kodlama dizilerinin çevirileri otomatik olarak işlenir ve UniProtKB/TrEMBL'e girilir. UniProtKB/TrEMBL ayrıca PDB'den ve Ensembl, RefSeq ve CCDS dahil olmak üzere gen tahmininden diziler içerir.[15] 22 Temmuz 2021'den bu yana AlphaFold2 ile tahmin edilen yapıları da içerir.[16]
UniParc
değiştirUniProt Arşivi (UniParc), ana, halka açık protein dizisi veritabanlarından tüm protein dizilerini içeren kapsamlı ve yedekli olmayan bir veritabanıdır.[17] Proteinler birkaç farklı kaynak veritabanında ve aynı veritabanında birden fazla kopya halinde bulunabilir. Artıklığı önlemek için, UniParc her benzersiz diziyi yalnızca bir kez saklar. Özdeş diziler, aynı veya farklı türlerden olup olmadıklarına bakılmaksızın birleştirilir. Her diziye sabit ve benzersiz bir tanımlayıcı (UPI) verilir, bu da aynı proteinin farklı kaynak veritabanlarından tanımlanmasını mümkün kılar. UniParc, açıklama içermeyen sadece protein dizileri içerir. UniParc girişlerindeki veritabanı çapraz referansları, protein hakkında daha fazla bilginin kaynak veritabanlarından alınmasını sağlar. Kaynak veritabanlarındaki diziler değiştiğinde, bu değişiklikler UniParc tarafından izlenir ve tüm değişikliklerin geçmişi arşivlenir.
Kaynak veritabanları
değiştirŞu anda UniParc aşağıdaki kamuya açık veri tabanlarından protein dizileri içermektedir:
- INSDC EMBL-Bank/DDBJ/GenBank nükleotit dizisi veritabanları
- Ensembl
- Avrupa Patent Ofisi (EPO)
- FlyBase: Drosophilidae böcek familyası için genetik ve moleküler verilerin birincil deposu (FlyBase)
- H-Invitational Veritabanı (H-Inv)
- Uluslararası Protein Endeksi (IPI)
- Japonya Patent Ofisi (JPO)
- Protein Bilgi Kaynağı (PIR-PSD)
- Protein Data Bank (PDB)
- Protein Araştırma Vakfı (PRF)[18]
- RefSeq
- Saccharomyces Genom Veritabanı (SGD)
- Arabidopsis Bilgi Kaynağı (TAIR)
- TROME[19]
- ABD Patent Ofisi (USPTO)
- UniProtKB/Swiss-Prot, UniProtKB/Swiss-Prot protein izoformları, UniProtKB/TrEMBL
- Vertebrate Genome Annotation Project (VEGA)
- WormBase
UniRef
değiştirUniProt Referans Kümeleri (UniRef), UniProtKB'den ve seçilen UniParc kayıtlarından kümelenmiş protein dizileri kümelerinin üç veritabanından oluşur.[20] UniRef100 veritabanı, aynı dizileri ve dizi parçalarını (herhangi bir organizmadan) tek bir UniRef girişinde birleştirir. Temsili bir proteinin dizisi, birleştirilmiş tüm girişlerin erişim numaraları ve karşılık gelen UniProtKB ve UniParc kayıtlarına bağlantılar görüntülenir. UniRef100 dizileri, UniRef90 ve UniRef50'yi oluşturmak için CD-HIT algoritması kullanılarak kümelenir.[20][21] Her küme, en uzun sekansa sırasıyla en az% 90 veya% 50 sekans kimliğine sahip sekanslardan oluşur. Kümeleme dizileri, veritabanı boyutunu önemli ölçüde azaltır ve daha hızlı dizi aramaları sağlar.
UniRef, UniProt FTP sitesinden temin edilebilir.
Finansman
değiştirUniProt, Ulusal İnsan Genomu Araştırma Enstitüsü, Ulusal Sağlık Enstitüleri (NIH), Avrupa Komisyonu, Federal Eğitim ve Bilim Ofisi aracılığıyla İsviçre Federal Hükümeti, NCI-caBIG ve ABD Savunma Bakanlığı tarafından sağlanan hibelerle finanse edilmektedir.[11]
Kaynakça
değiştir- ^ UniProt, Consortium. (January 2015). "UniProt: a hub for protein information". Nucleic Acids Research. 43 (Database issue). ss. D204-12. doi:10.1093/nar/gku989. PMC 4384041 $2. PMID 25348405.
- ^ Dayhoff, Margaret O. (1965). Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation.
- ^ "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). 24 Eylül 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 14 Nisan 2018.
- ^ O'Donovan, C.; Martin, M. J.; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in Bioinformatics. 3 (3). ss. 275-284. doi:10.1093/bib/3.3.275. PMID 12230036. 24 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Ocak 2024.
- ^ Wu, C. H.; Yeh, L. S.; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, R. S.; Suzek, B. E.; Vinayaka, C. R.; Zhang, J.; Barker, W. C. (2003). "The Protein Information Resource". Nucleic Acids Research. 31 (1). ss. 345-347. doi:10.1093/nar/gkg040. PMC 165487 $2. PMID 12520019.
- ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, M. C.; Estreicher, A.; Gasteiger, E.; Martin, M. J.; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research. 31 (1). ss. 365-370. doi:10.1093/nar/gkg095. PMC 165542 $2. PMID 12520024.
- ^ Bairoch, A.; Apweiler, R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research. 24 (1). ss. 21-25. doi:10.1093/nar/24.1.21. PMC 145613 $2. PMID 8594581.
- ^ Bairoch, A. (2000). "Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!". Bioinformatics. 16 (1). ss. 48-64. doi:10.1093/bioinformatics/16.1.48. PMID 10812477. 5 Şubat 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 5 Şubat 2024.
- ^ Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch 12 Temmuz 2010 tarihinde Wayback Machine sitesinde arşivlendi.".
- ^ a b c Apweiler, R.; Bairoch, A.; Wu, C. H. (2004). "Protein sequence databases". Current Opinion in Chemical Biology. 8 (1). ss. 76-80. doi:10.1016/j.cbpa.2003.12.004. PMID 15036160.
- ^ a b Uniprot, C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research. 38 (Database issue). ss. D142-D148. doi:10.1093/nar/gkp846. PMC 2808944 $2. PMID 19843607.
- ^ "UniProtKB/Swiss-Prot Release 2023_01 statistics". web.expasy.org. 4 Nisan 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Mart 2023.
- ^ a b c "How do we manually annotate a UniProtKB entry?". UniProt. 21 Eylül 2011. 13 Aralık 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 14 Nisan 2018.
- ^ a b Apweiler, R.; Bairoch, A.; Wu, C. H.; Barker, W. C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, M. J.; Natale, D. A.; o’Donovan, C.; Redaschi, N.; Yeh, L. S. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research. 32 (90001). ss. 115D-1119. doi:10.1093/nar/gkh131. PMC 308865 $2. PMID 14681372.
- ^ "Where do the UniProtKB protein sequences come from?". UniProt. 21 Eylül 2011. 15 Aralık 2013 tarihinde kaynağından arşivlendi. Erişim tarihi: 14 Nisan 2018.
- ^ Hassabis, Demis (22 Temmuz 2022). "Putting the power of AlphaFold into the world's hands". Deepmind. 24 Temmuz 2021 tarihinde kaynağından arşivlendi. Erişim tarihi: 24 Temmuz 2021.
- ^ Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive". Bioinformatics. 20 (17). ss. 3236-3237. doi:10.1093/bioinformatics/bth191. PMID 15044231. Mar 30, 2024 tarihinde kaynağından arşivlendi (PDF).
- ^ "Protein Research Foundation". 30 Ağustos 2010 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Ağustos 2010.
- ^ "TROME".
- ^ a b Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics. 23 (10). ss. 1282-1288. doi:10.1093/bioinformatics/btm098. PMID 17379688.
- ^ Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics. 17 (3). ss. 282-283. doi:10.1093/bioinformatics/17.3.282. PMID 11294794.