Genetic big data generated by next generation sequencing can be interpreted by medical geneticists using machine learning and tools for anotation and automated filtering for genetic data in vcf format. Integration of these developed tools into the main platform Gene2Var.
İhtiyaç
Yeni nesil dizileme çıktısı ham genetik verinin, tıbbi genetik hekimleri tarafından klinik yorumu için format dönüşümleri gerekmekte ve bu amaçla yüksek güçlü donanımlara ve biyoinformatik araçlara ihtiyaç duyulmaktadır.
Vcf, dizi içerisindeki varyasyonları –referans genomdan farklı olan tüm dizileri- depolamak için kullanılan bir formattır. Vcf dosyasının yorumlanması, hangi varyantların hastalığa neden olduğunu tespitini ve bunların raporlanmasını kapsamaktadır.
Ortalama bir insan ekzomunda –genomun kodlayan bölgesi- 50.000 - 100.000 arasında kalitesi doğrulanmış varyant bulunması beklenir ve bunların içinden hastalığa neden olan bir ya da birkaç varyantın tespit edilmesi gerekir.
Bu sürecin ham veriden vcf’e dönüşüm aşaması otomatikleştirilebilmekte, ancak yorumlama aşamasında varyantların doğru filtrelenmesi ve makale inceleme gibi insan müdahalesi gerektiren ve zaman alan süreçler yer almaktadır.
Çözüm
Dizilenmiş ham DNA verisinden yola çıkarak veri dönüşümlerini gerçekleştirmek ve varyant belirleme aşamasına ulaşmak üzere, amaca uygun biyoinformatik araçları, insandan bağımsız (objektif) olarak kullanan, sistematik biçimde güncellenen parametre ve veri tabanlarına erişimli, “entegre” biyoinformatik analiz platformu: Varskor.