Yeni nesil dizileme ile üretilen genetik büyük verinin, makine öğrenmesi kullanılarak tıbbi genetik uzmanları tarafından yorumlanabilmesi ve vcf formatındaki genetik veri için anotasyon ve otomatize filtrelemeyi sağlayan araçların geliştirilmesi. Geliştirilen bu araçların, ana platform olan Gene2Var’a entegre edilmesi.
İhtiyaç
Yeni nesil dizileme çıktısı ham genetik verinin, tıbbi genetik hekimleri tarafından klinik yorumu için format dönüşümleri gerekmekte ve bu amaçla yüksek güçlü donanımlara ve biyoinformatik araçlara ihtiyaç duyulmaktadır.
Vcf, dizi içerisindeki varyasyonları –referans genomdan farklı olan tüm dizileri- depolamak için kullanılan bir formattır. Vcf dosyasının yorumlanması, hangi varyantların hastalığa neden olduğunu tespitini ve bunların raporlanmasını kapsamaktadır.
Ortalama bir insan ekzomunda –genomun kodlayan bölgesi- 50.000 - 100.000 arasında kalitesi doğrulanmış varyant bulunması beklenir ve bunların içinden hastalığa neden olan bir ya da birkaç varyantın tespit edilmesi gerekir.
Bu sürecin ham veriden vcf’e dönüşüm aşaması otomatikleştirilebilmekte, ancak yorumlama aşamasında varyantların doğru filtrelenmesi ve makale inceleme gibi insan müdahalesi gerektiren ve zaman alan süreçler yer almaktadır.
Çözüm
Dizilenmiş ham DNA verisinden yola çıkarak veri dönüşümlerini gerçekleştirmek ve varyant belirleme aşamasına ulaşmak üzere, amaca uygun biyoinformatik araçları, insandan bağımsız (objektif) olarak kullanan, sistematik biçimde güncellenen parametre ve veri tabanlarına erişimli, “entegre” biyoinformatik analiz platformu: Varskor.