Yakında

GenoStreamToolkit

Multi-Source Sequencing Data Access & Analysis-Readiness Audit Toolkit
Çok Kaynaklı Dizileme Verisi Erişim ve Analize Hazırlık Denetim Araç Seti

Veri kaynaklarından analize hazır, doğrulanabilir veri setlerine.

From data sources to analysis-ready, verifiable datasets.

Terminal · Google Colab · Jupyter    |    Developed by NARDO Biotech · Presented by DNA Academy
Ürün hikâyesi

Üç yıllık birikim.
Dokuz aylık Ar-Ge.
Tek araç seti.

3yıllık DNA Academy birikimi
9aylık Ar-Ge ve iterasyon

Bir dizileme verisini indirmek kolay olabilir.

Asıl mesele; doğru veriyi bulmak, uygun formatı seçmek, aktarım bütünlüğünü korumak, metadata’yı kaybetmemek ve verinin analize gerçekten hazır olduğunu kanıtlayabilmektir.

GenoStream, bu problemin içinden doğdu.

DNA Academy’nin üç yıllık biyoinformatik eğitim ve uygulama birikimi; NARDO Biotech’in genomik veri operasyonları, kısa ve uzun okuma dizileme teknolojileri ile saha deneyimiyle birleşti.

Bu birikim, dokuz aylık Ar-Ge, test ve iteratif geliştirme sürecinin sonunda GenoStream Toolkit’e dönüştü.

Problem

GARBAGE IN.GARBAGE OUT.

Bir veri seti, yalnızca indirildiği için analize hazır sayılabilir mi?

Hayır.

Bir analiz hattının güvenilirliği yalnızca kullanılan algoritmalara bağlı değildir.

Veri bütünlüğü, metadata yeterliliği, kaynak izi, format seçimi ve aktarım sürecinde alınan kararlar da analiz sonucunun güvenilirliğini doğrudan belirler.

Doğrulanmamış veri girerse, güvenilmez sonuç çıkar.

GenoStream biyolojik sonucu yorumlamaz. Analizin eksik, bozuk, uyumsuz veya izlenemeyen veriyle başlamasını önlemeye odaklanır.
İşlem zinciri

Verinin GenoStream içindeki yolculuğu

KeşfetFiltreleYönlendirAktarDoğrulaZenginleştirDenetle
01 / 07

Keşfet

Çok kaynaklı veri keşfi ve erişimi
ENA, MicrobeAtlas ve diğer veri kaynaklarında organizma, çalışma stratejisi veya erişim numarası üzerinden ham dizileme verileri ile metadata’yı sorgular ve aktarım için hazırlar.
ENAMicrobeAtlasAccessionOrganizmaÇalışma stratejisi
02 / 07

Filtrele

Hedef veri kümesini belirle
Aday kayıtları yayın tarihi, okuma sayısı, baz sayısı, platform ve veri sınıfına göre filtreler. Kısa okuma ve uzun okuma kayıtlarını platform sınıfına göre otomatik olarak gruplandırır.
Yayın tarihiOkuma sayısıBaz sayısıPlatformVeri sınıfı
03 / 07

Yönlendir

Akıllı format seçimi
FASTQ, BAM, CRAM ve SRA formatları arasında kullanıcı tarafından belirlenen öncelik sırasına göre uygun veriyi seçer. İlk tercih kaynakta bulunmuyorsa alternatif formata otomatik geçer; katı format kuralında yalnızca hedeflenen format kabul edilir.
FASTQBAMCRAMSRAFallbackStrict format
04 / 07

Aktar

Dayanıklı ve kesintisiz veri aktarımı
Bağlantı kesildiğinde aktarımı baştan başlatmak yerine kaldığı bayttan sürdürür. Sunucu hatalarında otomatik yeniden deneme uygular, paralel iş parçacıklarıyla birden fazla dosyayı eş zamanlı aktarır ve bağlantıları HTTPS protokolüne yönlendirir.
Smart ResumeParallel TransferError RecoveryHTTPS
05 / 07

Doğrula

Dosya bütünlüğü denetimi
İndirilen dosyaların MD5 değerlerini kaynak kayıtlarla karşılaştırır. Bozuk, eksik veya kaynakla uyuşmayan dosyaların analiz sürecine taşınmasını engeller.
Kaynak MD5 = İndirilen dosya MD5PASSFAIL
06 / 07

Zenginleştir

Metadata ve tam izlenebilirlik
Taksonomi, örnek, çalışma, kütüphane, cihaz, klinik, çevresel ve coğrafi metadata’yı 40’tan fazla alanla denetlenebilir bir manifestte birleştirir. Portal kayıtlarını XML metadata zinciriyle tamamlar; kaynak ve işlem izini korur.
40+ metadata alanıRunExperimentSampleStudy
07 / 07

Denetle

Analize hazırlık değerlendirmesi
Dosya bütünlüğünü, metadata yeterliliğini ve teknik riskleri birlikte değerlendirir; analiz başlamadan önce aksiyon alınması gereken noktaları görünür kılar.

PASS

Kritik bütünlük veya metadata sorunu bulunmadı.

WARN

Analiz öncesinde gözden geçirilmesi gereken alanlar mevcut.

FAIL

Analizin güvenle başlatılmasını engelleyen kritik sorun tespit edildi.

Temel yetenekler

Sahada gerçek problem çözen katmanlar

01

Çok kaynaklı veri erişimi

ENA ve MicrobeAtlas üzerinden ham dizileme verileri ile metadata erişimi.

02

Akıllı format yönlendirme

FASTQ, BAM, CRAM ve SRA için öncelik zinciri ve otomatik alternatif seçimi.

03

Kesintiye dayanıklı aktarım

Bağlantı kopmalarında kaldığı noktadan devam eden, hata toleranslı ve paralel veri aktarımı.

04

Bütünlük doğrulaması

Kaynak ve indirilen dosya MD5 değerlerinin karşılaştırılmasıyla bozuk veya eksik verilerin tespiti.

05

Metadata harmonizasyonu

40’tan fazla alanın tek denetlenebilir manifestte birleştirilmesi ve kaynak izinin korunması.

06

Analysis-Readiness Audit

Dosya, metadata ve teknik risklerin PASS, WARN ve FAIL düzeylerinde değerlendirilmesi.

Teknik kapsam

Kısa ve uzun okuma verileri, aynı operasyonel çerçevede.

Kısa okuma (NGS) dizileme verileri

  • Illumina
  • Ion Torrent
  • FASTQ · BAM · CRAM · SRA

Uzun okuma (3. nesil) dizileme verileri

  • Oxford Nanopore
  • PacBio
  • FASTQ · BAM · CRAM · SRA
Kullanım ortamları

Kendi çalışma ortamınızda kullanın.

Terminal

Linux · macOS · Windows

Google Colab

Tarayıcı tabanlı, kurulum yükünü azaltan kullanım.

Jupyter

Etkileşimli, belgelenebilir ve tekrar üretilebilir çalışma akışları.

Neden GenoStream?

Çünkü analiz, dosya indirildiğinde değil; veri doğrulandığında başlar.

GenoStream, veri erişimi ile downstream biyoinformatik analiz arasındaki görünmeyen fakat kritik boşluğu hedefler.

  • Doğru veri setini seçmek
  • Aktarım kararlarını görünür kılmak
  • Dosya bütünlüğünü doğrulamak
  • Metadata kaybını azaltmak
  • Teknik riskleri analiz başlamadan önce tespit etmek
  • Yeniden üretilebilir bir veri kabul süreci oluşturmak
Yakında

GenoStreamToolkit

Veri kaynaklarından analize hazır, doğrulanabilir veri setlerine.

From data sources to analysis-ready, verifiable datasets.

Developed by NARDO Biotech · Presented by DNA Academy