Cum ajută computerele biologii să spargă secretele vieții

Odată ce genomul uman de trei miliarde de litere a fost secvențiat, ne-am repezit într-un nou „omici”Era cercetării biologice. Oamenii de știință se luptă acum pentru a secvenția genomii (toate genele) sau proteomii (toate proteinele) diferitelor organisme - și în acest proces compilează cantități masive de date.

De exemplu, un om de știință poate folosi instrumente „omice”, cum ar fi secvențierea ADN-ului, pentru a descoperi care gene umane sunt afectate într-o infecție virală de gripă. Dar pentru că genomul uman are cel puțin 25,000 de gene în total, numărul de gene modificate chiar și într-un scenariu atât de simplu ar putea fi de mii.

Deși secvențierea și identificarea genelor și proteinelor le dă un nume și un loc, nu ne spune ce fac. Trebuie să înțelegem cum aceste gene, proteine ​​și toate chestiile dintre ele interacționează în diferite procese biologice.

Astăzi, chiar și experimentele de bază generează date mari, iar una dintre cele mai mari provocări este dezlegarea rezultatelor relevante de zgomotul de fond. Calculatoarele ne ajută să depășim acest munte de date; dar pot chiar să meargă cu un pas mai departe decât atât, ajutându-ne să venim cu ipoteze științifice și să explicăm noi procese biologice. Știința datelor, în esență, permite cercetarea biologică de ultimă oră.

Calculatoare pentru salvare

Calculatoarele sunt calificate în mod unic pentru a gestiona seturi masive de date, deoarece pot urmări simultan toate condițiile importante necesare analizei.


innerself abonare grafică


Deși ei ar putea reflecta erori umane cu care sunt programate, computerele pot trata cantități mari de date în mod eficient și nu sunt părtinitoare spre familiar, așa cum ar putea fi anchetatorii umani.

Calculatoarele pot fi, de asemenea, învățate să caute modele specifice în seturile de date experimentale – un concept numit învățare automată, propus pentru prima dată în anii 1950, în special de către matematician. Alan Turing. Un algoritm care a învățat modelele din seturi de date i se poate cere apoi să facă predicții bazate pe date noi pe care nu le-a mai întâlnit până acum.

Învățarea automată a revoluționat cercetarea biologică, deoarece acum putem folosi seturi de date mari și putem cere computerelor să ne ajute la înțelegerea biologiei subiacente.

Pregătirea computerelor să gândească prin simularea proceselor cerebrale

Am folosit un tip interesant de învățare automată, numită rețea neuronală artificială (ANN), în propriul nostru laborator. Creierele sunt rețele de neuroni foarte interconectate, care comunică prin trimiterea de impulsuri electrice prin cablurile neuronale. În mod similar, un ANN simulează în computer o rețea de neuroni pe măsură ce aceștia se pornesc și se opresc ca răspuns la semnalele altor neuroni.

Aplicând algoritmi care imită procesele neuronilor reali, putem face ca rețeaua să învețe să rezolve multe tipuri de probleme. Google folosește un ANN puternic pentru acum celebrul său Proiect Deep Dream unde computerele pot clasifica și chiar crea imagini.

Grupul nostru studiază sistemul imunitar, cu scopul de a descoperirea de noi terapii pentru cancer. Am folosit modele computaționale ANN pentru a studia codurile scurte de proteine ​​​​de suprafață pe care celulele noastre imunitare le folosesc pentru a determina dacă ceva este străin corpului nostru și, prin urmare, ar trebui atacat. Dacă înțelegem mai multe despre modul în care celulele noastre imunitare (cum ar fi celulele T) diferențiază între celulele normale/auto și anormale/străine, putem proiecta vaccinuri și terapii mai bune.

Am căutat cataloage disponibile public cu mii de coduri de proteine ​​identificate de cercetători de-a lungul anilor. Am împărțit acest mare set de date în două: coduri normale de autoproteine ​​derivate din celule umane sănătoase și coduri anormale de proteine ​​derivate din viruși, tumori și bacterii. Apoi am apelat la o rețea neuronală artificială dezvoltată în laboratorul nostru.

Odată ce am introdus codurile de proteine ​​în ANN, algoritmul a fost capabil să identifice diferențe fundamentale între codurile proteice normale și anormale. Ar fi greu pentru oameni să țină evidența acestor tipuri de fenomene biologice – există literalmente mii de aceste coduri de proteine ​​de analizat în setul de date mari. Este nevoie de o mașină pentru a rezolva aceste probleme complexe și a defini o nouă biologie.

Predicții prin învățare automată

Cea mai importantă aplicație a învățării automate în biologie este utilitatea acesteia în a face predicții bazate pe date mari. Predicțiile bazate pe computer pot da sens pentru datele mari, pot testa ipoteze și pot economisi timp și resurse prețios.

De exemplu, în domeniul nostru de biologie a celulelor T, cunoașterea codurilor de proteine ​​virale pe care trebuie să le ținți este esențială în dezvoltarea vaccinurilor și a tratamentelor. Dar există atât de multe coduri individuale de proteine ​​de la orice virus, încât este foarte costisitor și dificil de testat experimental pe fiecare.

În schimb, am antrenat rețeaua neuronală artificială pentru a ajuta mașina să învețe toate caracteristicile biochimice importante ale celor două tipuri de coduri de proteine ​​– normal versus anormal. Apoi i-am cerut modelului să „predice” ce coduri noi de proteine ​​virale seamănă cu categoria „anormală” și ar putea fi văzute de celulele T și, prin urmare, de sistemul imunitar. Am testat modelul ANN pe diferite proteine ​​virale care nu au fost niciodată studiate înainte.

Destul de sigur, ca un elev harnic dornic să-i mulțumească profesorului, rețeaua neuronală a fost capabilă să identifice cu exactitate majoritatea acestor coduri de proteine ​​care activează celulele T din acest virus. De asemenea, am testat experimental codurile de proteine ​​pe care le-a semnalat pentru a valida acuratețea predicțiilor ANN. Folosind acest model de rețea neuronală, un om de știință poate astfel prezice rapid toate codurile scurte importante de proteine ​​de la un virus dăunător și testați-le pentru a dezvolta un tratament sau un vaccin, în loc să le ghiciți și să le testați individual.

Implementarea înțeleaptă a învățării automate

Datorită rafinării constante, știința datelor mari și învățarea automată devin din ce în ce mai indispensabile pentru orice fel de cercetare științifică. Posibilitățile de utilizare a computerelor pentru a antrena și prezice în biologie sunt aproape nesfârșite. De la a afla care combinație de biomarkeri este cea mai bună pentru detectarea unei boli până la înțelegerea de ce unii pacienți beneficiază de un anumit tratament pentru cancer, extragerea de seturi de date mari folosind computere a devenit o cale valoroasă pentru cercetare.

Desigur, există limitări. Cea mai mare problemă cu știința datelor mari sunt datele în sine. Dacă datele obținute prin studiile -omice sunt greșite de la început sau se bazează pe știință defectuoasă, mașinile vor fi instruite pe date proaste, ceea ce duce la previziuni slabe. Elevul este la fel de bun ca profesorul.

Pentru că computerele nu sunt sensibile (încă), ei pot, în căutarea modelelor, să le găsească chiar și atunci când nu există, dând naștere din nou la date proaste și la știință nereproductibilă.

Și unii cercetători și-au exprimat îngrijorarea cu privire la devenirea computerelor cutii negre de date pentru oamenii de știință care nu înțeleg clar manipulările și mașinațiunile pe care le efectuează în numele lor.

În ciuda acestor probleme, beneficiile big data și mașinile vor continua să le facă parteneri valoroși în cercetarea științifică. Având în vedere avertismente, suntem pregătiți în mod unic să înțelegem biologia prin ochii unei mașini.

Despre autorConversaţie

Sri Krishna, doctorand, Design biologic, Școala de Inginerie Biologică și a Sistemelor de Sănătate, Universitatea de Stat din Arizona și Diego Chowell, doctorand în Matematică Aplicată, Universitatea de Stat din Arizona

Acest articol a fost publicat inițial Conversaţie. Citeste Articol original.


Carte înrudită:

at InnerSelf Market și Amazon