Kegigihan AI mendukung upaya untuk membawa pembelajaran mesin ke biomed •

Berita21 Views

Stability AI, startup yang didukung proyek di belakang sistem teks-ke-gambar Difusi Stabil, mendanai upaya skala besar untuk menerapkan kecerdasan buatan ke batas bioteknologi. Proyek pertama upaya ini, dijuluki OpenBioML, akan fokus pada pendekatan berbasis pembelajaran mesin untuk pengurutan DNA, pelipatan protein, dan biokimia komputasi.

Pendiri perusahaan menggambarkan OpenBioML sebagai “laboratorium penelitian terbuka” — dan bertujuan untuk mengeksplorasi persimpangan kecerdasan buatan dan biologi dalam lingkungan di mana siswa, profesional, dan peneliti dapat berpartisipasi dan berkolaborasi, menurut CEO Stability AI Emad Mostaque.

“OpenBioML adalah salah satu komunitas penelitian independen yang didukung oleh stabilitas,” kata Mustak kepada TechCrunch dalam sebuah wawancara email. “Stabilitas ingin memajukan dan mendemokratisasikan AI, dan dengan OpenBioML, kami melihat peluang untuk memajukan sains, kesehatan, dan kedokteran terbaru.”

Mengingat kontroversi seputar Difusi Stabil – Seni yang menghasilkan AI Stabilitas AI dari deskripsi tekstual, mirip dengan DALL-E 2 OpenAI – orang mungkin mewaspadai proyek AI Stabilitas pertama dalam perawatan kesehatan. Startup telah mengambil pendekatan lepas tangan terhadap tata kelola, memungkinkan pengembang untuk menggunakan sistem sesuka mereka, termasuk deepfake selebriti dan pornografi.

Stabilitas Keputusan AI yang secara etis dipertanyakan Sejauh ini, pembelajaran mesin dalam kedokteran adalah ladang ranjau. Sementara teknologi ini telah berhasil diterapkan untuk mendiagnosis kondisi seperti penyakit kulit dan mata, antara lain, penelitian telah menunjukkan bahwa algoritme dapat mengembangkan bias yang mengarah pada perawatan yang lebih buruk bagi beberapa pasien. Sebuah studi April 2021, misalnya, menemukan bahwa model statistik yang digunakan untuk memprediksi risiko bunuh diri pada pasien kesehatan mental berkinerja baik untuk pasien kulit putih dan Asia, tetapi buruk untuk pasien kulit hitam.

OpenBioML dimulai dengan area yang lebih aman dengan bijak. Proyek pertamanya:

  • beulmyang berusaha menerapkan teknik Natural Language Processing (NLP) di bidang biologi komputasi dan kimia
  • proliferasi DNAyang bertujuan untuk mengembangkan kecerdasan buatan yang dapat menghasilkan urutan DNA dari perintah teks
  • LibreFoldyang terlihat untuk meningkatkan akses ke sistem prediksi struktur protein AI yang mirip dengan DeepMind’s AlphaFold 2

Setiap proyek dipimpin oleh peneliti independen, tetapi Stability AI memberikan dukungan dalam bentuk akses ke kumpulan lebih dari 5.000 GPU Nvidia A100 yang dihosting AWS untuk melatih sistem AI. Menurut Niccolo Zanicelli, seorang mahasiswa sarjana ilmu komputer di Universitas Parma dan salah satu peneliti utama di OpenBioML, ini akan menjadi Daya pemrosesan dan penyimpanan yang cukup untuk melatih hingga 10 sistem mirip AlphaFold 2 secara paralel.

“Banyak penelitian biologi komputasi sudah mengarah ke versi open source. Namun, banyak dari itu terjadi pada satu tingkat lab, dan biasanya dibatasi oleh sumber daya komputasi yang tidak mencukupi,” kata Zanicelli kepada TechCrunch melalui email. “Kami ingin mengubah ini dengan mendorong kolaborasi dalam skala besar, dan dengan dukungan Stability AI, kami mendukung kolaborasi tersebut dengan sumber daya yang hanya dapat diakses oleh laboratorium industri terbesar.”

Menghasilkan sekuens DNA

ke Proyek OpenBioML yang sedang berlangsung, Penyebaran DNA – dipimpin oleh laboratorium Profesor Luca Pinello di Rumah Sakit Umum Massachusetts dan Sekolah Kedokteran Harvard – mungkin yang paling ambisius. Tujuannya adalah untuk menggunakan sistem AI generatif untuk mempelajari dan menerapkan aturan urutan “pengaturan” DNA, atau bagian dari molekul DNA yang mempengaruhi ekspresi gen tertentu dalam suatu organisme. Banyak penyakit dan kelainan akibat regulasi gen yang buruk, tetapi sains belum menemukan proses yang dapat diandalkan untuk mengidentifikasi—apalagi mengubah—urutan regulasi ini.

DNA-Diffusion mengusulkan menggunakan jenis sistem kecerdasan buatan yang dikenal sebagai model difusi untuk menghasilkan sekuens DNA regulasi spesifik tipe sel. Model difusi – yang mendukung generator gambar seperti Difusi Stabil dan DALL-E 2 OpenAI – menghasilkan data baru (seperti pengurutan DNA) dengan mempelajari cara menghancurkan dan memulihkan banyak sampel data yang ada. Saat mereka diberi sampel, model menjadi lebih baik dalam memulihkan semua data yang sebelumnya mereka hancurkan untuk menciptakan bisnis baru.

Kredit gambar: OpenBioML

“Difusi telah melihat keberhasilan luas dalam model generatif multimodal, dan sekarang mulai diterapkan pada biologi komputasi, misalnya untuk menghasilkan struktur protein baru,” kata Zanicelli. “Dengan penyebaran DNA, kami sekarang mengeksplorasi penerapannya pada sekuens genetik.”

Jika semuanya berjalan sesuai rencana, proyek proliferasi DNA akan menghasilkan model proliferasi yang dapat menghasilkan sekuens pengatur DNA dari instruksi teks seperti “Sekuens yang mengaktifkan gen hingga tingkat ekspresi maksimumnya di sel tipe X” dan “Sekuens yang mengaktifkan gen gen di hati dan jantung, tapi tidak di otak.” Model seperti itu juga dapat membantu menjelaskan komponen urutan regulasi – meningkatkan pemahaman komunitas ilmiah tentang peran urutan regulasi dalam berbagai penyakit, kata Zanecelli.

Perlu dicatat bahwa ini sebagian besar bersifat teoretis. Sementara penelitian awal tentang penerapan difusi pada pelipatan protein terlihat menjanjikan, Zanicelli mengakui bahwa waktunya terlalu dini – karena itu dorongan untuk melibatkan komunitas AI yang lebih luas.

Baca juga :  Rezonate mengumpulkan $8,7 juta dan meluncurkan platform perlindungan identitas cloud siluman,

Prediksi struktur protein

LibreFold dari OpenBioML, meskipun cakupannya lebih kecil, kemungkinan akan langsung terbayar. Proyek ini berusaha untuk mendapatkan pemahaman yang lebih baik tentang sistem pembelajaran mesin yang memprediksi struktur protein serta cara untuk memperbaikinya.

Seperti yang dibahas rekan saya Devin Coldewey dalam artikelnya tentang karya DeepMind di AlphaFold 2, sistem AI yang secara akurat memprediksi bentuk protein relatif baru di dunia tetapi transformatif dalam hal kemampuannya. Protein terbuat dari urutan asam amino yang dilipat menjadi bentuk untuk menyelesaikan berbagai tugas dalam organisme hidup. Menentukan bentuk yang akan dibuat oleh urutan asam adalah proses yang membosankan dan rawan kesalahan. Sistem AI seperti AlphaFold 2 mengubahnya; Berkat mereka, lebih dari 98% struktur protein tubuh manusia diketahui sains saat ini, serta ratusan ribu struktur lain dalam organisme hidup seperti Escherichia coli dan ragi.

Meskipun demikian, hanya sedikit kelompok yang memiliki keahlian teknik dan sumber daya untuk mengembangkan jenis AI ini. DeepMind menghabiskan waktu berhari-hari untuk melatih AlphaFold 2 pada unit pemrosesan tensor (TPU), akselerator AI Google yang mahal. Kumpulan data pelatihan pengurutan asam sering kali bersifat eksklusif atau dirilis di bawah lisensi non-komersial.

Protein melipat ke dalam struktur tiga dimensinya. Kredit gambar: Christoph Burgstedt/Perpustakaan Foto Sains/Getty Images

“Ini sangat disayangkan, karena jika Anda melihat apa yang dapat dibangun komunitas di atas pos pemeriksaan AlphaFold 2 yang dirilis oleh DeepMind, itu sungguh tidak dapat dipercaya,” kata Zanicelli, merujuk pada model terlatih AlphaFold 2 yang dirilis oleh DeepMind tahun lalu. . “Misalnya, beberapa hari setelah rilis, profesor Universitas Nasional Seoul Minkyung Baek melaporkan trik di Twitter yang memungkinkan model untuk memprediksi struktur kuaterner – sesuatu yang sedikit, jika ada, yang diharapkan oleh model tersebut. Ada begitu banyak contoh lain dari jenis ini, siapa yang tahu apa yang mungkin dibangun oleh komunitas ilmiah yang lebih luas jika memiliki kemampuan untuk melatih metode yang sama sekali baru untuk memprediksi struktur protein seperti AlphaFold? “

Membangun karya RoseTTAFold dan OpenFold, upaya komunitas berkelanjutan untuk mereplikasi AlphaFold 2, LibreFold akan memfasilitasi eksperimen ‘skala besar’ dengan berbagai sistem prediksi pelipatan protein. Menurut Zanicelli, fokus LibreFold, yang dipimpin oleh para peneliti di University College London, Harvard dan Stockholm, adalah untuk mendapatkan pemahaman yang lebih baik tentang apa yang dapat dicapai sistem dan mengapa.

“LibreFold pada dasarnya adalah proyek untuk komunitas, oleh komunitas. Hal yang sama berlaku untuk merilis pos pemeriksaan model dan kumpulan data, di mana mungkin hanya perlu satu atau dua bulan bagi kami untuk mulai merilis keluaran pertama atau mungkin membutuhkan waktu lebih lama,” dia berkata. “Namun, firasat saya adalah bahwa yang pertama lebih mungkin.”

Penerapan NLP untuk biokimia

Pada cakrawala waktu yang lebih lama OpenBioML Proyek BioLM, yang memiliki misi yang lebih ambigu untuk “menerapkan teknik pemodelan linguistik yang diturunkan dari NLP ke urutan biokimia.” Bekerja sama dengan EleutherAI, sebuah kelompok penelitian yang telah merilis beberapa model generasi transkrip open source, BioLM berharap untuk melatih dan menerbitkan “model bahasa biokimia” baru untuk berbagai tugas, termasuk pembuatan urutan protein.

Zanichelli menunjuk ke ProGen Salesforce sebagai contoh jenis pekerjaan yang mungkin dilakukan BioLM. ProGen memperlakukan urutan asam amino seperti kata-kata dalam sebuah kalimat. Dilatih pada kumpulan data lebih dari 280 juta urutan protein dan metadata terkait, model ini memprediksi kumpulan asam amino berikutnya dari yang sebelumnya, seperti model bahasa yang memprediksi akhir kalimat dari awal.

Awal tahun ini Nvidia merilis model bahasa, MegaMolBART, yang dilatih pada kumpulan data jutaan molekul untuk mencari target obat potensial dan memprediksi reaksi kimia. Meta juga baru-baru ini melatih NLP yang disebut ESM-2 untuk mengurutkan protein, sebuah pendekatan yang diklaim perusahaan telah memungkinkannya untuk memprediksi urutan lebih dari 600 juta protein hanya dalam dua minggu.

Runtuh Meta Protein

Struktur protein diprediksi oleh sistem Meta. Kredit gambar: mati

Saya melihat ke depan

Sementara minat OpenBioML luas (dan ekspansif), Mostaque mengatakan mereka disatukan oleh keinginan untuk “memaksimalkan potensi positif pembelajaran mesin dan kecerdasan buatan dalam biologi,” sesuai dengan tradisi penelitian terbuka dalam sains dan kedokteran.

“Kami berharap dapat memungkinkan para peneliti untuk mendapatkan kontrol lebih besar atas saluran eksperimental mereka untuk tujuan pembelajaran aktif atau validasi model,” lanjut Mustak. “Kami juga ingin mendorong ilmu pengetahuan yang mutakhir melalui model bioteknologi yang semakin umum, yang bertentangan dengan arsitektur khusus dan tujuan pembelajaran yang saat ini menjadi ciri sebagian besar biologi komputasi.”

Namun — seperti yang diharapkan dari startup yang didukung VC yang baru-baru ini mengumpulkan lebih dari $100 juta — Stability AI tidak melihat OpenBioML sebagai upaya filantropi murni. Mostaque mengatakan perusahaan terbuka untuk mengeksplorasi komersialisasi teknologi dari OpenBioML “bila sudah cukup maju, cukup aman, dan bila waktunya tepat.”