fbpx

Каталог статей

Каталог статей для размещения статей информационного характера

Как выучить

Глубокое обучение для биологии

Глубокое обучение для биологии

Популярный метод искусственного интеллекта предоставляет мощный инструмент для исследования и классификации биологических данных. Однако для непосвященных эта технология представляет значительные трудности.

    Сара Вебб

    Сара Вебб – писатель-фрилансер из Чаттануги, штат Теннесси.

    Вы также можете искать этого автора в PubMed Google Scholar

    Нейронная сеть мозга давно вдохновляет исследователей искусственного интеллекта. Credit: Alfred Pasieka/SPL/Getty

    Четыре года назад ученые из Google появились на пороге нейробиолога Стива Финкбейнера. Исследователи работали в Google Accelerated Science, исследовательском подразделении в Маунтин-Вью, Калифорния, целью которого является использование технологий Google для ускорения научных открытий. Их интересовало применение подходов “глубокого обучения” к горам данных визуализации, генерируемых группой Финкбейнера в Институте неврологических заболеваний Гладстона в Сан-Франциско, также в Калифорнии.

    Алгоритмы глубокого обучения берут необработанные характеристики из чрезвычайно большого аннотированного набора данных, например, коллекции изображений или геномов, и используют их для создания прогностического инструмента, основанного на закономерностях, скрытых внутри. После обучения алгоритмы могут применять это обучение для анализа других данных, иногда из совершенно разных источников.

    Эта техника может быть использована для “решения действительно трудных, тяжелых, сложных проблем и для того, чтобы увидеть структуру в данных – объемах данных, которые просто слишком велики и слишком сложны для человеческого мозга”, – говорит Финкбейнер.

    Он и его команда получают большие объемы данных, используя стратегию высокопроизводительной визуализации, известную как роботизированная микроскопия, которую они разработали для изучения клеток мозга. Но команда не могла анализировать свои данные с той скоростью, с которой она их получала, поэтому Финкбейнер приветствовал возможность сотрудничества.

    “Я не могу сказать, что в то время у меня было четкое представление о том, какие вопросы могут быть решены с помощью глубокого обучения, но я знал, что мы генерировали данные примерно в два-три раза быстрее, чем могли их проанализировать”, – говорит он.

    Сегодня эти усилия начинают приносить плоды. Команда Финкбейнера совместно с учеными из Google обучила алгоритм глубокого обучения на двух наборах клеток, один из которых был искусственно помечен, чтобы выделить особенности, которые ученые обычно не видят, а другой – без пометок. По словам Финкбейнера, когда позже алгоритм получил изображения клеток без меток, которые он никогда раньше не видел, “он поразительно хорошо предсказал, какими должны быть метки на этих изображениях”. Публикация с подробным описанием этой работы сейчас находится в печати.

    Успех Финкбейнера подчеркивает, как глубокое обучение, одна из самых перспективных ветвей искусственного интеллекта (ИИ), проникает в биологию. Эти алгоритмы уже проникают в современную жизнь в смартфонах, умных колонках и самоуправляемых автомобилях. В биологии алгоритмы глубокого обучения погружаются в данные так, как не может человек, обнаруживая особенности, которые иначе невозможно было бы уловить. Исследователи используют алгоритмы для классификации клеточных изображений, установления геномных связей, усовершенствования процесса открытия лекарств и даже поиска связей между различными типами данных, от геномики и визуализации до электронных медицинских карт.

    Более 440 статей на сервере препринтов bioRxiv посвящены глубокому обучению; в PubMed перечислено более 700 ссылок в 2017 году. И эти инструменты находятся на пороге того, чтобы стать широко доступными для биологов и клинических исследователей. Однако исследователи сталкиваются с проблемами в понимании того, что именно делают эти алгоритмы, и в обеспечении того, чтобы они не вводили пользователей в заблуждение.

    Обучение умных алгоритмов

    Алгоритмы глубокого обучения (см. “Глубокие мысли”) опираются на нейронные сети – вычислительную модель, впервые предложенную в 1940-х годах, в которой слои нейроноподобных узлов имитируют то, как человеческий мозг анализирует информацию. Примерно пять лет назад алгоритмы машинного обучения, основанные на нейронных сетях, предполагали, что исследователи будут обрабатывать исходную информацию в более осмысленную форму, прежде чем вводить ее в вычислительные модели, говорит Кейси Грин, специалист по вычислительной биологии из Университета Пенсильвании в Филадельфии. Но взрывной рост объема массивов данных – из таких источников, как снимки со смартфона или крупномасштабное геномное секвенирование – и инновации в области алгоритмов позволили человеку сделать шаг назад. Этот прогресс в машинном обучении – “глубокая” часть – заставляет компьютеры, а не их программистов-людей, находить значимые взаимосвязи, заложенные в пикселях и основаниях. По мере того, как слои нейронной сети фильтруют и сортируют информацию, они также общаются друг с другом, позволяя каждому слою уточнять вывод предыдущего.

    Источник: Джереми Линсли/Дрю Линсли/Стив Финкбейнер/Томас Серр

    В конечном итоге этот процесс позволяет обученному алгоритму проанализировать новое изображение и правильно идентифицировать его, например, как Чарльза Дарвина или больную клетку. Но поскольку исследователи отдаляются от алгоритмов, они больше не могут контролировать процесс классификации или даже объяснить, что именно делает программное обеспечение. Хотя эти сети глубокого обучения могут быть потрясающе точными в предсказаниях, говорит Финкбейнер, “иногда все еще сложно понять, что именно видит сеть, что позволяет ей делать такие хорошие предсказания”.

    Тем не менее, многие субдисциплины биологии, включая визуализацию, пожинают плоды этих предсказаний. Десятилетие назад программное обеспечение для автоматизированного анализа биологических изображений было сосредоточено на измерении отдельных параметров в наборе изображений. Например, в 2005 году Энн Карпентер, специалист по вычислительной биологии из Broad Institute of MIT and Harvard в Кембридже, штат Массачусетс, выпустила пакет программ с открытым исходным кодом под названием CellProfiler, чтобы помочь биологам количественно измерить отдельные характеристики: например, число флуоресцентных клеток в поле микроскопии или длину зебрафиш.

    Но глубокое обучение позволяет ее команде пойти дальше. “Мы перешли к измерению тех вещей, о которых биологи и не подозревают, что они хотят измерять на основе изображений”, – говорит она. Запись и комбинирование визуальных характеристик, таких как окраска ДНК, текстура органелл и качество пустых пространств в клетке, может дать тысячи “характеристик”, любая из которых может быть измерена.

    Такой тип обработки позволяет команде Карпентера использовать менее контролируемый подход к переводу изображений клеток в фенотипы, связанные с заболеваниями, и извлечь из этого выгоду. Карпентер является научным консультантом компании Recursion Pharmaceuticals в Солт-Лейк-Сити, штат Юта, которая использует инструменты глубокого обучения для поиска редких, одногенных заболеваний для разработки лекарств.

    Добыча геномных данных

    Когда речь идет о глубоком обучении, не всякие данные подойдут. Для этого метода часто требуются массивные, хорошо проанализированные наборы данных. Естественным образом для этого подходят данные визуализации, но также и геномные данные.

    Одна из биотехнологических компаний, использующая такие данные, – Verily Life Sciences (бывшая Google Life Sciences) в Сан-Франциско. Исследователи Verily – дочерней компании материнской компании Google, Alphabet – и Google разработали инструмент глубокого обучения, который определяет распространенный тип генетических вариаций, называемых однонуклеотидными полиморфизмами, более точно, чем обычные инструменты. Названное DeepVariant, программное обеспечение переводит геномную информацию в изображения, которые затем анализируются как изображения (см. “Инструменты для глубокого погружения”). Марк ДеПристо, возглавляющий геномные исследования на основе глубокого обучения в Google, ожидает, что DeepVariant будет особенно полезен для исследователей, изучающих организмы, не относящиеся к основным – те, которые имеют низкокачественные эталонные геномы и высокий процент ошибок при определении генетических вариантов. Его коллега Райан Поплин, работая с DeepVariant на растениях, добился уровня ошибок, близкого к 2%, по сравнению с более типичными 20% для других подходов.

    Инструменты для глубокого погружения

    Инструменты глубокого обучения быстро развиваются, и для того, чтобы воспользоваться их преимуществами, лабораториям потребуются специальные вычислительные знания, сотрудничество или и то, и другое.

    Сначала пригласите на обед коллегу с опытом глубокого обучения и спросите, может ли эта стратегия быть полезной, советует Стив Финкбейнер, нейробиолог из Института Гладстона в Сан-Франциско, Калифорния. По его словам, для некоторых наборов данных, таких как данные визуализации, может подойти готовая программа; для более сложных проектов следует обратиться к специалисту. Семинары и встречи могут предоставить возможности для обучения.

    Доступ к облачным вычислительным ресурсам означает, что исследователям может не понадобиться компьютерный кластер на месте для использования глубокого обучения – они могут выполнять вычисления в другом месте. TensorFlow от Google, платформа с открытым исходным кодом для создания алгоритмов глубокого обучения, доступна на сайте обмена программным обеспечением GitHub, как и версия с открытым исходным кодом DeepVariant, инструмента для точного определения генетических вариаций.

    Google Accelerated Science, исследовательское подразделение Google, расположенное в Маунтин-Вью, Калифорния, сотрудничает с целым рядом ученых, в том числе с биологами, говорит Мишель Димон, один из его научных сотрудников. По словам Димон, для реализации проектов требуется убедительный биологический вопрос, большой объем высококачественных, меченых данных и задача, которая позволит специалистам компании по машинному обучению внести уникальный вычислительный вклад в эту область.

    Тем, кто хочет поближе познакомиться с глубоким обучением, стоит прочесть “глубокий обзор” – всеобъемлющий краудсорсинговый обзор под руководством специалиста по вычислительной биологии Кейси Грина из Университета Пенсильвании в Филадельфии (T. Ching et al. Preprint at bioRxiv ; 2018).

    Брендан Фрей, генеральный директор канадской компании Deep Genomics в Торонто, также занимается геномными данными, но с целью прогнозирования и лечения заболеваний. Академическая группа Фрея в Университете Торонто разработала алгоритмы, обученные на геномных и транскриптомных данных здоровых клеток. Эти алгоритмы построили прогностические модели событий обработки РНК, таких как сплайсинг, транскрипция и полиаденилирование, на основе этих данных. По словам Фрея, при применении к клиническим данным алгоритмы смогли выявить мутации и отметить их как патогенные, несмотря на то, что они никогда не видели клинических данных. В компании Deep Genomics команда Фрея использует те же инструменты для выявления и нацеливания на механизмы заболеваний, которые были обнаружены программным обеспечением, для разработки терапии на основе коротких последовательностей нуклеиновых кислот.

    Еще одна дисциплина с огромными массивами данных, которые поддаются глубокому обучению, – это поиск лекарств. Здесь алгоритмы глубокого обучения помогают решать проблемы категоризации, просеивая такие особенности молекул, как форма и водородная связь, чтобы определить критерии, по которым можно ранжировать потенциальные лекарства. Например, Atomwise, биотехнологическая компания из Сан-Франциско, разработала алгоритмы, которые преобразуют молекулы в сетки трехмерных пикселей, называемых вокселями. Такое представление позволяет компании учитывать трехмерную структуру белков и малых молекул с атомарной точностью, моделируя такие особенности, как геометрия атомов углерода. Эти особенности затем переводятся в математические векторы, которые алгоритм может использовать для предсказания того, какие малые молекулы могут взаимодействовать с данным белком, говорит Абрахам Хейфец, исполнительный директор компании. “Большая часть нашей работы направлена на [белковые] мишени, для которых неизвестны связывающие вещества”, – говорит он.

    Atomwise использует эту стратегию для своей новой программы молекулярного скрининга на основе искусственного интеллекта, которая сканирует библиотеку из 10 миллионов соединений, чтобы предоставить исследователям до 72 потенциальных малых молекул, связывающих интересующий их белок.

    Инструменты глубокого обучения также могут помочь исследователям в стратификации типов заболеваний, понимании их субпопуляций, поиске новых методов лечения и подборе подходящих пациентов для клинических испытаний и лечения. Финкбейнер, например, входит в консорциум под названием Answer ALS, который пытается объединить ряд данных – геномику, транскриптомику, эпигеномику, протеомику, визуализацию и даже биологию плюрипотентных стволовых клеток – от 1000 человек с нейродегенеративным заболеванием – боковым амиотрофическим склерозом (также называемым болезнью двигательных нейронов). “Впервые у нас будет набор данных, на котором мы сможем применить глубокое обучение и посмотреть, сможет ли глубокое обучение выявить взаимосвязь между тем, что мы можем измерить в посуде вокруг клетки, и тем, что происходит с этим пациентом”, – говорит он.

    Проблемы и предостережения

    При всей своей перспективности глубокое обучение сопряжено со значительными трудностями, предупреждают исследователи. Как и в любой другой технике вычислительной биологии, результаты, полученные с помощью алгоритмов, хороши лишь настолько, насколько хороши данные, которые в них используются.

    Алгоритмы глубокого обучения требуют чрезвычайно больших наборов данных, которые хорошо аннотированы, чтобы алгоритмы могли научиться различать особенности и классифицировать паттерны. Большие, четко маркированные наборы данных – с миллионами точек данных, представляющих различные экспериментальные и физиологические условия – дают исследователям наибольшую гибкость для обучения алгоритма. Финкбейнер отмечает, что обучение алгоритмов в его работе значительно улучшается примерно после 15 000 примеров. По словам Карпентера, получить такие высококачественные данные “базовой истины” бывает очень трудно.

    Чтобы обойти эту проблему, исследователи работают над тем, как обучить большее количество данных на меньшем количестве. По словам Карпентера, усовершенствование алгоритмов, лежащих в основе нейронных сетей, позволяет им использовать данные гораздо более эффективно, что дает возможность для некоторых приложений обучаться всего на нескольких изображениях. Ученые также могут использовать трансферное обучение – способность нейронных сетей применять навыки классификации, полученные на одном типе данных, к другому типу. Например, команда Финкбейнера разработала алгоритм, который первоначально был обучен предсказывать гибель клеток на основе изменений морфологии. Хотя исследователи обучили его изучать изображения клеток грызунов, при первом же обращении к изображениям человеческих клеток он достиг 90% точности, а по мере накопления опыта его точность возросла до 99%.

    Для распознавания некоторых биологических изображений Google Accelerated Science использует алгоритмы, которые были первоначально обучены на сотнях миллионов потребительских изображений, собранных из Интернета. Затем исследователи совершенствуют это обучение, используя всего несколько сотен биологических изображений, похожих на те, которые они хотят изучить.

    Другая проблема глубокого обучения заключается в том, что компьютеры одновременно неинтеллектуальны и ленивы, отмечает Мишель Даймон, научный сотрудник Google Accelerated Science. Им не хватает сообразительности, чтобы отличить биологически значимые различия от нормальных вариаций. “Компьютер потрясающе хорош в поиске вариаций партии”, – отмечает она. В результате, получение данных, которые будут использоваться в алгоритме глубокого обучения, часто означает применение высокой планки для разработки эксперимента и контроля. Google Accelerated Science требует от исследователей случайного размещения контролей на пластинах с клеточной культурой, чтобы учесть тонкие факторы окружающей среды, такие как температура в инкубаторе, и использовать в два раза больше контролей, чем биолог мог бы использовать в других случаях. “Мы усложняем процесс пипетирования”, – говорит Димон.

    По словам Димона, эта опасность подчеркивает важность совместной работы биологов и компьютерщиков над разработкой экспериментов, включающих глубокое обучение. И эта тщательная разработка стала еще более важной в одном из последних проектов Google: Contour, стратегия кластеризации данных клеточной визуализации таким образом, чтобы выделить тенденции (например, реакцию на дозу), а не отнести их к определенным категориям (например, живые или мертвые).

    Хотя алгоритмы глубокого обучения могут оценивать данные без человеческих предубеждений и фильтров, предостерегает Грин, это не означает, что они беспристрастны. Обучающие данные могут быть искажены – как это происходит, например, когда используются геномные данные только северных европейцев. Алгоритмы глубокого обучения, обученные на таких данных, будут приобретать встроенные предубеждения и отражать их в своих прогнозах, что, в свою очередь, может привести к неравномерному лечению пациентов. Если люди помогут подтвердить эти прогнозы, это станет потенциальной проверкой проблемы. Но подобные опасения вызывают тревогу, если ключевые решения принимаются компьютером в одиночку. “Думать об этих методах как о способе дополнить человека лучше, чем думать об этих методах как о замене человека”, – говорит Грин.

    Кроме того, существует проблема понимания того, как именно эти алгоритмы формируют характеристики, или признаки, которые они используют для классификации данных. По словам Полины Мамошиной, научного сотрудника компании Insilico Medicine в Балтиморе, штат Мэриленд, которая использует глубокое обучение для повышения эффективности поиска лекарств, компьютерные ученые решают этот вопрос путем изменения или перестановки отдельных характеристик в модели, а затем изучают, как эти изменения меняют точность прогнозов. Но разные нейронные сети, работающие над одной и той же проблемой, не будут подходить к ней одинаково, предупреждает Грин. Исследователи все больше внимания уделяют алгоритмам, которые делают одновременно точные и объяснимые предсказания, говорит он, но пока системы остаются “черными ящиками”.

    “Я не думаю, что в 2018 году на сцену выйдут высокообъяснимые модели глубокого обучения, хотя я был бы рад ошибиться”, – говорит Грин.

    Nature 554 , 555-557 (2018)

    Обновления и исправления

    Исправление 07 марта 2018 года : В предыдущей версии этой статьи Марк ДеПристо был связан с компанией Verily Life Sciences. В ней также не было упомянуто, что инструмент DeepVariant был разработан совместно компаниями Verily и Google.

    Компьютерная иллюстрация нейронной сети мозга

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *