Глубокое обучение для идентификации контента, связанного с алкоголем, в социальных сетях (Reddit и Twitter): Исследовательский анализ результатов, связанных с алкоголем

catalogue of articles

1 год назад

Глубокое обучение для идентификации контента, связанного с алкоголем, в социальных сетях (Reddit и Twitter): Исследовательский анализ результатов, связанных с алкоголем

Саид Хассанпур, кафедра биомедицинских данных, Дартмутский колледж, Williamson Translational Research Building, One Medical Center Drive HB 7261, Lebanon, NH, 03756, United States, Phone: 1 603 650 1983, Email: ude.htuomtrad@ruopnassah.deeas .

Бенджамин Джозеф Рикард

1 Факультет биомедицинской науки о данных, Дартмутский колледж, Ливан, штат Нью-Джерси, Соединенные Штаты Америки

Саид Хассанпур

2 Кафедра эпидемиологии, Дартмутский колледж, Ганновер, штат Нью-Джерси, США

3 Факультет компьютерных наук, Дартмутский колледж, Ганновер, штат Нью-Джерси, Соединенные Штаты.

Это статья с открытым доступом, распространяемая на условиях лицензии Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0/), которая разрешает неограниченное использование, распространение и воспроизведение на любых носителях при условии, что оригинальная работа, впервые опубликованная в Journal of Medical Internet Research, правильно цитируется. Должна быть указана полная библиографическая информация, ссылка на оригинальную публикацию на сайте , а также данная информация об авторских правах и лицензии.

Аннотация

История вопроса

Во многих исследованиях социальных сетей изучалась способность тематических структур, таких как хэштеги и сабреддиты, выявлять информацию, связанную с широким спектром психических расстройств. Однако исследования и модели, подготовленные на конкретных тематических сообществах, зачастую трудно применить к различным платформам социальных сетей и соответствующим результатам. Система глубокого обучения, использующая тематические структуры из Reddit и Twitter, может иметь явные преимущества для изучения злоупотребления алкоголем, особенно среди молодежи в США.

Цель

В данном исследовании предлагается новый конвейер глубокого обучения, который использует тематические структуры для идентификации контента, связанного с алкоголем, на различных платформах. Мы применили наш метод в Твиттере, чтобы определить связь распространенности твитов, связанных с алкоголем, с результатами, связанными с алкоголем, о которых сообщают Национальный институт алкоголизма и злоупотребления алкоголем, Система наблюдения за поведенческими факторами риска Центра по контролю заболеваний, рейтинги здравоохранения округов и Национальная система классификации промышленности.

Методы

Нейронная сеть Bidirectional Encoder Representations From Transformers научилась классифицировать 1 302 524 сообщения Reddit как связанные с алкоголем или контрольные подредактиты. Обученная модель определила 24 хэштега, связанных с алкоголем, из немаркированного набора данных, состоящего из 843 769 случайных твитов. Запрос хэштегов, связанных с алкоголем, выявил 25 558 846 твитов, связанных с алкоголем, включая 790 544 твита, привязанных к конкретным местам (с геотегами). Мы рассчитали корреляцию между распространенностью твитов, связанных с алкоголем, и результатами, связанными с алкоголем, с учетом влияния возраста, пола, дохода, образования и расовой принадлежности, о которой сообщается в самоотчете, согласно данным Американского общественного опроса 2013-2018 годов.

Результаты

Наблюдались значительные ассоциации: между твитами с хэштегами алкоголя и потреблением алкоголя (P =.01) и тяжелой выпивкой (P =.005), но не пьянством (P =.37), зарегистрированным на уровне статистического района мегаполиса; между твитами с хэштегами алкоголя и самоотчетом о чрезмерном питьевом поведении (P =.03), но не о смертельных случаях в автотранспорте, связанных с алкоголем (P =.21); между твитами с хэштегами алкоголя и количеством пивоваренных заводов (P

Выводы

Здесь мы представляем новый конвейер обработки естественного языка, разработанный на основе субресурсов Reddit, связанных с алкоголем, который идентифицирует высокоспецифичные хэштеги Twitter, связанные с алкоголем. Распространенность идентифицированных хэштегов содержит интерпретируемую информацию о потреблении алкоголя как на грубом (например, в штате США), так и на тонком (например, на уровне мегаполисов, городских статистических районов и графств) географическом уровне. Этот подход может расширить исследования и интервенции глубокого обучения по злоупотреблению алкоголем и другим поведенческим последствиям для здоровья.

Введение

История вопроса

Связанные с алкоголем причины являются третьей ведущей предотвратимой причиной смерти в США, а злоупотребление алкоголем способствует многим неблагоприятным последствиям для здоровья, особенно для развивающегося мозга [1-4]. Вызывает тревогу увеличение количества контента, связанного с алкоголем, в Твиттере: более половины молодых взрослых, участвовавших в исследовании [5], размещают контент, связанный с алкоголем. Использование социальных сетей и употребление алкоголя являются распространенными формами поведения; показатели распространенности употребления алкоголя в Twitter, Reddit и годового употребления алкоголя среди взрослых в США составляют 22%, 11% и 70% соответственно [6,7]. Вмешательства на основе Интернета и социальных сетей являются масштабируемыми и эффективными подходами для разработки практических инструментов для лечения и мониторинга злоупотребления алкоголем, особенно для подростков и молодых взрослых, находящихся в группе риска [8-14]. Однако выявление зон повышенного риска для эффективного и полезного мониторинга наряду с вмешательствами на уровне населения остается сложной задачей, отчасти из-за предвзятости опросов [15-17].

Текстовые хэштеги распространены среди многих популярных платформ социальных сетей, таких как Twitter, Instagram и TikTok. Люди используют хэштеги для категоризации, маркировки, организации и обнаружения сообщений и контента [18]. Предыдущие исследования показали, что хэштеги для конкретных исследований полезны для изучения психического здоровья [19]. Например, сексуальное насилие и домогательства (#MeToo), рак груди (#breastcancer), ВИЧ (#HIV), выкидыши (#ihadamiscarriage), употребление табака (#Vapelife) и вирусные пандемии (#COVID-19) – вот некоторые из многих важных показателей здоровья, которые ранее изучались с помощью хэштегов в Twitter [20-28]. Другие платформы социальных сетей, такие как Reddit, содержат специальные тематические сообщества, в которых заинтересованные пользователи обсуждают определенную тему. В отличие от хэштегов, тематические сообщества на таких сайтах, как Reddit, представляют собой сообщения, относящиеся ровно к одной интересующей теме. Подобно хэштегам, эти сообщества, такие как сабреддиты r/cripplingalcoholism , r/depression , или r/opiates Reddit и бар HIV Baidu Tieba, содержат информацию, которая позволяет нацелиться на поведенческое здоровье и болезни и понять их [29-33]. В дополнение к хэштегам и сабреддитам, некоторые платформы социальных сетей позволяют ставить геотеги или указывать географические координаты широты и долготы пользователя в сообщении. Геотеги использовались в исследованиях социальных сетей для выявления географически релевантной информации из данных социальных сетей [34-36].

Предыдущая работа

Хотя в предыдущих исследованиях были определены конкретные хэштеги или тематические сообщества для изучения поведенческого здоровья, многие выводы зависят от конкретной платформы. Хотя полезная информация об интересующем поведении или тематическом сообществе может быть доступна на одной платформе, на другой такой информации может не быть. Многие предыдущие методы изучения алкогольного контента в социальных сетях используют данные с одной платформы [5,37-42]. Анализ на одной платформе может ограничить открытия и вмешательства только частью населения, подверженного риску. Растет потребность в том, чтобы исследователи поведенческого здоровья, работающие с данными социальных сетей, включали анализ из многих источников [43,44]. Хотя в некоторых исследованиях изучался алкогольный контент на нескольких платформах, для многих методов необходимы данные опроса известных активных пользователей из каждого источника или дополнительная ручная аннотация [45-47]. Способность и понимание, полученные при использовании методов глубокого обучения для обучения на большом количестве сообщений из конкретных сообществ (т.е. сабреддитов Reddit) для прогнозирования связанного с алкоголем контента на другой платформе (т.е. Twitter), остаются неясными.

Многие предыдущие исследования, в которых выявлялась связанная с алкоголем лексика на платформах социальных сетей, основывались на обучении на внешних метках, таких как ответы на опросы. Опора на данные самоотчета проблематична, поскольку употребление алкоголя подвержено предвзятости, особенно среди молодежи [15,16,48]. Кроме того, подходы, использующие интересующий результат для обучения и оценки модели (например, выявление и оценка хэштегов или ключевых слов, связанных с алкоголем, на основе обогащения в

Другие подходы к изучению содержания алкоголя предполагают идентификацию образца как связанного с алкоголем на основе определения ключевых слов. Подходы с использованием ключевых слов имеют определенные преимущества, такие как интерпретируемость. Однако идентификация текста по ключевым словам может опираться на стандартные и заранее определенные термины (например, поиск пьяного), обучение на данных самоотчетов или ручной анализ [37,42,49-51]. Классификация сообщений в социальных сетях на основе ранее определенных ключевых слов или векторных представлений (например, Word2vec) не так полезна, если средняя длина последовательностей мала и в них присутствует лексика, не поддающаяся обучению [52-54]. Обучение только на неспецифической информации о платформе может не улавливать релевантные ключевые слова, особенно для более редких исходов, не выделяющихся в неоднородности случайной и немаркированной болтовни в социальных сетях [55]. Кроме того, предопределенные ключевые слова или векторы слов могут не учесть сленг или различия в языковых структурах Reddit и Twitter [56].

Одним из недавних достижений в области обработки естественного языка (NLP) является нейронная сеть Bidirectional Encoder Representations From Transformers (BERT), которая продемонстрировала превосходную производительность при решении широкого спектра задач NLP в социальных сетях [57-61]. BERT фокусируется на обучении путем анализа предложений со случайно замаскированными словами. Эта модель языка с маской деконструирует большие строки на более мелкие лексемы и идеально подходит для работы с хэштегами и другими уникальными для платформы структурами лексем [57]. До разработки BERT предыдущие модели, такие как сети долговременной памяти, логистическая регрессия, сходство Word2vec и латентное распределение Дирихле, не очень хорошо подходили для обработки неизвестных слов и структур хэштегов. Например, некоторые предыдущие исследования NLP в социальных сетях либо удаляли хэштеги, либо представляли их как универсальные лексемы, либо удаляли # из строк, не придавая значения хэштегам (например, #ilovebeer представлялся как ” ” (пробел), HASHTAG , или ilovebeer , соответственно) [62-64]. В отличие от этого, использование хэштегов и тематических сообществ в качестве явных меток в архитектуре глубокого обучения позволяет выявлять релевантные, специфические для платформы хэштеги, которые могут идентифицировать посты, указывающие на интересующее поведение. Кроме того, использование этих структур добавляет слой интерпретируемости к нашим обученным нейронным сетям, которые обычно критикуются как неинтерпретируемые черные ящики [65].

Other previous social media text mining methods implementing deep learning often involve training platform-specific models. One issue with this approach is that each platform’s training models require an extensive amount of usually labeled data from that platform [66-72]. In addition, although deep learning models have been successful at many tasks, training platform-specific deep networks such as BERT (containing >100 миллионов параметров) является чрезвычайно энергоемким и затратным, а выбросы CO₂ при обучении моделей BERT вызывают озабоченность по поводу их воздействия на окружающую среду [73]. Оптимальные методы перевода информации из ранее обученных моделей глубокого обучения социальных сетей для извлечения информации из отдельных платформ социальных сетей остаются относительно неизученной областью исследований.

Цель данного исследования

Наша цель – изучить эффективность использования тематических структур в рамках глубокого обучения для выявления поведения, связанного с алкоголем, на различных платформах социальных сетей. Сначала мы обучились на подредитах Reddit определять связанные с алкоголем цели на другой социальной медиаплатформе (Twitter) с другой тематической структурой (хэштеги). Затем мы определили, коррелируют ли хэштеги, предсказанные моделью, с известными результатами, связанными с алкоголем, включая самоотчет о состоянии алкоголизма, плотность алкогольных точек и предполагаемые галлоны потребленного этанола, после контроля сбивающих эффектов возраста, пола, дохода, образования и самоотчета о расовой принадлежности. Мы показываем, что эти хэштеги, основанные на данных, содержат интерпретируемую информацию о потреблении алкоголя в США. Наконец, мы представляем проверенные и запрашиваемые хэштеги из нашей модели, которые исследователи поведенческого здоровья могут использовать в качестве отправной точки для выявления связанного с алкоголем контента в Twitter, Reddit и других социальных сетях.

Методы

Обзор конвейера НЛП

В данном исследовании нейронная сеть BERT была настроена как бинарный классификатор для предсказания принадлежности заголовков сообщений на Reddit либо к сообществам, связанным с алкоголем, либо к случайному субреду. Затем мы применили сеть, обученную на Reddit, к меньшему набору случайных, немаркированных сообщений в Twitter, чтобы определить 24 хэштега, которые были значительно связаны с содержанием алкоголя. Мы выявили 25 558 846 твитов, содержащих хотя бы один хэштег, связанный с алкоголем, за период с 2010 по 2019 год. В общей сложности 1 412 041 твит, связанный с алкоголем, содержал данные о широте и долготе, полученные с помощью геотегов. Местоположение 790 544 твитов с геотегами из 2929 округов США и эквивалентов округов было определено с помощью данных из базы данных Shapefiles переписи населения США 2017 года [74,75]. Наконец, мы изучили связь между распространенностью связанных с алкоголем твитов на население и различными показателями, связанными с потреблением алкоголя, включая самоотчеты о потреблении алкоголя и плотность точек продажи алкоголя. На рисунке 1 показан обзор нашего НЛП-конвейера. На рисунке 2 показана хороплетная диаграмма нормализованных по численности населения твитов с хэштегами об алкоголе для штатов США и Вашингтона, округ Колумбия.

Обзор методологического конвейера. Двунаправленное представление кодера из трансформаторов модели, обученной классифицировать сообщения как 18 субреддитов, связанных с алкоголем, или как контрольные субреддиты. Двунаправленное кодирующее представление из модели transformers было применено к набору твитов, содержащих хотя бы один хэштег. Результаты предсказания были проанализированы, чтобы найти 24 значительно обогащенных хэштега в качестве положительных предсказаний (т.е. вероятность предсказания ≥0,5). Твиты, опубликованные в период с 2010 по 2020 год с хэштегом, связанным с алкоголем, были собраны и отфильтрованы по геометке местоположения. BERT: двунаправленные кодирующие представления из трансформаторов.

Хороплет твитов штатов США и Вашингтона, округ Колумбия, с хэштегами, связанными с алкоголем, на 10 000 человек.

Набор данных Reddit и обучение BERT

Большой объем учебных данных, связанных с алкоголем, был извлечен из подредетов Reddit с помощью интерфейса прикладного программирования (API) pushshift, ранее использовавшегося в исследованиях социальных сетей [63,76]. Модераторы сообщества создают тексты описания подредактита, которые содержат ссылки на другие, обычно связанные с ним подредактиты. В результате анализа страниц описания всех субреддитов, содержащих не менее 1000 сообщений, на предмет наличия ссылок на r/drunk, один из самых популярных субреддитов, связанных с алкоголем, и всех ссылок с r/drunk на другие субреддиты было найдено 17 субреддитов, связанных с алкоголем. В общей сложности 651 271 заголовок сообщений из следующих 18 субреддитов были использованы в качестве положительных меток алкоголя для обучения модели: r/cripplingalcoholism , r/vodka , r/oldtimehockey , r/alcohol , r/beer , r/bourbon , r/homebrewing , r/drinkinggames , r/wine , r/beercirclejerk , r/gin , r/scotch , r/liquor , r/showerbeer , r/absinthe , r/firewater , r/beercanada , и r/drunk .

Негативные сообщения об алкоголе (контрольные) были получены путем запроса 651 271 случайного сообщения, размещенного во всех других субресурсах, исключая 18 субресурсов, связанных с алкоголем. Для разработки и оценки модели были созданы обучающие 79,99% (521,016/651,271), проверочные 9,99% (65,127/651,271) и тестовые 9,99% (65,127/651,271) наборы данных – бинарный классификатор, обученный для постов, принадлежащих либо к субреддитам, связанным с алкоголем, либо к другим случайным субреддитам. В течение примерно 5 недель в PyTorch на графическом процессоре NVIDIA TITAN Xp была проведена тонкая настройка предварительно обученной BERT-модели с 12 слоями и 768 скрытыми блоками, размер пакета составлял 64 единицы [77].

Набор данных Twitter и идентификация хэштегов

API Twitter предоставляет информацию о твитах за 7 дней до запроса. Случайно выбранные лексемы в словаре вкраплений слов Twitter GLoVE и соответствующие им хэштеги (т.е. строки, начинающиеся с # ) запрашивались с помощью API Twitter для выявления недавно опубликованных твитов, содержащих это слово или хэштег [78]. Каждый идентифицированный хэштег в наборе данных запрашивался, чтобы убедиться, что он отслеживался не менее 2 недель. Первоначальный случайный набор данных Twitter состоял из 843 769 случайных твитов, содержащих хэштег, опубликованных в период с января 2019 года по октябрь 2019 года. Обученная на Reddit модель BERT была применена к этому набору данных для получения бинарных прогнозов для каждого твита. Тест хи-квадрат выявил 24 значимых хэштега, связанных с алкоголем, в сообщениях, которые были признаны положительными (т.е. итоговое значение P прогноза слоя Softmax ≥0,5), по сравнению с сообщениями, которые были признаны отрицательными (т.е. итоговое значение P прогноза слоя Softmax ≥0,5).

Глубокое обучение для идентификации контента, связанного с алкоголем, в социальных сетях (Reddit и Twitter): Исследовательский анализ результатов, связанных с алкоголем

Бенджамин Джозеф Рикард

Саид Хассанпур

Аннотация

История вопроса

Цель

Методы

Результаты

Выводы

Введение

История вопроса

Предыдущая работа

Цель данного исследования

Методы

Обзор конвейера НЛП

Набор данных Reddit и обучение BERT

Набор данных Twitter и идентификация хэштегов

Похожие записи: