На первом этапе автор блога выяснил частоту, с которой встречаются различные слова в выборке из 222 623 песен 7634 исполнителей. Как отмечает исследователь, исключив стоп-слова (артикли, предлоги, вспомогательные глаголы), среди часто встречающихся слов оказались time («время»), life («жизнь»). Близкими по частоте оказались и более выразительные для heavy metal слова blood («кровь»), pain(«боль») и night («ночь»).
Исследователь попытался выделить наиболее «металичные» слова — характерные для heavy metal и менее характерные для повседневного использования. Для этого необходимо было ввести коэффициент «металичности». Автор сравнил частотное распределение слов в песнях и в Brown Corpus, собрании из 500 текстов (около миллиона слов), датированных 1960 годом. Для каждого слова вычислялась величина того, во сколько раз чаще (реже) оно встречается в лирике heavy metal, а сам коэффициент представлял собой логарифм этой величины.
Самые «металичные» слова
Degenerate State
Наименее «металичными» оказались слова particularly(«особенно»), indicated («указали»), secretary («секретарь»), committee(«комитет»), university («университет») и relatively («относительно»). Кроме того автор отметил, что больше всего сквернословия в песнях Five Finger Death Punch, а самые сложные для прочтения тексты у Pig Destroyer.
Следующим шагом в исследовании был анализ слов, типичных для конкретных heavy metal групп. Блогер выбрал в качестве примера произведения групп Motorhead, Machinehead и Diamondhead. Типичность слова для группы определялась следующим образом. Исследователь определял частоту использования данного слова в текстах всех трех групп и в текстах каждой из групп по отдельности. Затем к логарифму отношения этих величин добавлялась еще одна переменная, характерная для данной группы (основанная на частоте использования других слов, кроме выбранного). Так автор определил, что в произведениях Motorhead часто встречаются слова ain't, gonna иknow, Machinehead — pain, inside и strength, Diamondhead — oh, yeah, baby.
Наиболее характерные слова для группы Motorhead в сравнении с Machinehead и Diamondhead
Degenerate State
С помощью новой метрики исследователь построил иерархическую кластеризацию групп. Для этого сначала автор предположил, что все группы независимы между собой. Затем, на основе частоты использования различных слов, ученый вычислил «расстояния» между группами. На следующем этапе группы, «расстояния» между которыми невелики, объединялись в кластер. Потом те же расчеты повторялись для кластеров — возник иерархический граф по типу филогенетического дерева.
Фрагмент иерархического дерева близости heavy-metal групп по текстам
Комментарии:
Авторизуйтесь, чтобы оставить отзыв