Учёные создали программу, помогающую понять, какая книга станет бестселлером
Проект Fabula-Net стартовал в январе 2021 года. Это нейронная сеть для автоматического оценивания художественной литературы. Компьютерный алгоритм учится опознавать структуры успешных текстов и на их основе прогнозирует возможный успех пока не опубликованной книги, сообщает Bookmate Journal.
По мнению разработчиков, этот алгоритм может использоваться как в коммерческих целях, так и в личных.
«Например, для редактора было бы интересно найти способ сделать процент положительных отзывов выше — вероятно, при высоких оценках люди действительно купят книгу. Эта связь, конечно, не прямая, но все же может сработать. Еще эту систему можно использовать для оценки собственного письма. Компьютер расскажет вам, насколько согласованно или предсказуемо у вас выстроено повествование и насколько ваш текст по структуре близок, например, к текстам Джейн Остин, — если вы хотите писать как она», — цитирует издание Мадса Томсена.
По его словам, похожие исследования уже проводились: обычно ученые смотрят на словарный состав текста, на его стилистические особенности. Затем эти данные сравнивают с отзывами читателей или с цифрами продаж.
«Правда, последние обычно трудно получить, поэтому вместо них используют библиотечную статистику. В подобной раскладке результаты получаются не слишком удивительными — такие бестселлеры, как «Гарри Поттер» или «Пятьдесят оттенков серого», всегда получают статус успешных. Но если вы интересуетесь литературой более глубоко, вы скажете: «Ну, знаете, должно быть что-то большее, ведь очевидно: то, что считается классикой — не обязательно бестселлер», — говорит Томсен.
Профессор компаративистики в Орхусском университете Мадс Томсен и директор центра цифровых гуманитарных исследований в том же университете Кристофер Ниелбо |
Признаки хорошего текста
В разработке алгоритма используются данные о тиражах книги, пол и возраст читателей, отзывы, рецензии. Однако самое главное — анализ самого текста. Именно в этом и есть новизна исследования: посмотреть на содержание книги с точки зрения читателя. Но как это сделать? Какие факторы текста влияют на восприятие книги?
Исследователи отмечают, что больше всего здесь важна динамика развития сюжета, и поэтому программа высчитывает следующие критерии: эмоциональная тональность сюжетной арки (story arc; в литературоведении сюжетной аркой называется дуга развития всего повествования), динамика развития эмоций в тексте (dynamic evolution of sentiment), а также уровень согласованности повествования (narrative coherence).
Что касается эмоциональной тональности, например, в трагедии у сюжетной арки будет негативный тренд, а в комедии — положительный. Если представить произведение в виде графика, в случае трагедии он будет опускаться ниже нейтральной тональности, а в случае комедии — стремиться вверх. Изучив под лупой общий график сюжетной арки, можно проследить и более детальную динамику развития эмоций в тексте: как чередуются накаленные эпизоды и спокойные, насколько часто и как именно положительный тренд уступает место негативному, в каких эпизодах текста появляется новое эмоциональное состояние. То, как устроены в произведении эти «эмоциональные качели», говорит и о том, насколько согласованы разные части текста, — а это, в свою очередь, неосознанно формирует у читателя определенное настроение, мотивирует его (или нет) читать текст дальше.
К уровню согласованности имеет отношение и еще один фактор. История, в которой действия и герои повторяются от эпизода к эпизоду, будет слишком предсказуемой и, соответственно, скучной для читателя. В свою очередь, очень сложный текст, в котором проблематично уследить за развитием сюжета, можно будет назвать несогласованным или непоследовательным — в результате произведение может даже восприниматься читателем как сборник разных, не связанных друг с другом историй. В первом случае ему станет неинтересно, потому что он уже неоднократно встречал один и тот же рисунок; во втором случае текст будет для читателя абсолютно непрозрачным и он потеряет мотивацию читать дальше.
«Таким образом, мы говорим о чтении литературы в какой-то степени с точки зрения психологии», — рассуждает Мадс Томсен.
Он продолжает: «Мы считаем, что есть оптимальный показатель согласованности, при котором произведение не будет восприниматься ни слишком предсказуемым, ни слишком сложным — и этот показатель зависит от того, как распределены и как развиваются наиболее эмоционально заряженные эпизоды в тексте, какова их структура. Произведение с оптимальным уровнем согласованности вы, скорее всего, прочтете до конца».
Как это посчитать на компьютере
В лингвистике существует анализ тональности (sentiment analysis), в котором компьютер идентифицирует эмоциональную заряженность текста. Датские учёные берут какое-либо произведение и производят поиск эмоционально окрашенных слов по заранее составленным тональным словарям. В таких словарях у каждого слова есть свое значение тональности — чем негативнее слово, тем ниже тональность. Например, слово «трагедия» в одном из словарей обладает тональностью –3,4, а слово «обрадованный» — 2.
Несколько примеров из эмоционального словаря, где у каждого слова есть свое значение эмоциональной тональности. Фото: David Oti / Medium |
При объединении всех получившихся показателей получается кривая, которая показывает, как меняется эмоциональная тональность по ходу текста. Это и будет визуально выраженная сюжетная арка произведения. Например, вот так она выглядит в романе Кадзуо Исигуро «Не отпускай меня». На графике показатели от –1 до 1 — это тональность, а от 0 до 5 000 — сегменты, на которые разделен текст. Обе кривые показывают одно и то же, просто для красной кривой текст был разделен на большее количество мелких фрагментов.
На графике показано, как происходят эмоциональные спады и подъемы в романе Кадзуо Исигуро «Не отпускай меня» Фото: Researchgate.net |
С помощью дополнительного разбора полученной кривой можно вычислить динамику развития эмоций (в каких именно фрагментах меняется эмоциональная заряженность), а также уровень согласованности фрагментов в целом — насколько последовательно разворачивается накаленный эпизод. Оба расчета можно представить в виде графика в двумерном пространстве — и вот, например, один из них. В том же романе Исигуро следующим образом выглядит кривая, на которой можно проследить ключевые точки изменения эмоциональной заряженности.
Более детальный анализ романа «Не отпускай меня»: точки перелома показывают места, где меняется эмоциональная заряженность текста. Фото: Researchgate.net |
Обозначенные здесь наименьшие точки-показатели — a, b, c и так далее — указывают, где в тексте меняется настроение повествования. Например, точка a соответствует размышлениям Кэти о событиях в Хейлшеме, после чего развивается новое эмоциональное состояние, достигающее кульминации в точке b — самой интригующей части произведения: тут мисс Люси рассказывает студентам об их истинном предназначении: они клоны, их судьба — отдавать органы другим. Согласованность текста выражается в числовом показателе — в нем учитывается, как долго та или иная эмоция развивается в тексте, как резко она прерывается или, наоборот, мягко заменяется другой.
Эти данные о структуре произведения (эмоциональная тональность сюжетной арки; динамика развития эмоций в тексте; уровень согласованности) объединяются и сопоставляются с данными о тиражах, демографическими данными и рецензиями в медиа. Так программа обучается на успешных текстах, и, когда вы загружаете в нее свой текст, вы можете узнать, насколько ваше произведение им соответствует и может ли стать таким же успешным.
Примеры некоторых успешных текстов
По словам учёных, пока они в основном работали над датскими текстами.
«Например, занимались произведениями Ганса Христиана Андерсена. Его часто хвалят за то, что он очень изобретателен и придумывает исключительные истории и персонажей. Но самое любопытное — мы обнаружили, что он умудряется нащупать своего рода зону обитаемости (в астрономии так называется зона вокруг звезды, в которой температура подходит для существования на ней воды), и читатель не может сказать, слишком ли текст предсказуем или нет», — говорит Мадс Томсен.
Он добавляет: «Еще мы сгенерировали модель успешности по некоторым другим текстам, которые входят в общепризнанный канон и есть в оцифрованном виде — например, по «Гарри Поттеру» и по произведениям Джейн Остин. В 2020 году, еще до запуска всего проекта, мы опубликовали статью, объясняющую успех уже упомянутого романа Кадзуо Исигуро «Не отпускай меня». Основной сюжет этой книги в целом не сложен, но это роман «большой эмоциональной силы», как было прокомментировано Шведской академией при вручении Нобелевской премии, «эмоциональные качели» в этом тексте довольно мощные — и в то же время текст выстроен достаточно согласованно. То есть, например, непринужденность, с которой Кэти Х., главная героиня, описывает использование клонов в качестве запасных частей, резко контрастирует с тем, как воспринимают эту систему читатели (читателей это будет возмущать, это будет казаться им несправедливым), — и это будет источником сильной эмоциональной вовлеченности в текст.
Фото: Eksmo.ru |
Вопросы этики
Специалисты отмечают, что сейчас у данного подхода есть одна сложность. Компьютер может высчитать, насколько определенный текст соответствует модели успешных произведений, но делает это в целом, совокупно. То есть пока нейронная сеть дает общий коэффициент успешности конкретного текста, но не может сказать, какой именно фактор сыграл в ее оценке большую роль — стилистические особенности, уровень предсказуемости, демография или что-то еще.
Программа работает так: она выдает вам общую вероятность успешности текста — например, она будет составлять 75%. Далее пользователь может включить или выключить разные параметры и получить предполагаемый уровень успеха с точки зрения именно тех факторов, которые его интересуют, — будет ли текст успешным в обзорах литературных критиков или исключительно в рецензиях читателей в интернет-сообществах. Проведение таких подэкспериментов — единственно верный способ узнать влияние интересующего вас критерия. Так, можно узнать, насколько мог зависеть или зависит сейчас успех текста от того, что его автор — белый мужчина.
«Это исследование, естественно, идет бок о бок с этическими вопросами, потому что такая система действительно может повлиять на наши решения: переписать роман, как-то его переделать. Возможности применения этой технологии обширны: ее можно использовать для прогнозирования успеха текста, исследователи могут пользоваться ей для интерпретации больших массивов данных. Мы знаем об этих этических сложностях, но, по крайней мере, стараемся быть открытыми, и решения, преподносимые компьютером, делаем максимально понятными для пользователя», — заключает Мадс Томсен.