новость Программа, способная определять пол автора текста, расшифровывает любителей псевдонимов

21.07.2003
Иллюстрация с сайта www.msnbc.com

Иллюстрация с сайта www.msnbc.com

Новая компьютерная программа может распознать, кем была написана книга - мужчиной или женщиной. Простой анализ ключевых слов и синтаксиса позволяет делать заключения с 80-процентной точностью, причем метод срабатывает и тогда, когда программу "кормят" беллетристикой, и тогда, когда речь идет о нехудожественной литературе.

Успех программы, кажется, подтверждает широко распространенное убеждение, что существуют серьезные различия в том, как пользуются языком женщины и мужчины. Грубо говоря, мужчины чаще ведут речь об объектах, а женщины - об отношениях между объектами.

Исследование проводилось, собственно, на книгах, написанных по-английски. Разработчики программы - Моше Коппель из Университета Бар-Илан в Рамат-Гане (Израиль) и его коллеги. Доказано, что авторы-женщины используют больше местоимений (I, you, she, their, myself - я, ты, она, их). Мужчины же предпочитают слова, которые идентифицируют или определяют существительные, артикли (a, the, that - это) и слова, которые определяют количество, числительные (one, two, more - один, два, больше). То есть мужчины склонны "категоризировать", а женщины - персонализировать. Эти два резко различающихся между собой стиля исследователи пока условно назвали, соответственно, "информационным" ('informational') и "вовлеченным" ('involved').

Коппель и его коллеги проверили работу своего алгоритма в серии тестов. Задача состояла в том, чтобы правильно распознать самые характерные признаки пола авторов и различить образцы художественной и научной литературы. Они пропустили через машину 566 англоязычных работ самых разнообразных жанров, начиная от "Путеводителя по Праге" и заканчивая романом Антонии Бьятт (A.S.Byatt) "Одержимость" (или "Обладание" - Possession, - по этому роману, написанному в 1990 году, в 2002-м был снят одноименный американский фильм, известный и русскому зрителю). Причем нужно заметить, что в случае с "Одержимостью" программа как раз ошиблась, точно так же, как и с романом "Остаток дня" (The Remains of the Day) японца по происхождению и англичанина по языку и гражданству Кадзуо Исигуро. Это обстоятельство специалисты называют "интригующим".

Поразительно, что различия между авторами-мужчинами и авторами-женщинами оказались почти столь же существенными, как и те, что позволяют отличить научную литературу от беллетристики. Программа может дифференцировать эти два жанра с 98-процентной точностью. Впрочем, это обстоятельство как раз не вызывает удивления: научная литература носит явно более информационный характер, а художественная - более "вовлеченная". Даже автоматические переводчики способны в большинстве случаев правильно определять "шаблон" тематики и подключать в зависимости от этого те или иные словари.

Однако большинство текстов, послуживших объектом этого исследования, были изданы после 1975 года. Израильские ученые теперь намереваются выяснить, можно ли распространить полученные результаты на более ранние времена. Таким образом появится шанс приоткрыть завесу тайны над некоторыми псевдонимами или проверить литературоведческие гипотезы. И, возможно, английская писательница Мэри Энн Эванс, писавшая под мужским псевдонимом "Джордж Элиот" (George Eliot), напрасно тратила время на маскировку. Другой интересный вопрос - можно ли наблюдать подобный эффект в случае других языков, например, русского. И насколько удалось "вжиться в образ" создателям наших виртуальных Мэри Шелли, Макса Фрая и Кати Деткиной.

Источники:
Computer program detects author gender - Nature

21.07.2003


новость Новости по теме