facebook al production что это

Нейросеть Facebook научилась копировать стиль текста с одного примера

facebook al production что это

Praveen Krishnan, et al. / Facebook AI, 2021

Разработчики из Facebook создали нейросеть, способную переносить визуальный стиль надписи на новый текст, используя лишь один пример. Статья опубликована на сайте исследовательского подразделения Facebook.

Любая надпись — неважно, это рукописная открытка, вывеска на магазине или название бренда на пачке еды, — состоит из двух частей: собственно текста, то есть смысловой составляющей, и визуального стиля. Люди могут с той или иной точностью, в зависимости от навыков рисования, копировать стиль написания текста и рисовать в этом стиле новые надписи. Алгоритмы для переноса стиля между изображениями существуют давно, но в основном они работают с рисунками. Исследователи также занимаются проблемой переноса текста, но пока с меньшим успехом: алгоритмам требуется длительное обучение конкретному стилю.

Правин Кришнан (Praveen Krishnan) и его коллеги из исследовательского подразделения Facebook создали алгоритм переноса стиля текста, которому достаточно лишь одного примера целевого стиля. Он состоит из нескольких нейросетей. На первом этапе все данные подаются на два кодировщика: для контента (текста) и стиля. Кодировщик контента принимает текстовую строку, которая преобразуется в изображение с этим же текстом, набранным шрифтом Verily Serif Mono на белом фоне. А на кодировщик стиля подается изображение целевого стиля с выделенной на нем надписью.

facebook al production что это

Схема работы алгоритма

Praveen Krishnan, et al. / Facebook AI, 2021

Для лучшей передачи всех отличительных особенностей стиля разработчики разместили между кодировщиком стиля и генератором еще одну нейросеть, которая кодирует различные аспекты стиля и передает их на отдельные слои генератора. В результате алгоритм хорошо передает на сгенерированном изображении с новым текстом низкоуровневые и высокоуровневые особенности визуального стиля исходного текста.

Поскольку существует практически бесчисленное множество стилей надписей, разработчики использовали подход с самообучением алгоритма без размеченных данных. Для этого они применили при обучении несколько функций потерь, контролирующих перенос как стиля, так и контента. Также разработчики создали свой датасет рукописного текста Imgur5K. Они отобрали пять тысяч публично доступных изображений английского рукописного текста с сервиса Imgur и выделили из них 135 тысяч слов. Также авторы использовали и уже существующие датасеты ICDAR 2013, ICDAR 2015, TextVQA и IAM Handwriting Database, а кроме того, создали синтетические изображения с текстом, наложенным на изображения.

facebook al production что это

Примеры переноса стиля

Praveen Krishnan, et al. / Facebook AI, 2021

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *