facebook al production что это
Нейросеть Facebook научилась копировать стиль текста с одного примера
Praveen Krishnan, et al. / Facebook AI, 2021
Разработчики из Facebook создали нейросеть, способную переносить визуальный стиль надписи на новый текст, используя лишь один пример. Статья опубликована на сайте исследовательского подразделения Facebook.
Любая надпись — неважно, это рукописная открытка, вывеска на магазине или название бренда на пачке еды, — состоит из двух частей: собственно текста, то есть смысловой составляющей, и визуального стиля. Люди могут с той или иной точностью, в зависимости от навыков рисования, копировать стиль написания текста и рисовать в этом стиле новые надписи. Алгоритмы для переноса стиля между изображениями существуют давно, но в основном они работают с рисунками. Исследователи также занимаются проблемой переноса текста, но пока с меньшим успехом: алгоритмам требуется длительное обучение конкретному стилю.
Правин Кришнан (Praveen Krishnan) и его коллеги из исследовательского подразделения Facebook создали алгоритм переноса стиля текста, которому достаточно лишь одного примера целевого стиля. Он состоит из нескольких нейросетей. На первом этапе все данные подаются на два кодировщика: для контента (текста) и стиля. Кодировщик контента принимает текстовую строку, которая преобразуется в изображение с этим же текстом, набранным шрифтом Verily Serif Mono на белом фоне. А на кодировщик стиля подается изображение целевого стиля с выделенной на нем надписью.
Схема работы алгоритма
Praveen Krishnan, et al. / Facebook AI, 2021
Для лучшей передачи всех отличительных особенностей стиля разработчики разместили между кодировщиком стиля и генератором еще одну нейросеть, которая кодирует различные аспекты стиля и передает их на отдельные слои генератора. В результате алгоритм хорошо передает на сгенерированном изображении с новым текстом низкоуровневые и высокоуровневые особенности визуального стиля исходного текста.
Поскольку существует практически бесчисленное множество стилей надписей, разработчики использовали подход с самообучением алгоритма без размеченных данных. Для этого они применили при обучении несколько функций потерь, контролирующих перенос как стиля, так и контента. Также разработчики создали свой датасет рукописного текста Imgur5K. Они отобрали пять тысяч публично доступных изображений английского рукописного текста с сервиса Imgur и выделили из них 135 тысяч слов. Также авторы использовали и уже существующие датасеты ICDAR 2013, ICDAR 2015, TextVQA и IAM Handwriting Database, а кроме того, создали синтетические изображения с текстом, наложенным на изображения.
Примеры переноса стиля
Praveen Krishnan, et al. / Facebook AI, 2021