Российские учёные научили нейросеть «читать» рукописные буквы русского алфавита
С развитием it-технологий растёт важность быстрого и качественного преобразования рукописного текста в цифровую печатную версию, чтобы было удобнее копировать, редактировать или извлекать из него данные. Очевидно, что первой ступенью в этом процессе станет распознавание букв русского алфавита, написанных от руки. Учёные СФУ разработали новую свёрточную нейросеть (CNN), способную с высокой точностью распознавать изображения рукописных букв. Полученный алгоритм преобразует изображение и «узнаёт» букву, зашифрованную в нём. По словам учёных, точность классификации составляет 99 %.
На сегодняшний день 2,4 % населения в мире говорят по-русски. Сложность распознавания текста, написанного кириллицей от руки, достаточно велика — в особенности, для людей, не знакомых с русским алфавитом. В Интернете распространены сервисы, которые можно использовать для распознавания и преобразования текста любого типа, как цифрового, так и рукописного.
, — отметил соавтор исследования, студент Института информационных и космических технологий СФУ Андрей Левков.
«Самой, пожалуй, интересной особенностью рукописного русского текста является индивидуальный стиль написания букв — то, что мы называем почерком. Стили написания имеют свойство меняться со временем, достаточно сравнить каллиграфические строчки в тетрадях-прописях поколения 70—80-х годов и то, как пишут современные школьники. Даже у одного человека почерк меняется в течение жизни. Целью нашего исследования было распознавание рукописного текста на русском языке нейросетью с использованием моделей глубокого обучения (DL). Насколько нам известно, это первая в мире работа такого рода»
Для достижения цели учёные предприняли ряд шагов. Построили новый набор данных с помеченным изображением в разрешении 32×32 пикселя для 33 букв российского алфавита. Разработали новую архитектуру CNN для проблемы обнаружения рукописных букв российского алфавита и сравнили её с уже существующими мощными моделями CNN. Кроме того, красноярские и петербургские эксперты представили полное описание используемой свёрточной нейросети и исходного кода, чтобы другие исследователи могли воспроизвести эти данные для обнаружения рукописных букв российского алфавита. Для программирования был выбран язык Python и интерактивная среда разработки Jupyter.
Обучение нейросети проводилось с помощью предварительно обработанных данных хранилища CoMNIST — это известная база данных, содержащая образцы рукописного написания букв на латинице и кириллице. Набор данных в базе состоит из 4-полосных изображений с разрешением 278×278 пикселей в формате .png.
.
«Набор данных содержит 13 299 фотографий, каждая из которых находится в отдельной папке.— рассказала руководитель исследования, доцент кафедры систем искусственного интеллекта СФУ Анастасия СафоноваПапки, в свою очередь, относится к определенному классу. Таких классов в наборе 33, и каждый соответствует букве российского алфавита. Для каждого класса существует от 300 до 500 изображений. На этих изображениях зафиксированы прописные, печатные и написанные курсивом буквы. И вот приблизительно на 85% этих снимков нейронная сеть (CNN) училась распознавать буквы русского алфавита, а ещё на 15% шла проверка усвоенных «знаний»,
Созданный учёными новый уникальный набор данных (изображений) нужен был, чтобы провести независимую проверку разработанной модели. На каждой фотографии была представлена только одна буква в печатном или письменном виде. Набор содержит от 5 до 10 изображений для каждого класса. Чтобы увеличить набор данных и их вариативность, учёные применяли разные функции преобразования изображений — вращали изображения вправо и влево, применяли распределение Гаусса и т. д. В результате эксперты получили 79 794 изображений, на 67 825 из которых нейросеть могла учиться, а 13 084 служили для проверки.
«Мы сравнили разработанную нашим коллективом модель с наиболее мощными моделями CNN, например, с VGG-16, VGG-19, Xcept, Resnet-101, Mobilenet-V2 и другими. Оказалось, что точность нашей модели во время обучения составляла до 99 %, всё обучение заняло 3 часа. Точность прогнозирования модели составила до 95,83 %. В целом наша модель уступила лишь одной альтернативной — VGG-16, которая продемонстрировала до 99 % точности, самая низкая точность свойственна моделям Xception и Inception-V3»,— подчеркнула Анастасия Сафонова.
Подводя итоги, учёные сообщили, что созданная ими модель нейросети не является окончательной и может быть улучшена в будущем — вероятно, её архитектура будет меняться, чтобы увеличить точность классификации. Также эксперты планируют обучать свою модель для распознавания русского рукописного текста на новом наборе данных и знакомить её с различными стилями письма.
Сообщается, что на основании проделанной работы была зарегистрирована уникальная программа ЭВМ, правообладателем которой выступил Сибирский федеральный университет.
Славяно-русские рукописные книги | НЭБ Книжные памятники
#1Рукописные книги, написанные с помощью одной из двух славянских азбук, появились на Руси еще в древности, однако из-за пожаров, стихийных бедствий и войн их сохранилось немного. Самые ранние рукописи, дошедшие до нашего времени и хранящиеся с особой бережностью в разных библиотеках и музеях, датируются XI–XII веками.
Первая азбука, изобретённая святыми равноапостольными Кириллом и Мефодием, называется глаголицей. Древнерусские глаголические книги не сохранились, но в российских библиотеках хранятся написанные глаголицей книги западных и южных славян (Мариинское и Зографское Евангелия и другие). Великие просветители разработали и кириллицу, но закончили труд их ученики, прежде всего святой равноапостольный Климент Охридский.
#3
По содержанию русские рукописные книги весьма разнообразны и нередко очень сложны. Уже в самый ранний период (XI–XIII вв.) наряду с христианскими церковно-богослужебными текстами составлялись и переписывались сочинения исторического, литературно-публицистического, правового и естественнонаучного характера.
#4
Специалисты определяют рукопись как написанный от руки цельный текст (или его отрывок) одного или нескольких произведений. Рукописная книга имеет (или первоначально имела) вид кодекса. Если такая книга содержит разные тексты, написанные более или менее одновременно и подряд, ее называют сборником. Но бывают и рукописные книги, составленные из первоначально существовавших самостоятельно книг (а также отдельных тетрадей или даже листов), написанных в разное время. Их называют конволютами.
#5
Чтобы создать книгу, требовались усилия многих мастеров. Прежде всего нужны были материалы для письма: пергамен, бумага или, в редких случаях, береста.
Пергамен, или пергамент, делался из специально выделанных шкур животных.
#6
Бумагу для русских книжников привозили из-за границы. Самая старая бумага, на которой написаны тексты русских книг, поступала из Италии (XIV — нач. XV), а затем из Франции, Германии и Польши (XV–XVI вв.). Бумага собственного производства появилась в России в начале XVIII века.
Для письма использовали еще один материал — бересту. На ней писали письма-грамоты, деловую документацию и, в редких случаях, книги учебного содержания.
#7
Писцам, работа которых была единственным способом распространения книг до изобретения книгопечатания, требовались перья и чернила. Чаще всего на Руси писали гусиными перьями, которые проходили специальную обработку. Перо 10–15 минут вываривалось в щёлочи для обезжиривания, затем обжигалось и закаливалось в горячем песке при температуре 60–65°С. После чего кончик пера можно было очинить перочинным ножом.
#8
Обычные чернила были коричневыми, их изготавливали из дубовых орешков с добавлением сажи, гвоздей или других кусочков железа. Ярко-красной краской —киноварью — писали заголовки и начинали самые важные части текста (отсюда — сохранившееся до сих пор выражение «начинать с красной строки»). Книгу украшали инициалами (заглавными буквами), заставками, орнаментами, вязью (орнаментом из букв), миниатюрами. Для этого использовали черные и красные чернила, разные краски, а также золото.
#9
В зависимости от времени и цели создания книги отличался и вид письма. На Руси традиционно использовали устав, полуустав и скоропись.
Устав — торжественное письмо, применявшееся на Руси в XI–XIV вв. Для него характерны геометрически правильное написание букв, отсутствие разделения текста на слова, небольшое количество строчных и надстрочных знаков, а также сокращений слов под титлами. Полуустав появляется с конца XIV века и характеризуется тем, что буквы в нём пишутся свободнее. Их горизонтальные и вертикальные линии хотя и не отличаются правильностью начертаний, но в то же время не производят впечатление небрежности.
#10
Когда книга была написана и украшена, её переплетали. Чаще всего сброшюрованный блок книги помещали между двух деревянных досок, скрепляли их, а затем доски и корешок покрывали кожей или, реже, тканью: парчой, камкой или бархатом. Кожаные переплеты часто украшали горячим тиснением при помощи орнаментированных штампов. Также были популярны декоративные обрезы, корешки, средники и уголки. А переплёты самых дорогих и ценных книг могли быть помещены в оклады из драгоценных металлов, украшенные самоцветами, гравировкой и т. д.
Читать аннотацию полностью
Радзивиловская летопись
XV в.
Литературно-публицистический сборник
90-е годы XVII в.
Послание Андрея Ивановича Крылова Луке Гавриловичу
22 август 1784 г.
Память преподобных Петра Агрусского и Феодосия Печерского
конец XII – начало XIII в.
Иконописный подлинник Антониево-Сийского монастыря
XVII в
Книга глаголемая Вертоград Прохладный
Вторая половина XVIII в
Евангелие Исаака Бирева
1531
Елизаветградское Eвангелие
Конец XVI – начало XVII в.
Книга Большому Чертежу
1699
Евангелие учительное
Середина XVI в.
Пчела или собрание стихов
Конец XVII — начало XVIII в.
Апокалипсис с толкованиями Андрея Кесарийского
1799
Святцы
Вторая половина XVIII в.
Житие св. Алексея, митрополита Киевского
Первая половина XVII в.
Сборник агиографический
Вторая половина XVII в.
Книга о Сивиллах
1673
Псалтирь лицевая Д. И. Годунова
1594
Книги Ветхого Завета
1492
Кормчая
1493
Сборник
Вторая половина XV в.
Толкование на Апокалипсис
Не позднее 1493
Торжественник триодный
1493
Житие Николая Чудотворца, лицевое
1560-1570-е
Лествица
1640
Сборник слов и поучений
1076
Симоновское Евангелие
1270
Псалтырь
Первая половина XIV в.
Лекции русским морякам в Перасте 1697-1698
1697-1706
Евангелие Хитрово
Около 1400
Устав игумена Филиппа об одежде
1553
Повесть о Тверском Отроче монастыре
Вторая половина XVIII в.
Устав церковный иерусалимский
1494
Пантелеймоново Евангелие
XII — начало XIII (?) в.
Угличская Псалтырь
1485
Номоканон
1305
Христианская топография
Первая половина XVI в.
Синодик
Конец XVII — начало XVIII в.
Житие св. Алексея, митрополита Киевского
Первая половина XVII в.
Пчела
Последняя треть XVII в.
Патерик Киево-Печерский
1406
Книга избранная вкратце о девяти музах и семи свободных художествах
Конец XVII в.
Азбуковник
1650-е
Апокалипсис
XVI в.
Великие Минеи Четьи. Сентябрь
1529-1541
Псалтырь
1397
Житие св. Зосимы и Савватия Соловецких
1820-е
Житие св. Елеазара Анзерского
Начало XIX в.
Повесть о Соловецком восстании
XIX в.
Повесть о Соловецком восстании
Конец XIX — начало XX в. (?)
Сборник литературный
Около 1838
Повести о пустынножителях Соловецкого острова
1820-е
Сборник житий, патериковых повестей и поучений
XVIII в.
Христианская топография
XVI в.
Праздники в доме православного царя русского
1850
Сборник сочинений протопопа Аввакума
Начало XIX в.
Сборник старообрядческих сочинений с подписями — автографами протопопа Аввакума и его пустозерских соузников
Третья четверть XVII в.
Шестоднев Иоанна экзарха Болгарского. Христианская топография Космы Индикоплова
Конец XVI — начало XVII в.
Беседы Григория, папы Римского (Двоеслова)
XV в.
Сборник старообрядческий
XVIII–XIX в.
Поморские ответы
Вторая половина XVIII в.
Диоптра Филиппа Пустынника
1788
Апостол
Первая половина XVII в.
Сборник исторический
Вторая половина XVII в.
Палея толковая
XIV в.
Сборник
Середина XVII в.
Софийская I летопись младшей редакции
70-е годы XV в., с дополнением XVII в.
Пролог. Сентябрь — февраль
XII/XIII в. и XV/XVI в.
Толкование на Псалтирь. Ч. 1
Первая треть XVII в.
Сборник певческий нотированный
1677–1679
Патерик азбучный
Первая половина XVII в.
Хрисмологион
1673
Сочинения
Вторая половина XVI в.
Требник
1504
Минея служебная. Октябрь
1370
Сборник слов и поучений
Конец XIV в.
Евангелие апракос полный
1463
Евангелие тетр
Вторая половина XIV в.
Беседы на Евангелие
Конец XIV – начало XV в.
Евангелие тетр
Начало XVI в.
Евангелие апракос полный
1393
Триодь постная и цветная с евангельскими стихирами на крюковой ноте
70-е – 80-е годы XVII в.
Хлебниковский список Ипатьевской летописи
XVI в.
Евангелие апракос полный
Конец XII – начало XIII в.
Евангелие от Иоанна
1850-е – начало 1860
Псалтирь
XIII в.
Торжественник триодный
1600
Слова
XI в.
Апостол апракос полный
Конец? XII в.
Евангелие тетр
1389–1425
Мерило праведное
Конец XIV в.
Златая цепь
Конец XIV — начало XV в.
Мариинское Евангелие
Начало XI в.
Житие преподобного Никиты Столпника Переславского
Начало XVIII в
Сказание об иконе Богоматери Одигитрии Тихвинской
30–40-е гг. XVIII в.
Руководство к геральдике, то есть наука о гербах
Начало 1790-х гг.
Родословная Российской императорской фамилии
1801
Старообрядческий сборник
Вторая половина XIX в
Житие св. Гермогена Киренского и Албазинского
1858
Сборник певческий нотированный
XVI в.
Пролог, декабрь–февраль
посл. четв. XVI в.
Минея служебная, ноябрь
Вторая четверть XVI в.
Лествица
1520—1530
типографика — Шрифт против Рукописного
Что касается разницы между письменной и печатной формой букв, то вот мой личный опыт:
Когда я изучал английский почерк мне маленькие буквы k (похоже на маленькую R), r (пишется назад), s (выглядит как треугольник), z (внезапно появляется петля под чертой) и заглавная G (выглядит как Y), I (выглядит как Я), Q (огромная 2), S (большой треугольник), Z (совсем не похожий на Z) выглядел совершенно иначе, чем их печатные аналоги. Может быть, это потому, что они «оптимизированы» для быстрой записи.
Кроме того, похоже, что со временем печатные буквы могут меняться, а рукописные остаются почти такими же. Например, в этом ответе о букве Л видно, что ее современная форма стала популярной в 1840 году, тогда как до этого печатная и рукописная Л имела аналогичную «углообразную» форму, похожую на греческую Λ.
Другой вопрос был о разнице между печатным т и рукописным т . И разница, похоже, тоже имеет исторические корни — обе буквы имели почти одинаковую форму до петровской реформы 1708 года. Итак, похоже, почерк более консервативен, чем печатный шрифт.
Теперь об использовании рукописного ввода. Это называется курсивным письмом. Согласно Википедии:
Скоропись, также известная как письмо, слитное письмо, совместное письмо, беглое письмо или почерк, представляет собой любой стиль письма, в котором символы языка написаны соединенным и/или плавным образом, как правило, с целью создания писать быстрее.
В персидском, арабском, латинице и кириллице многие или все буквы в слове связаны, иногда образуя слово одним сложным штрихом.
Итак, до изобретения пишущей машинки в 1860 году это был единственный способ составить документ. Но и после этого скоропись использовалась в личной переписке.
В СССР только официальные учреждения и фирмы (и профессиональные писатели) печатали свои документы на пишущих машинках, но даже для составления длинного документа его можно было сначала подготовить вручную, а затем отправить в «машбюро» типографию. Все просьбы (например, об отпуске и т.п.) были написаны от руки и никогда не печатались (это требование иногда можно выполнить и сегодня — «заявка должна быть написана от руки синими чернилами»). Также редко можно было увидеть распечатанную форму, где нужно было просто заполнить пробелы – обычно приходилось начинать с чистого листа и писать весь документ самостоятельно.
Чтобы подать заявку на получение степени доктора философии. нужно было написать докторскую диссертацию, которая в печатном виде насчитывала несколько сотен страниц — в 80-е годы ее делали вручную, а затем отправляли в типографию, где печатали несколько недель.
Итак, если вы попытаетесь написать несколько страниц печатными буквами — это займет огромное количество времени и сил. Курсив пишется намного быстрее и легче.
Сейчас, когда компьютеры и принтеры получили широкое распространение, не нужно так много писать. Но все же в некоторых районах компьютеры редкость и вам, скорее всего, придется писать там какие-то документы по старинке.
Русская скоропись (из этого ответа):
А вот английская скоропись. В русских школах учеников тоже учат писать так:
Интересно, что в США курсив почти вымер:
В 2006 году на SAT, вступительном экзамене в высшие учебные заведения США, только 15 процентов учащихся написали ответы на свои эссе курсивом.
В 2012 году американские штаты Индиана и Гавайи объявили, что их школы больше не будут обязаны преподавать курсив
Русский почерк курсивом. Полное практическое руководство
Если вы носитель русского языка…
Предпосылка изучения русской скорописи состоит в том, чтобы представить, что каждая буква помещается в рамку, но с наклоном верхней части вправо сделать красивую форму, которая соединяется с другими.
Некоторые буквы выглядят точно так же, как их рукописные копии, а другие выглядят совершенно иначе. Это зависит от каждой буквы, поэтому очень важно сверяться с русским почерком и русским скорописным алфавитом, когда вы учитесь.
Некоторые буквы написаны курсивом почти наоборот, что может сбивать с толку, поэтому необходимо потренироваться. Есть также несколько способов написания определенных букв, что может затруднить изучение русской скорописи.
Если вы изучаете русский язык…
Многие буквы в русском языке выглядят как английские буквы, но это не означает, что существует четкий англо-русский рукописный код. Это связано с тем, что русский и славянский языки используют кириллицу, а не латиницу, которая используется английским и многими другими европейскими языками.
В кириллице есть звуки, которых нет в латинице, и наоборот. Следовательно, он не переводится так, как немецкий или французский, на английский язык. Точно так же, как носитель английского языка не может читать по-китайски, не выучив китайский алфавит, так и с русским языком.
Одна из самых важных вещей, о которой следует помнить, — это не прыгать в русскую скоропись, если вы еще не научились писать почерк русским алфавитом.
Первое письмо
Первая буква русского алфавита выучить легче всего; это похоже на английскую букву «А», как в нижнем, так и в верхнем регистре. Курсивная версия также такая же, как и на английском языке.
Вторая буква
Вторая буква русского алфавита дает звук «бух», но выглядит почти как нота. Скоропись выглядит как английская прописная заглавная буква «Т» с прикрепленной круглой частью строчной буквы «б» — это очень похоже на рукописную русскую букву, только с некоторым обтеканием. Вы также можете упростить его, в зависимости от ваших личных предпочтений; некоторые люди даже добавляют к нему петлю в нижней левой части.
Строчная рукописная версия выглядит так же, как просто написанная дрожь или восьмая нота в музыке. Примечание: русская строчная буква больше похожа на нотную, чем на русскую рукописную, потому что нижние «брюшки» буквы расходятся в разные стороны.
Третья буква
Третья буква русского алфавита, написанная от руки, выглядит точно так же, как английская буква «В», но издает звук «ух». Интересно, что и заглавная, и строчная буквы в русском языке выглядят как заглавная «Б», только большая и меньшая. Заглавная русская скоропись выглядит так же, как заглавная английская скоропись «B», а строчная буква выглядит как строчная английская скоропись «f».
Четвертая буква
Четвертая буква русского алфавита дает звук «гьюх». Написанный от руки, он выглядит как перевернутая английская заглавная буква «L» как в верхнем, так и в нижнем регистре. Но в скорописи заглавная русская буква выглядит как прописная английская заглавная буква «Т», а строчная — как задом наперед написанная от руки английская «s» или волнистая английская цифра «2».
Пятая буква
Пятая буква русского алфавита выглядит как вигвам на изогнутых ножках. Он издает звук «theh» с небольшим добавлением «vuh» в часть «th». Можно возразить, что это почти преувеличенный звук «дех», что имеет смысл, потому что заглавная русская скорописная буква выглядит точно так же, как заглавная английская скорописная буква «Д!»
Нужно время, чтобы научиться
Каждая буква имеет свои правила, и все они очень интересные. Один даже похож на английскую звездочку в своей рукописной русской форме, но в русском скорописи он выглядит как скорописные английские «М» и «м» как в верхнем, так и в нижнем регистре.
Собираем все вместе
Как мы уже говорили во введении, в рукописном русском алфавите нет букв, которые соединяются или соединяются вместе. Наоборот, русские буквы, курсивные версии, действительно соединяются — и это делает их такими забавными и красивыми.
Способ соединения русской скорописи такой же, как и английской скорописи, и требует некоторой практики. Цель состоит в том, чтобы никогда не брать ручку в середине слова, когда вы только учитесь. В конце концов, вы найдете свой собственный стиль, который может сломаться здесь или там, и некоторые люди называют это стилизованным письмом.
Вы разовьете свой собственный стиль, продолжая писать и помогая выучить русский алфавит.
Игра называется практика! Практика совершенствует любой навык, и написание русской скорописи ничем не отличается.