-
Notifications
You must be signed in to change notification settings - Fork 46
/
Tormashova_task_1.txt
41 lines (19 loc) · 8.55 KB
/
Tormashova_task_1.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
Нормализация текстов проводлась с помощью Russian STT Text Normalization pipeline (https://github.com/snakers4/russian_stt_text_normalization).
Пара 1
Денормализованный текст: Высотками в Москве называют 7 зданий, которые построили в конце 40 - начале 50 годов по единому градостроительному плану. В них от 26 до 36 этажей. Это разные дома: министерства, гостиницы, жилые здания и университет. Например, главный корпус МГУ на Воробьёвых горах - 36-этажное здание, высота которого 235,7 метра, высота шпиля 60 метров, а вес звезды на шпиле 12 тонн. У высоток были поклонники и противники, но сейчас эти полунебоскрёбы советского времени - часть силуэта Москвы.
Нормализованный текст: Высотками в Москве называют семь зданий, которые построили в конце сорок - начале пятьдесят годов по единому градостроительному плану. В них от двадцати шести до тридцати шести этажей. Это разные дома: министерства, гостиницы, жилые здания и университет. Например, главный корпус МГУ на Воробьёвых горах - тридцать шесть - этажное здание, высота которого двести тридцать пять целых и семь десятых метра, высота шпиля шестьдесят метров, а вес звезды на шпиле двенадцать тонн. У высоток были поклонники и противники, но сейчас эти полунебоскрёбы советского времени - часть силуэта Москвы.
Пара 2
Денормализованный текст: Карат - единица веса драгоценных камней. Когда-то при взвешивании драгоценностей употреблялись зерна, почки или бобы. Карат - это вес боба. Он равен 0,2 грамма. Большинство алмазов имеют небольшой вес. Камни в 1-2 карата считаются уже большими. Алмазу больше 20 каратов присваивают имя, как человеку. Такие камни известны во всем мире. Самый большой алмаз - «Куллинан» (Cullinan Diamond), найденный в начале XX века в Южной Африке. Весил он 3106 каратов. Никто в мире его не мог купить. Его пришлось расколоть на части. Получилось 105 разных по весу бриллиантов. Самый крупный из них: «Звезда Африки» - весит 530,2 карата, его огранкой занималась знаменитая голландская фирма «I.J Asscher diamond company». Алмаз украшает теперь корону и скипетр королей Англии.
Нормализованный текст: Карат - единица веса драгоценных камней. Когда-то при взвешивании драгоценностей употреблялись зерна, почки или бобы. Карат - это вес боба. Он равен ноль целых и две десятых грамма. Большинство алмазов имеют небольшой вес. Камни в один - два карата считаются уже большими. Алмазу больше двадцати каратов присваивают имя, как человеку. Такие камни известны во всем мире. Самый большой алмаз - «Куллинан» (каллинан диамонд), найденный в начале двадцатого века в Южной Африке. Весил он три тысячи сто шесть каратов. Никто в мире его не мог купить. Его пришлось расколоть на части. Получилось сто пять разных по весу бриллиантов. Самый крупный из них: «Звезда Африки» - весит пятьсот тридцать целых и две десятых карата, его огранкой занималась знаменитая голландская фирма «ай джей асшер даймонд компани». Алмаз украшает теперь корону и скипетр королей Англии.
Пара 3
Денормализованный текст: Довольно многочисленная группа предметов фонда представлена глиняными игрушками XV-XVIII вв. В основном на 90 % они изготовлены из красной глины. Поверхность многих покрыта "белилами" - краской на основе белой глины. Довольно большая часть игрушек XVI-XVII вв. раскрашена красной или коричневой краской. Более 1/2 от всех глиняных игрушек приходится на коников.
Нормализованный текст: Довольно многочисленная группа предметов фонда представлена глиняными игрушками пятнадцать - восемнадцать в в. В основном на девяносто процентов они изготовлены из красной глины. Поверхность многих покрыта "белилами" - краской на основе белой глины. Довольно большая часть игрушек шестнадцатого - семнадцатого веков раскрашена красной или коричневой краской. Более одна вторая от всех глиняных игрушек приходится на коников.
В результате работы инструмента были обнаружены следующие недоработки:
Пара 1:
- инструмент не знаком с привычной нам конструкцией построения предложений с датами (в конце 40 - начале 50 годов / в конце сорок - начале пятьдесят годов);
- инструмент не знаком со способом написания прилагательных, содержащий в своём составе числительное (36-этажное здание / тридцать шесть - этажное здание);
Пара 2:
- одно и тоже слово на английском инструмент почему-то транскрибирует по-разному (diamond: диамонд / даймонд)
Пара 3:
- (игрушками XV-XVIII вв. / игрушками пятнадцать - восемнадцать в в.): поскольку далее подобной ошибки не наблюдается, то могу предположить, что из-за того, что сокращение слова "веков" ("вв.") стоит в конце предложения, при обработке текста точка не была принята в расчёт (например, после токенизации); как итог, инструмент не смог распознать сокращение "вв" и в результате не произошло согласование падежей числительных;
- инструмент может переводить дробные числа из числового вида в буквенный, однако при согласовании падежей случаются ошибки (Более 1/2 от всех / Более одна вторая от всех).