From 873473006237b28102d7ecd8c981567094681b0e Mon Sep 17 00:00:00 2001 From: Anja Date: Thu, 28 Oct 2021 18:21:21 +0300 Subject: [PATCH 1/3] Update preprocessing recipe. --- src/aalto_asr_preprocessor/fi/parl_to_kaldi_text.py | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/src/aalto_asr_preprocessor/fi/parl_to_kaldi_text.py b/src/aalto_asr_preprocessor/fi/parl_to_kaldi_text.py index 7b71661..e797de7 100644 --- a/src/aalto_asr_preprocessor/fi/parl_to_kaldi_text.py +++ b/src/aalto_asr_preprocessor/fi/parl_to_kaldi_text.py @@ -406,7 +406,7 @@ def lowercase(match: Match[str]) -> Any: r"((?:\d+(?: [a-z])?, )*\d+(?: [a-z])?(?:—|-| ja ))?(\d+(?: *[a-z])?) *§:?([a-zåäö]*)", expand_numbers_with_section_sign, ), - (r"§:?([a-zåäö])", expand_section_sign), + (r"§:?([a-zåäö]+)", expand_section_sign), # Ruotsinkielisessä tekstissä pykälämerkki tulee ennen numeroa. Käsitellään toistaiseksi näin # koska pelkällä poistolla virheet edellisessä regexpissä jäävät huomaamatta = This format # appears in Swedish texts, handle like this for now so errors with above regexp aren't missed @@ -467,7 +467,7 @@ def lowercase(match: Match[str]) -> Any: (r"[.:?!]\s+", r"\n"), # Muut välimerkit = Other punctuation (r"[!\?;…\/]", r"\n"), - (r"[>¤¶†ªðк¨¦¾Þ\\©®þ\«,­¸:_\»<=&\*()\]¿¡#@~\"'`´‘’“”]", r""), + (r"[>¤¶†ªðк¨¦¾Þ\\©®þ\«,­¸:_\»<=&\*()\]¿¡§#@~\"'`´‘’“”]", r""), (r"\s?—\s?", r" "), # Loput pisteet pois = Remove rest of periods (r"\.", r" "), @@ -512,6 +512,8 @@ def lowercase(match: Match[str]) -> Any: "ş": "s", "ß": "ss", "ž": "z", + "ğ": "g", + "ł": "l", # Weird special characters encountered in Swedish text "ı": "i", "fi": "fi", From f46ec06d36e5aa593d0b05e044e19fbc46e39fe1 Mon Sep 17 00:00:00 2001 From: Anja Date: Thu, 28 Oct 2021 19:06:04 +0300 Subject: [PATCH 2/3] Add test to cover the latest recipe change. --- tests/fi/test_parl_to_kaldi_text.py | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/tests/fi/test_parl_to_kaldi_text.py b/tests/fi/test_parl_to_kaldi_text.py index cfe9919..ef89d95 100644 --- a/tests/fi/test_parl_to_kaldi_text.py +++ b/tests/fi/test_parl_to_kaldi_text.py @@ -443,6 +443,10 @@ def test_kaldi_preprocessor_with_long_text(parl_to_kaldi_test_pairs: Tuple[str, "arvoisa puhemies kysymyksessä on siis eduskunnalle annettava tämän vuoden toiseen " "lisätalousarvioon liittyvä täydentävä hallituksen esitys", ), + ( + "nähden nämä 58 c ja d §:ien määräykset", + "nähden nämä viisikymmentäkahdeksan c ja d pykälien määräykset", + ), ], ) def test_kaldi_preprocessor_with_short_text(input_text: str, true_result: str) -> None: From 1e7830d1cf6ee286378bd8e2b3a8dcbd6b807beb Mon Sep 17 00:00:00 2001 From: Anja Date: Fri, 29 Oct 2021 13:44:24 +0300 Subject: [PATCH 3/3] Update flake8 configuration. --- .flake8 | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/.flake8 b/.flake8 index ea55142..0777372 100644 --- a/.flake8 +++ b/.flake8 @@ -5,4 +5,6 @@ max-complexity = 10 max-line-length = 100 application-import-names = aalto_asr_preprocessor,tests import-order-style = google -per-file-ignores = tests/*:S101, src/aalto_asr_preprocessor/__main__.py:S101 +per-file-ignores = tests/*:S101 +rst-roles = class,const,func,meth,mod,ref +rst-directives = deprecated