diff --git a/examples/legacy/seq2seq/test_calculate_rouge.py b/examples/legacy/seq2seq/test_calculate_rouge.py new file mode 100644 index 00000000000000..bd1dd57a27252b --- /dev/null +++ b/examples/legacy/seq2seq/test_calculate_rouge.py @@ -0,0 +1,94 @@ +# Copyright 2020 The HuggingFace Team. All rights reserved. +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +from collections import defaultdict +from pathlib import Path + +import pandas as pd + +from rouge_cli import calculate_rouge_path +from utils import calculate_rouge + + +PRED = [ + 'Prosecutor: "No videos were used in the crash investigation" German papers say they saw a cell phone video of the final seconds on board Flight 9525. The Germanwings co-pilot says he had a "previous episode of severe depression" German airline confirms it knew of Andreas Lubitz\'s depression years before he took control.', + "The Palestinian Authority officially becomes the 123rd member of the International Criminal Court. The formal accession was marked with a ceremony at The Hague, in the Netherlands. The Palestinians signed the ICC's founding Rome Statute in January. Israel and the United States opposed the Palestinians' efforts to join the body.", + "Amnesty International releases its annual report on the death penalty. The report catalogs the use of state-sanctioned killing as a punitive measure across the globe. At least 607 people were executed around the world in 2014, compared to 778 in 2013. The U.S. remains one of the worst offenders for imposing capital punishment.", +] + +TGT = [ + 'Marseille prosecutor says "so far no videos were used in the crash investigation" despite media reports . Journalists at Bild and Paris Match are "very confident" the video clip is real, an editor says . Andreas Lubitz had informed his Lufthansa training school of an episode of severe depression, airline says .', + "Membership gives the ICC jurisdiction over alleged crimes committed in Palestinian territories since last June . Israel and the United States opposed the move, which could open the door to war crimes investigations against Israelis .", + "Amnesty's annual death penalty report catalogs encouraging signs, but setbacks in numbers of those sentenced to death . Organization claims that governments around the world are using the threat of terrorism to advance executions . The number of executions worldwide has gone down by almost 22% compared with 2013, but death sentences up by 28% .", +] + + +def test_disaggregated_scores_are_determinstic(): + no_aggregation = calculate_rouge(PRED, TGT, bootstrap_aggregation=False, rouge_keys=["rouge2", "rougeL"]) + assert isinstance(no_aggregation, defaultdict) + no_aggregation_just_r2 = calculate_rouge(PRED, TGT, bootstrap_aggregation=False, rouge_keys=["rouge2"]) + assert ( + pd.DataFrame(no_aggregation["rouge2"]).fmeasure.mean() + == pd.DataFrame(no_aggregation_just_r2["rouge2"]).fmeasure.mean() + ) + + +def test_newline_cnn_improvement(): + k = "rougeLsum" + score = calculate_rouge(PRED, TGT, newline_sep=True, rouge_keys=[k])[k] + score_no_sep = calculate_rouge(PRED, TGT, newline_sep=False, rouge_keys=[k])[k] + assert score > score_no_sep + + +def test_newline_irrelevant_for_other_metrics(): + k = ["rouge1", "rouge2", "rougeL"] + score_sep = calculate_rouge(PRED, TGT, newline_sep=True, rouge_keys=k) + score_no_sep = calculate_rouge(PRED, TGT, newline_sep=False, rouge_keys=k) + assert score_sep == score_no_sep + + +def test_single_sent_scores_dont_depend_on_newline_sep(): + pred = [ + "Her older sister, Margot Frank, died in 1945, a month earlier than previously thought.", + 'Marseille prosecutor says "so far no videos were used in the crash investigation" despite media reports .', + ] + tgt = [ + "Margot Frank, died in 1945, a month earlier than previously thought.", + 'Prosecutor: "No videos were used in the crash investigation" German papers say they saw a cell phone video of the final seconds on board Flight 9525.', + ] + assert calculate_rouge(pred, tgt, newline_sep=True) == calculate_rouge(pred, tgt, newline_sep=False) + + +def test_pegasus_newline(): + + pred = [ + """" "a person who has such a video needs to immediately give it to the investigators," prosecutor says . "it is a very disturbing scene," editor-in-chief of bild online tells "erin burnett: outfront" """ + ] + tgt = [ + """ Marseille prosecutor says "so far no videos were used in the crash investigation" despite media reports . Journalists at Bild and Paris Match are "very confident" the video clip is real, an editor says . Andreas Lubitz had informed his Lufthansa training school of an episode of severe depression, airline says .""" + ] + + prev_score = calculate_rouge(pred, tgt, rouge_keys=["rougeLsum"], newline_sep=False)["rougeLsum"] + new_score = calculate_rouge(pred, tgt, rouge_keys=["rougeLsum"])["rougeLsum"] + assert new_score > prev_score + + +def test_rouge_cli(): + data_dir = Path("examples/seq2seq/test_data/wmt_en_ro") + metrics = calculate_rouge_path(data_dir.joinpath("test.source"), data_dir.joinpath("test.target")) + assert isinstance(metrics, dict) + metrics_default_dict = calculate_rouge_path( + data_dir.joinpath("test.source"), data_dir.joinpath("test.target"), bootstrap_aggregation=False + ) + assert isinstance(metrics_default_dict, defaultdict) diff --git a/examples/legacy/seq2seq/test_data/fsmt/build-eval-data.py b/examples/legacy/seq2seq/test_data/fsmt/build-eval-data.py new file mode 100755 index 00000000000000..46487c07ea8432 --- /dev/null +++ b/examples/legacy/seq2seq/test_data/fsmt/build-eval-data.py @@ -0,0 +1,33 @@ +#!/usr/bin/env python + +import io +import json +import subprocess + + +pairs = [ + ["en", "ru"], + ["ru", "en"], + ["en", "de"], + ["de", "en"], +] + +n_objs = 8 + + +def get_all_data(pairs, n_objs): + text = {} + for src, tgt in pairs: + pair = f"{src}-{tgt}" + cmd = f"sacrebleu -t wmt19 -l {pair} --echo src".split() + src_lines = subprocess.run(cmd, stdout=subprocess.PIPE).stdout.decode("utf-8").splitlines() + cmd = f"sacrebleu -t wmt19 -l {pair} --echo ref".split() + tgt_lines = subprocess.run(cmd, stdout=subprocess.PIPE).stdout.decode("utf-8").splitlines() + text[pair] = {"src": src_lines[:n_objs], "tgt": tgt_lines[:n_objs]} + return text + + +text = get_all_data(pairs, n_objs) +filename = "./fsmt_val_data.json" +with io.open(filename, "w", encoding="utf-8") as f: + bleu_data = json.dump(text, f, indent=2, ensure_ascii=False) diff --git a/examples/legacy/seq2seq/test_data/fsmt/fsmt_val_data.json b/examples/legacy/seq2seq/test_data/fsmt/fsmt_val_data.json new file mode 100644 index 00000000000000..f38b305733314a --- /dev/null +++ b/examples/legacy/seq2seq/test_data/fsmt/fsmt_val_data.json @@ -0,0 +1,90 @@ +{ + "en-ru": { + "src": [ + "Welsh AMs worried about 'looking like muppets'", + "There is consternation among some AMs at a suggestion their title should change to MWPs (Member of the Welsh Parliament).", + "It has arisen because of plans to change the name of the assembly to the Welsh Parliament.", + "AMs across the political spectrum are worried it could invite ridicule.", + "One Labour AM said his group was concerned \"it rhymes with Twp and Pwp.\"", + "For readers outside of Wales: In Welsh twp means daft and pwp means poo.", + "A Plaid AM said the group as a whole was \"not happy\" and has suggested alternatives.", + "A Welsh Conservative said his group was \"open minded\" about the name change, but noted it was a short verbal hop from MWP to Muppet." + ], + "tgt": [ + "Члены Национальной ассамблеи Уэльса обеспокоены, что \"выглядят как куклы\"", + "Некоторые члены Национальной ассамблеи Уэльса в ужасе от предложения о том, что их наименование должно измениться на MPW (члены Парламента Уэльса).", + "Этот вопрос был поднят в связи с планами по переименованию ассамблеи в Парламент Уэльса.", + "Члены Национальной ассамблеи Уэльса всего политического спектра обеспокоены, что это может породить насмешки.", + "Один из лейбористских членов Национальной ассамблеи Уэльса сказал, что его партия обеспокоена тем, что \"это рифмуется с Twp и Pwp\".", + "Для читателей за предлами Уэльса: по-валлийски twp означает \"глупый\", а pwp означает \"какашка\".", + "Член Национальной ассамблеи от Плайд сказал, что эта партия в целом \"не счастлива\" и предложил альтернативы.", + "Представитель Консервативной партии Уэльса сказал, что его партия \"открыта\" к переименованию, но отметил, что между WMP и Muppet небольшая разница в произношении." + ] + }, + "ru-en": { + "src": [ + "Названо число готовящихся к отправке в Донбасс новобранцев из Украины", + "Официальный представитель Народной милиции самопровозглашенной Луганской Народной Республики (ЛНР) Андрей Марочко заявил, что зимой 2018-2019 года Украина направит в Донбасс не менее 3 тыс. новобранцев.", + "По его словам, таким образом Киев планирует \"хоть как-то доукомплектовать подразделения\".", + "\"Нежелание граждан Украины проходить службу в рядах ВС Украины, массовые увольнения привели к низкой укомплектованности подразделений\", - рассказал Марочко, которого цитирует \"РИА Новости\".", + "Он также не исключил, что реальные цифры призванных в армию украинцев могут быть увеличены в случае необходимости.", + "В 2014-2017 годах Киев начал так называемую антитеррористическую операцию (АТО), которую позже сменили на операцию объединенных сил (ООС).", + "Предполагалось, что эта мера приведет к усилению роли украинских силовиков в урегулировании ситуации.", + "В конце августа 2018 года ситуация в Донбассе обострилась из-за убийства главы ДНР Александра Захарченко." + ], + "tgt": [ + "The number of new Ukrainian recruits ready to go to Donbass has become public", + "Official representative of the peoples’ militia of the self-proclaimed Lugansk People’s Republic Andrey Marochko claimed that Ukrainian will send at least 3 thousand new recruits to Donbass in winter 2018-2019.", + "This is how Kyiv tries “at least somehow to staff the units,” he said.", + "“The unwillingness of Ukrainian citizens to serve in the Ukraine’s military forces, mass resignments lead to low understaffing,” said Marochko cited by RIA Novosti.", + "Also, he doesn’t exclude that the real numbers of conscripts in the Ukrainian army can be raised is necessary.", + "In 2014-2017, Kyiv started so-called antiterrorist operation, that ws later changed to the united forces operation.", + "This measure was supposed to strengthen the role of the Ukrainian military in settling the situation.", + "In the late August 2018, the situation in Donbass escalated as the DNR head Aleksandr Zakharchenko was killed." + ] + }, + "en-de": { + "src": [ + "Welsh AMs worried about 'looking like muppets'", + "There is consternation among some AMs at a suggestion their title should change to MWPs (Member of the Welsh Parliament).", + "It has arisen because of plans to change the name of the assembly to the Welsh Parliament.", + "AMs across the political spectrum are worried it could invite ridicule.", + "One Labour AM said his group was concerned \"it rhymes with Twp and Pwp.\"", + "For readers outside of Wales: In Welsh twp means daft and pwp means poo.", + "A Plaid AM said the group as a whole was \"not happy\" and has suggested alternatives.", + "A Welsh Conservative said his group was \"open minded\" about the name change, but noted it was a short verbal hop from MWP to Muppet." + ], + "tgt": [ + "Walisische Ageordnete sorgen sich \"wie Dödel auszusehen\"", + "Es herrscht Bestürzung unter einigen Mitgliedern der Versammlung über einen Vorschlag, der ihren Titel zu MWPs (Mitglied der walisischen Parlament) ändern soll.", + "Der Grund dafür waren Pläne, den Namen der Nationalversammlung in Walisisches Parlament zu ändern.", + "Mitglieder aller Parteien der Nationalversammlung haben Bedenken, dass sie sich dadurch Spott aussetzen könnten.", + "Ein Labour-Abgeordneter sagte, dass seine Gruppe \"sich mit Twp und Pwp reimt\".", + "Hinweis für den Leser: „twp“ im Walisischen bedeutet „bescheuert“ und „pwp“ bedeutet „Kacke“.", + "Ein Versammlungsmitglied von Plaid Cymru sagte, die Gruppe als Ganzes sei \"nicht glücklich\" und hat Alternativen vorgeschlagen.", + "Ein walisischer Konservativer sagte, seine Gruppe wäre „offen“ für eine Namensänderung, wies aber darauf hin, dass es von „MWP“ (Mitglied des Walisischen Parlaments) nur ein kurzer verbaler Sprung zu „Muppet“ ist." + ] + }, + "de-en": { + "src": [ + "Schöne Münchnerin 2018: Schöne Münchnerin 2018 in Hvar: Neun Dates", + "Von az, aktualisiert am 04.05.2018 um 11:11", + "Ja, sie will...", + "\"Schöne Münchnerin\" 2018 werden!", + "Am Nachmittag wartet erneut eine Überraschung auf unsere Kandidatinnen: sie werden das romantische Candlelight-Shooting vor der MY SOLARIS nicht alleine bestreiten, sondern an der Seite von Male-Model Fabian!", + "Hvar - Flirten, kokettieren, verführen - keine einfachen Aufgaben für unsere Mädchen.", + "Insbesondere dann, wenn in Deutschland ein Freund wartet.", + "Dennoch liefern die neun \"Schöne Münchnerin\"-Kandidatinnen beim Shooting mit People-Fotograf Tuan ab und trotzen Wind, Gischt und Regen wie echte Profis." + ], + "tgt": [ + "The Beauty of Munich 2018: the Beauty of Munich 2018 in Hvar: Nine dates", + "From A-Z, updated on 04/05/2018 at 11:11", + "Yes, she wants to...", + "to become \"The Beauty of Munich\" in 2018!", + "In the afternoon there is another surprise waiting for our contestants: they will be competing for the romantic candlelight photo shoot at MY SOLARIS not alone, but together with a male-model Fabian!", + "Hvar with its flirting, coquetting, and seduction is not an easy task for our girls.", + "Especially when there is a boyfriend waiting in Germany.", + "Despite dealing with wind, sprays and rain, the nine contestants of \"The Beauty of Munich\" behaved like real professionals at the photo shoot with People-photographer Tuan." + ] + } +} \ No newline at end of file diff --git a/examples/legacy/seq2seq/test_data/test_data b/examples/legacy/seq2seq/test_data/test_data new file mode 120000 index 00000000000000..9eee112ad74163 --- /dev/null +++ b/examples/legacy/seq2seq/test_data/test_data @@ -0,0 +1 @@ +seq2seq/test_data \ No newline at end of file diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/test.source b/examples/legacy/seq2seq/test_data/wmt_en_ro/test.source new file mode 100644 index 00000000000000..3eea3d95b8e154 --- /dev/null +++ b/examples/legacy/seq2seq/test_data/wmt_en_ro/test.source @@ -0,0 +1,20 @@ +UN Chief Says There Is No Military Solution in Syria Secretary-General Ban Ki-moon says his response to Russia's stepped up military support for Syria is that "there is no military solution" to the nearly five-year conflict and more weapons will only worsen the violence and misery for millions of people. The U.N. chief again urged all parties, including the divided U.N. Security Council, to unite and support inclusive negotiations to find a political solution. Ban told a news conference Wednesday that he plans to meet with foreign ministers of the five permanent council nations - the U.S., Russia, China, Britain and France - on the sidelines of the General Assembly's ministerial session later this month to discuss Syria. +He expressed regret that divisions in the council and among the Syrian people and regional powers "made this situation unsolvable." Ban urged the five permanent members to show the solidarity and unity they did in achieving an Iran nuclear deal in addressing the Syria crisis. 8 Poll Numbers That Show Donald Trump Is For Real Some have tried to label him a flip-flopper. Others have dismissed him as a joke. And some are holding out for an implosion. But no matter how some Republicans are trying to drag Donald Trump down from atop the polls, it hasn't worked (yet). +Ten of the last 11 national polls have shown Donald Trump's lead at double digits, and some are starting to ask seriously what it means for the real estate mogul's nomination chances. Of course, it's still early in the election cycle. None of this is to say that Trump is likely to win the Republican nomination. Pundits point out that at this time in 2011, Rick Perry's lead was giving way to a rising Herman Cain, neither of whom won even one state in the nomination process. And there are many reasons he would struggle in a general election. But outside groups like Jeb Bush's Super PAC and the economic conservative group Club for Growth are recognizing Trump's staying power and beginning to unload their dollars to topple him. +Here are some recent poll numbers that suggest that the real estate mogul isn't just a passing phase: Trump's favorability ratings have turned 180 degrees. Right before Donald Trump announced his candidacy in mid-June, a Monmouth University poll showed only two in 10 Republicans had a positive view of the real estate mogul. By mid-July, it was 40 percent. In early August, it was 52 percent. Now, six in 10 Republicans have a favorable view of Donald Trump. Roughly three in 10 say they have a negative view. And these numbers hold up in early states. A Quinnipiac poll in Iowa last week found that 60 percent of Republicans there had a favorable view of Trump. +Two-thirds of GOP voters would be happy with Trump as the nominee. In a CNN/ORC poll last week, 67 percent of Republicans said they would be either "enthusiastic" or "satisfied" if Trump were the nominee. Only two in 10 say they would be "upset" if he were the nominee. Only Ben Carson generates roughly the same level of enthusiasm as Trump (43 percent say they would be "enthusiastic" vs. 40 percent who say the same of Trump). The next closest in enthusiasm? Marco Rubio with only 21 percent. +On the flip side, 47 percent of Republican voters say they would be "dissatisfied" or "upset" if establishment favorite Jeb Bush becomes the nominee. A majority of Republicans don't see Trump's temperament as a problem. While Donald Trump has been widely criticized for his bombast and insults, 52 percent of leaned Republican voters nationwide think that the real estate mogul has the right temperament to be president, according to Monday's ABC News/Washington Post poll. The same number holds in the first-in-the-nation caucus state of Iowa, where the same 52 percent of Republicans think he has the personality to be commander in chief, according to Quinnipiac last week. +Still, 44 percent think he doesn't have the personality to serve effectively, and almost six in 10 independents say his temperament does not belong in the White House, according to ABC/Post. Republican voters are getting used to the idea. When they put on their pundit hats, Republican voters think Trump is for real. When asked who is most likely to win the GOP nomination, four in 10 said Trump was the best bet, according to a CNN/ORC poll out last week. That's a change from when four in 10 placed their money on Jeb Bush in late July. Full disclosure: GOP voters haven't had the clearest crystal ball in the past. +At this time last cycle, four in 10 Republicans picked Rick Perry to win the nomination, vs. only 28 percent for eventual nominee Mitt Romney. Still, it shows that a plurality of GOP voters see Trump's campaign as plausible. Even if Republicans rallied around another candidate, Trump still beats almost everyone. Some pundits point out that the splintered field is likely contributing to Trump's lead, while anti-Trump support is be spread diffusely among more than a dozen other candidates. But a Monmouth University poll in early September shows that, in a hypothetical head-to-head matchup between Trump and most other Republican candidates, Trump almost always garners majority support. +He leads Carly Fiorina by 13 points, Marco Rubio by 14 points, Walker by 15 points, Jeb Bush by 19 points, and, finally, Rand Paul, John Kasich and Chris Christie by 33 points each. He's in a dead heat with Ted Cruz. The only candidate who beats him? Ben Carson would lead the businessman by a wide 19 points in a hypothetical head-to-head. A bare majority of Donald Trump's supporters say they've made up their minds. A new CBS/NYT poll out on Tuesday shows that just more than half of voters who support Trump say they have locked in their votes. Obviously, a lot can happen to change that, and no one can really say they would never change their mind. +46 percent said they are leaving the door open to switching candidates. Still, Trump's strongest competition at the moment is from fellow outsider neurosurgeon Ben Carson, but voters who say they have made up their minds are twice as likely to go for Trump. Six in 10 Republicans say they agree with Trump on immigration. Even since Donald Trump called immigrants from Mexico "rapists" in his campaign announcement speech two months ago, immigration has been front and center in the 2016 conversation. Some are worried that Trump's bombast will drive crucial Hispanic voters away from the Republican Party and damage rebranding efforts. +But according to Monday's new ABC/Post poll, six in 10 Republicans say they agree with Trump on immigration issues. So as long as immigration remains in the spotlight, it seems Donald Trump will remain too. Frustration with government is climbing to new highs. Donald Trump and Ben Carson now account for roughly half of the support from Republican voters, largely due to their outsider status. Six in 10 Republicans in Monday's new ABC/Post poll say they want a political outsider over someone with government experience. And they are angry at Washington, too. +A Des Moines Register/Bloomberg poll in Iowa from two weeks ago shows that three in four Iowa Republicans are frustrated with Republicans in Congress, with 54 percent "unsatisfied" and 21 percent "mad as hell." Jeremy Corbyn to make debut at Prime Minister's Questions Since his election, Mr Corbyn's debut at PMQs has been keenly awaited New Labour leader Jeremy Corbyn is to make his debut at Prime Minister's Questions later, taking on David Cameron for the first time. +Mr Corbyn will rise to ask the first of his six allotted questions shortly after midday, with his performance likely to be closely scrutinised by the media and Labour MPs. He has called for "less theatre and more facts" at the weekly showpiece. He has also said he could skip some sessions, leaving them to colleagues. The encounter will be the first parliamentary test of Mr Corbyn's leadership, coming after his appointment of a shadow cabinet and his speech to the TUC annual congress on Tuesday. +Meanwhile, the Labour leader's decision to stand in silence during the singing of the national anthem at a service on Tuesday to mark the 75th anniversary of the Battle of Britain has attracted criticism from a number of Tory MPs and is the focus of several front page stories in the newspapers. Mr Corbyn's decision not to sing the national anthem has attracted attention A spokesman for Mr Corbyn said he had "stood in respectful silence" and did recognise the "heroism of the Royal Air Force in the Battle of Britain." +But a member of Mr Corbyn's shadow cabinet, Owen Smith, told BBC Two's Newsnight programme he would have advised the Labour leader to sing the national anthem "irrespective" of his belief that the monarchy should be abolished. Nearly a dozen shadow ministers have refused to serve in Mr Corbyn's top team, citing differences over the economy, defence and foreign affairs, while less than a sixth of the parliamentary party originally backed him as leader. BBC political correspondent Robin Brant says policy differences are also "stacking up" within Labour following Mr Corbyn's appointment over its position on the European Union and the government's cap on benefits. +Mr Corbyn told the TUC conference Labour was putting forward amendments to remove the whole idea of a cap altogether. Hours later Mr Smith, the shadow work and pensions secretary, said the party was "very clear" that it was only opposing government plans to reduce the level of cap from £26,000 to £23,000. Mr Corbyn will be the fifth Labour leader that David Cameron has faced across the despatch box over the past decade since he became Tory leader. The Labour leader, who has promised a different approach to politics, says he has "crowd sourced" ideas for questions to ask Mr Cameron and has been given more than 30,000 suggestions. +The Islington North MP has said PMQs is too confrontational and that he will refrain from both "repartee" and trading barbs, instead vowing to focus on serious issues such as poverty, inequality and the challenges facing young people. Mr Corbyn has said that Angela Eagle, the shadow business secretary, will deputise for him at PMQs when he does not attend - for instance when Mr Cameron is travelling abroad. He has also floated the idea of allowing other colleagues to take the floor on occasion, saying he had approached the Commons Speaker John Bercow to discuss the issue. +When he became leader in 2005, Mr Cameron said he wanted to move away from the "Punch and Judy" style of politics often associated with PMQs but admitted some years later that he had failed. Since it was first televised in 1990, PMQs has been seen as a key barometer of a leader's judgement, their command of the Commons and their standing among their fellow MPs although critics have argued it has become a caricature and is in need of far-reaching reforms. 'Shot in Joburg': Homeless youth trained as photographers Downtown Johannesburg is a tough place to be homeless. +But one group of former street children have found a way to learn a skill and make a living. "I was shot in Joburg" is a non-profit studio that teaches homeless youngsters how to take photographs of their neighbourhood and make a profit from it. BBC News went to meet one of the project's first graduates. JD Sports boss says higher wages could hurt expansion JD Sports Executive Chairman Peter Cowgill says a higher minimum wage for UK workers could mean "more spending power in the pockets of potential consumers." But that spending power is unlikely to outweigh the higher labour costs at his firm, he says. +The costs could hit JD Sports' expansion plans, he added, which could mean fewer extra jobs. Thanasi Kokkinakis backed by Tennis Australia president Steve Healy Thanasi Kokkinakis deserves kudos rather than criticism for his behaviour. Thanasi Kokkinakis has been the collateral damage in the recent storm around his friend Nick Kyrgios and deserves kudos rather than criticism for his own behaviour, according to Tennis Australia president Steve Healy. \ No newline at end of file diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/test.target b/examples/legacy/seq2seq/test_data/wmt_en_ro/test.target new file mode 100644 index 00000000000000..8c88fd05326fcf --- /dev/null +++ b/examples/legacy/seq2seq/test_data/wmt_en_ro/test.target @@ -0,0 +1,20 @@ +Șeful ONU declară că nu există soluții militare în Siria Secretarul General Ban Ki-moon afirmă că răspunsul său la suportul militar al Rusiei pentru Siria este că „nu există o soluție militară” la conflictul care durează de aproape cinci ani iar mai multe arme nu ar face decât să agraveze violența și suferința a milioane de oameni. Șeful ONU a solicitat din nou tuturor părților, inclusiv Consiliului de securitate ONU divizat să se unifice și să susțină negocierile pentru a găsi o soluție politică. Ban a declarat miercuri în cadrul unei conferințe că intenționează să se întâlnească luna aceasta cu miniștrii de externe din cinci țări permanent prezente în consiliu - SUA, Rusia, China, Anglia și Franța - pe marginea sesiunii ministeriale a Adunării Generale pentru a discuta despre Siria. +Ban și-a exprimat regretul că divizările în consiliu și între poporul sirian și puterile regionale „au făcut această situație de nerezolvat”. Ban le-a cerut celor cinci membri permanenți să dea dovadă de solidaritatea și unitatea arătate atunci când au reușit să încheie un acord referitor la armele nucleare ale Iranului, abordând astfel criza din Siria. 8 cifre din sondaje care arată că Donald Trump are șanse reale Unii au încercat să îl eticheteze ca politician „flip-flop”. Alții l-au numit o glumă. Iar alții așteaptă implozia. Însă indiferent de modul în care unii republicani încearcă să îl dărâme pe Donald Trump din vârful sondajelor, nu a funcționat (încă). +Zece din ultimele 11 sondaje naționale au arătat că Donald Trump conduce cu un procent din două cifre iar unele voci încep să se întrebe serios ce înseamnă acest lucru pentru șansele de numire ale mogulului imobiliar. Desigur, este încă prematur. Nimic din toate acestea nu spune că Trump va câștiga cursa pentru nominalizarea republicanilor. Pundits arată că, în aceeași perioadă a anului 2011, avansul lui Rick Perry îi făcea loc lui Herman Cain în sondaje, dar niciunul dintre ei nu a câștigat în vreun stat în cursa de nominalizare. Iar motivele pentru care s-ar lupta din greu la alegerile generale sunt numeroase. Însă grupurile din exterior precum Super PAC al lui Jeb Bush și grupul conservator economic Club for Growth admit puterea lui Trump și încep să îl susțină cu bani. +În continuare vă prezentăm câteva cifre din sondaje recente care sugerează că mogulul imobiliar nu este doar ceva trecător: Cifrele care indică susținerea față de Trump s-au întors la 180 grade. Chiar înainte ca Donald Trump să își anunțe candidatura, la mijlocul lui iunie, un sondaj realizat de Universitatea din Monmouth arăta că doar doi din 10 republicani aveau o părere pozitivă despre mogulul imobiliar. Până la mijlocul lui iulie, procentul a urcat la 40%. La începutul lui august, era 52%. În prezent, șase din 10 republicani au o părere favorabilă despre Donald Trump. Aproximativ trei din 10 declară că au o părere negativă. Aceste cifre se mențin. Un sondaj realizat săptămâna trecută de Quinnipiac în Iowa a concluzionat că 60% dintre republicanii din regiune au o părere favorabilă despre Trump. +Două treimi dintre alegătorii GOP ar fi fericiți dacă Trump ar câștiga cursa pentru nominalizare. Într-un sondaj realizat săptămâna trecută de CNN/ORC, 67% dintre republicani au declarat că ar fi „entuziasmați” sau „mulțumiți” dacă Trump ar câștiga cursa pentru nominalizare. Doar doi din 10 declară că ar fi „supărați” dacă Trump ar câștiga cursa pentru nominalizare. Doar Ben Carson generează aproximativ același nivel de entuziasm ca Trump (43% declară că ar fi „entuziasmați” față de 40% care declară același lucru despre Trump). Cel mai aproape în ceea ce privește entuziasmul? Marco Rubio, cu doar 21%. +De partea cealaltă, 47% dintre alegătorii republicani afirmă că ar fi „nemulțumiți” sau „supărați” dacă favoritul Jeb Bush câștigă cursa pentru nominalizare. Majoritatea republicanilor nu consideră temperamentul lui Trump o problemă. Deși Donald Trump a fost puternic criticat pentru insultele aduse și stilul său bombastic, 52% dintre alegătorii republicani la nivel național consideră că mogulul imobiliar are temperamentul potrivit pentru a fi președinte, conform sondajului realizat luni de ABC News/Washington Post. Regăsim aceleași cifre în statul Iowa, unde tot 52% dintre republicani cred că Trump are personalitatea potrivită pentru a fi conducător, conform sondajului realizat săptămâna trecută de Quinnipiac. +Totuși, 44% sunt de părere că nu are personalitatea necesară pentru a acționa eficient și aproape șase din 10 independenți afirmă că temperamentul său nu are ce căuta la Casa Albă, conform ABC/Post. Alegătorii republicani se obișnuiesc cu ideea. Atunci când iau atitudinea de intelectuali, alegătorii republicani consideră că Trump este autentic. Conform unui sondaj realizat săptămâna trecută de CNN/ORC, la întrebarea cine are cele mai multe șanse să câștige cursa pentru nominalizare GOP, patru din 10 au declarat că Trump. Situația s-a schimbat față de finalul lui iulie, când patru din 10 ar fi pariat pe Jeb Bush. Informare completă: în trecut, alegătorii GOP nu au citit foarte bine viitorul. +În aceeași perioadă a ultimelor alegeri, patru din 10 republicani l-au ales pe Rick Perry în cursa pentru nominalizare, față de doar 28% pentru Mitt Romney. Însă, aceste cifre arată că majoritatea alegătorilor GOP consideră plauzibilă campania lui Trump. Chiar dacă republicanii sau repliat spre un alt candidat. Trump încă se află în fruntea tuturor. Unele voci spun că situația divizată va contribui probabil la victoria lui Trump, în timp ce susținerea contra lui Trump se va împărți la mai mult de doisprezece candidați. Însă un sondaj derulat la începutul lui septembrie de Universitatea din Monmouth arată că, în situația ipotetică a unei colaborări între Trump și majoritatea celorlalți candidați republicani, aproape întotdeauna Trump va beneficia de susținerea majoritară. +Trump se află la distanță de 13 puncte de Carly Fiorina, la 14 puncte de Marco Rubio, la 15 puncte de Walker, la 19 puncte de Jeb Bush și, în cele din urmă, la câte 33 de puncte față de Rand Paul, John Kasich și Chris Christie. Este aproape la egalitate cu Ted Cruz. Singurul candidat care îl învinge? Ben Carson l-ar învinge pe omul de afaceri cu 19 puncte într-o confruntare ipotetică de unu la unu. Majoritatea susținătorilor lui Donald Trump declară că s-au decis. Un nou sondaj realizat marți de CBS/NYT arată că peste jumătate dintre alegătorii care îl susțin pe Trump declară că nu își schimbă opțiunea de vot. Evident, se pot întâmpla multe în acest sens și nimeni nu poate spune că aceștia nu se vor răzgândi niciodată. +46% afirmă că lasă portița deschisă posibilității de a-și schimba opțiunea. Cu toate acestea, cel mai important adversar al lui Trump este în prezent neurochirurgul Ben Carson, însă este de două ori mai probabil ca alegătorii care declară că s-au decis să voteze cu Trump. Șase din 10 republicani afirmă că sunt de acord cu Trump în problema imigrării. De când Donald Trump i-a numit pe imigranții din Mexic „violatori” în discursul de deschidere a campaniei sale, în urmă cu două luni, imigrarea a fost subiectul central în campania pentru 2016. Unii sunt îngrijorați că stilul bombastic al lui Trump va duce la o scindare între alegătorii hispanici importanți și Partidul Republican și va prejudicia eforturile de rebranding. +Însă, conform sondajului realizat luni de ABC/Post, șase din 10 republicani afirmă că sunt de acord cu Trump în problema imigrării. Așa că, se pare că atâta timp cât problema imigrării rămâne în lumina reflectoarelor, la fel va rămâne și Doland Trump. Frustrarea față de autorități atinge noi culmi. Donald Trump și Ben Carson sunt acum susținuți de aproape jumătate dintre alegătorii republicani, în mare parte datorită statutului lor de outsideri. Conform sondajului realizat luni de ABC/Post, șase din 10 republicani afirmă că preferă un outsider politic în detrimentul cuiva cu experiență în guvernare. Oamenii sunt de asemenea supărați pe autoritățile de la Washington. +Un sondaj derulat în urmă cu două săptămâni în Iowa de către Des Moines Register/Bloomberg arată că trei din patru republicani din Iowa sunt frustrați de prestația republicanilor din COngres, 54% declarându-se „nemulțumiți” iar 21% „nervoși la culme”. Jeremy Corbyn își face debutul la Prime Minister's Questions Încă de la alegerea sa, debutul domnului Corbyn la PMQs a fost îndelung așteptat Noul lider al Partidului Laburist, Jeremy Corbyn, își va face mai târziu debutul la Prime Minister's Questions, confruntându-se pentru prima dată cu David Cameron. +Dl Corbyn va adresa primele dintre cele șase întrebări la care are dreptul la scurt timp după prânz; prestația sa va fi probabil analizată îndeaproape de mass-media și parlamentarii laburiști. În cadrul aparițiilor săptămânale, el a cerut „mai puțin teatru și mai multe fapte”. A declarat de asemenea că poate renunța la câteva participări și că le cedează colegilor săi. Confruntarea va fi primul test parlamentar al Dl Corbyn în poziție de lider, venind după ce a numit un „cabinet fantomă” și după discursul pe care l-a ținut marți la congresul anual TUC. +Între timp, decizia liderului Partidului laburist de a păstra tăcerea la rostirea imnului național în cadrul unei slujbe ținute marți cu ocazia aniversării a 75 de ani de la Bătălia Angliei a atras critici din partea unor parlamentari conservatori și a ținut prima pagină a ziarelor. Decizia domnului Corbyn de a nu cânta imnul național a atras atenția Un purtător de cuvânt al Dl Corbyn a declarat că acesta „a păstrat tăcerea în mod respectuos” și a recunoscut „eroismul Forțelor aeriene britanice în Bătălia Angliei.” +Însă un membru al cabinetului fantomă al Dl Corbyn, Owen Smith, a declarat pentru emisiunea Two's Newsnight transmisă de BBC că i-ar fi recomandat liderului laburist să cânte imnul național „indiferent” de credința sa că monarhia ar trebui abolită. În jur de doisprezece miniștri din cabinetul fantomă au refuzat să facă parte din echipa de frunte a Dl Corbyn, argumentând prin diferențe de opinie legate de economie, apărare și externe, în timp ce mai puțin de o șesime din partidul parlamentar l-a susținut ca lider. Corespondentul politic al BBC, Robin Brant, declară că diferențele de politică „se cumulează” în Partidul Laburist după numirea domnului Corbyn referitor la poziția sa față de Uniunea Europeană și limita de beneficii. +Dl Corbyn a declarat la conferința TUC că Partidul Laburist va aduce modificări prin care se va elimina integral ideea limitării. Câteva ore mai târziu, Dl Smith, Ministrul Muncii și Pensiilor, a declarat că partidul „este foarte clar” în opoziția exclusivă față de planurile guvernului de a reduce nivelul „cap” de la 26.000 lire la 23.000 lire. Dl Corbyn va fi al cincilea lider laburist cu care se confruntă David Cameron la tribună în ultimul deceniu, de când a preluat conducerea Partidului Conservator. Liderul laburist, care a promis o abordare diferită a politicii, spune că are idei „din surse externe” pentru întrebări pe care să i le adreseze Domnului Cameron și că a primit peste 30.000 de sugestii. +Parlamentarul Islington North a afirmat că PMQs implică un nivel de confruntare prea înalt și că se va abține de la replici și atacuri, angajându-se să se concentreze în schimb pe probleme serioase precum sărăcia, inegalitatea și provocările cu care se confruntă tinerii. Dl Corbyn a declarat că Angela Eagle, Ministrul de finanțe, îi va ține locul la PMQs atunci când el nu poate participa - de exemplu atunci când Dl Cameron se deplasează în străinătate. A exprimat de asemenea ideea că va permite altor colegi să ia cuvântul ocazional, spunând că l-a abordat pe Președintele Camerei Deputaților, John Bercow, pentru a discuta acest aspect. +În 2005, când a preluat conducerea, Dl Cameron a declarat că dorește să renunțe la stilul politic „Punch and Judy” asociat adesea cu PMQs însă a recunoscut câțiva ani mai târziu că nu a reușit în demersul său. De la prima transmisie, în 1990, PMQs a fost considerată un barometru cheie al raționamentului unui lider, al modului în care acesta conduce Camera Deputaților și a poziției sale în rândul colegilor parlamentari, deși criticii afirmă a ca devenit o caricatură și că are nevoie de o reformare profundă. „Cadru în Joburg”: Tineri fără adăpost beneficiază de cursuri de fotografie Este dificil să fii un om fără adăpost în Johannesburg. +Însă un grup de oameni care au trăit pe străzi în copilărie au găsit un mod de a învăța o meserie și de a-și câștiga traiul. „I was shot în Joburg” este un studio non-profit care îi învață pe tinerii fără adăpost să facă fotografii ale zonelor în care trăiesc și să câștige bani din asta. BBC News s-a întâlnit cu unul dintre primii absolvenți ai proiectului. Șeful JD Sports spune că salariile mai mari ar putea dăuna extinderii Președintele JD Sports, Peter Cowgill, declară că o creștere a salariului minim în Marea Britanie ar putea însemna „o putere de cumpărare mai mare în buzunarele potențialilor consumatori.” Este însă puțin probabil ca respectiva putere de cumpărare să depășească costurile mai mari pentru forța de muncă în cadrul firmei, afirmă el. +Costurile ar putea avea impact asupra planurilor de extindere ale JD Sports, a adăugat el, ceea ce ar putea însemna mai puține locuri de muncă noi. Thanasi Kokkinakis susținut de președintele Tennis Australia, Steve Healy Thanasi Kokkinakis ar merita să fie lăudat și nu criticat pentru comportamentul său. Thanasi Kokkinakis a fost victimă colaterală în „furtuna” creată în jurul prietenului său, Nick Kyrgios, iar comportamentul său merită mai degrabă cuvinte de laudă și nu critică, în opinia președintelui Tennis Australia, Steve Healy. \ No newline at end of file diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/train.len b/examples/legacy/seq2seq/test_data/wmt_en_ro/train.len new file mode 100644 index 00000000000000..33ce003c8ae313 Binary files /dev/null and b/examples/legacy/seq2seq/test_data/wmt_en_ro/train.len differ diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/train.source b/examples/legacy/seq2seq/test_data/wmt_en_ro/train.source new file mode 100644 index 00000000000000..d77722d4a57002 --- /dev/null +++ b/examples/legacy/seq2seq/test_data/wmt_en_ro/train.source @@ -0,0 +1,11 @@ +Corrections to votes and voting intentions: see Minutes Assignment conferred on a Member: see Minutes Membership of committees and delegations: see Minutes Decisions concerning certain documents: see Minutes Forwarding of texts adopted during the sitting: see Minutes Dates for next sittings: see Minutes +Membership of Parliament: see Minutes Approval of Minutes of previous sitting: see Minutes Membership of Parliament: see Minutes Verification of credentials: see Minutes Documents received: see Minutes Written statements and oral questions (tabling): see Minutes Petitions: see Minutes Texts of agreements forwarded by the Council: see Minutes Action taken on Parliament's resolutions: see Minutes Agenda for next sitting: see Minutes Closure of sitting (The sitting was closed at 7.45 p.m.) +Election of Vice-Presidents of the European Parliament (deadline for submitting nominations): see Minutes (The sitting was suspended at 12.40 p.m. and resumed at 3.00 p.m.) Election of Quaestors of the European Parliament (deadline for submitting nominations): see Minutes (The sitting was suspended at 3.25 p.m. and resumed at 6.00 p.m.) Agenda for next sitting: see Minutes Closure of sitting (The sitting was closed at 6.15 p.m.) Opening of the sitting (The sitting was opened at 9.35 a.m.) Documents received: see Minutes Approval of Minutes of previous sitting: see Minutes Membership of Parliament: see Minutes +Membership of committees (deadline for tabling amendments): see Minutes (The sitting was suspended at 7 p.m. and resumed at 9 p.m.) Agenda for next sitting: see Minutes Closure of sitting (The sitting was suspended at 23.25 p.m.) Documents received: see Minutes Communication of Council common positions: see Minutes (The sitting was suspended at 11.35 a.m. and resumed for voting time at noon) Approval of Minutes of previous sitting: see Minutes Committee of Inquiry into the crisis of the Equitable Life Assurance Society (extension of mandate): see Minutes +Announcement by the President: see Minutes 1. Membership of committees (vote) 2. Amendment of the ACP-EC Partnership Agreement (vote) 4. Certification of train drivers operating locomotives and trains on the railway system in the Community (vote) 6. Law applicable to non-contractual obligations ("ROME II") (vote) 8. Seventh and eighth annual reports on arms exports (vote) Corrections to votes and voting intentions: see Minutes Membership of committees and delegations: see Minutes Request for waiver of parliamentary immunity: see Minutes Decisions concerning certain documents: see Minutes +Written statements for entry +Written statements for entry in the register (Rule 116): see Minutes Forwarding of texts adopted during the sitting: see Minutes Dates for next sittings: see Minutes Adjournment of the session I declare the session of the European Parliament adjourned. (The sitting was closed at 1 p.m.) Approval of Minutes of previous sitting: see Minutes Membership of Parliament: see Minutes Request for the defence of parliamentary immunity: see Minutes Appointments to committees (proposal by the Conference of Presidents): see Minutes Documents received: see Minutes Texts of agreements forwarded by the Council: see Minutes +Action taken on Parliament's resolutions: see Minutes Oral questions and written statements (tabling): see Minutes Written statements (Rule 116): see Minutes Agenda: see Minutes 1. Appointments to parliamentary committees (vote): see Minutes Voting time Agenda for next sitting: see Minutes Closure of sitting (The sitting was closed at 12 midnight) Opening of the sitting (The sitting was opened at 09.05) Documents received: see Minutes Approval of Minutes of previous sitting: see Minutes 1. Protection of passengers against displaced luggage (vote) 2. +Approval of motor vehicles with regard to the forward field of vision of the driver (vote) 3. EC-Korea Agreement on scientific and technological cooperation (vote) 4. Mainstreaming sustainability in development cooperation policies (vote) 5. Draft Amending Budget No 1/2007 (vote) 7. EC-Gabon Fisheries Partnership (vote) 10. Limitation periods in cross-border disputes involving personal injuries and fatal accidents (vote) 12. Strategy for a strengthened partnership with the Pacific Islands (vote) 13. The European private company statute (vote) That concludes the vote. +Corrections to votes and voting intentions: see Minutes Assignment conferred on a Member: see Minutes Membership of committees and delegations: see Minutes Decisions concerning certain documents: see Minutes Forwarding of texts adopted during the sitting: see Minutes Dates for next sittings: see Minutes +Written statements for entry diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/train.target b/examples/legacy/seq2seq/test_data/wmt_en_ro/train.target new file mode 100644 index 00000000000000..f18d80d3d47d6c --- /dev/null +++ b/examples/legacy/seq2seq/test_data/wmt_en_ro/train.target @@ -0,0 +1,11 @@ +Corectările voturilor şi intenţiile de vot: a se vedea procesul-verbal Misiune încredinţată unui deputat: consultaţi procesul-verbal Componenţa comisiilor şi a delegaţiilor: a se vedea procesul-verbal Decizii privind anumite documente: a se vedea procesul-verbal Transmiterea textelor adoptate în cursul prezentei şedinţe: a se vedea procesul-verbal Calendarul următoarelor şedinţe: a se vedea procesul-verbal +Componenţa Parlamentului: a se vedea procesul-verbal Aprobarea procesului-verbal al şedinţei precedente: a se vedea procesul-verbal Componenţa Parlamentului: a se vedea procesul-verbal Verificarea prerogativelor: a se vedea procesul-verbal Depunere de documente: a se vedea procesul-verbal Declaraţii scrise şi întrebări orale (depunere): consultaţi procesul-verbal Petiţii: a se vedea procesul-verbal Transmiterea de către Consiliu a textelor acordurilor: a se vedea procesul-verbal Cursul dat rezoluţiilor Parlamentului: a se vedea procesul-verbal Ordinea de zi a următoarei şedinţe: a se vedea procesul-verbal Ridicarea şedinţei (Se levanta la sesión a las 19.45 horas) +Alegerea vicepreşedinţilor Parlamentului European (termenul de depunere a candidaturilor): consultaţi procesul-verbal (Die Sitzung wird um 12.40 Uhr unterbrochen und um 15.00 Uhr wiederaufgenommen). Alegerea chestorilor Parlamentului European (termenul de depunere a candidaturilor): consultaţi procesul-verbal (Die Sitzung wird um 15.25 Uhr unterbrochen und um 18.00 Uhr wiederaufgenommen). Ordinea de zi a următoarei şedinţe: a se vedea procesul-verbal Ridicarea şedinţei (Die Sitzung wird um 18.15 Uhr geschlossen.) Deschiderea şedinţei (Die Sitzung wird um 9.35 Uhr eröffnet.) Depunerea documentelor: a se vedea procesul-verbal Aprobarea procesului-verbal al şedinţei precedente: a se vedea procesul-verbal Componenţa Parlamentului: a se vedea procesul-verbal +Componenţa comisiilor (termenul de depunere a amendamentelor): consultaţi procesul-verbal (La seduta, sospesa alle 19.00, è ripresa alle 21.00) Ordinea de zi a următoarei şedinţe: a se vedea procesul-verbal Ridicarea şedinţei (Die Sitzung wird um 23.25 Uhr geschlossen.) Depunerea documentelor: a se vedea procesul-verbal Comunicarea poziţiilor comune ale Parlamentului: a se vedea procesul-verbal (La séance, suspendue à 11h35 dans l'attente de l'Heure des votes, est reprise à midi) Aprobarea procesului-verbal al şedinţei precedente: a se vedea procesul-verbal Comisia de anchetă privind criza societăţii de asigurări "Equitable Life” (prelungirea mandatului): consultaţi procesul-verbal +Comunicarea Preşedintelui: consultaţi procesul-verbal 1. Componenţa comisiilor (vot) 2. Modificarea Acordului de parteneriat ACP-CE ("Acordul de la Cotonou”) (vot) 4. Certificarea mecanicilor de locomotivă care conduc locomotive şi trenuri în sistemul feroviar comunitar (vot) 6. Legea aplicabilă obligaţiilor necontractuale ("Roma II”) (vot) 8. Al şaptelea şi al optulea raport anual privind exportul de armament (vot) Corectările voturilor şi intenţiile de vot: a se vedea procesul-verbal Componenţa comisiilor şi a delegaţiilor: a se vedea procesul-verbal Cerere de ridicare a imunităţii parlamentare: consultaţi procesul-verbal Decizii privind anumite documente: a se vedea procesul-verbal +Declaraţii scrise înscrise +Declaraţii scrise înscrise în registru (articolul 116 din Regulamentul de procedură): a se vedea procesul-verbal Transmiterea textelor adoptate în cursul prezentei şedinţe: a se vedea procesul-verbal Calendarul următoarelor şedinţe: a se vedea procesul-verbal Întreruperea sesiunii Dichiaro interrotta la sessione del Parlamento europeo. (La seduta è tolta alle 13.00) Aprobarea procesului-verbal al şedinţei precedente: a se vedea procesul-verbal Componenţa Parlamentului: a se vedea procesul-verbal Cerere de apărare a imunităţii parlamentare: consultaţi procesul-verbal Numiri în comisii (propunerea Conferinţei preşedinţilor): consultaţi procesul-verbal Depunerea documentelor: a se vedea procesul-verbal Transmiterea de către Consiliu a textelor acordurilor: a se vedea procesul-verbal +Continuări ale rezoluţiilor Parlamentului: consultaţi procesul-verbal Declaraţii scrise şi întrebări orale (depunere): consultaţi procesul-verbal Declaraţii scrise (articolul 116 din Regulamentul de procedură) Ordinea de zi: a se vedea procesul-verbal 1. Numiri în comisiile parlamentare (vot): consultaţi procesul-verbal Timpul afectat votului Ordinea de zi a următoarei şedinţe: a se vedea procesul-verbal Ridicarea şedinţei (La seduta è tolta alle 24.00) Deschiderea şedinţei (The sitting was opened at 09.05) Depunerea documentelor: a se vedea procesul-verbal Aprobarea procesului-verbal al şedinţei precedente: a se vedea procesul-verbal 1. Protecţia pasagerilor împotriva deplasării bagajelor (vot) 2. +Omologarea vehiculelor cu motor cu privire la câmpul de vizibilitate înainte al conducătorului auto (vot) 3. Acordul CE-Coreea de cooperare ştiinţifică şi tehnologică (vot) 4. Integrarea durabilităţii în politicile de cooperare pentru dezvoltare (vot) 5. Proiect de buget rectificativ nr.1/2007 (vot) 7. Acordul de parteneriat în domeniul pescuitului între Comunitatea Europeană şi Republica Gaboneză (vot) 10. Termenele de prescripţie aplicabile în cadrul litigiilor transfrontaliere cu privire la vătămările corporale şi accidentele mortale (vot) 12. Relaţiile UE cu insulele din Pacific: Strategie pentru un parteneriat consolidat (vot) 13. Statutul societăţii private europene (vot) Damit ist die Abstimmungsstunde beendet. +Corectările voturilor şi intenţiile de vot: a se vedea procesul-verbal Misiune încredinţată unui deputat: consultaţi procesul-verbal Componenţa comisiilor şi a delegaţiilor: a se vedea procesul-verbal Decizii privind anumite documente: a se vedea procesul-verbal Transmiterea textelor adoptate în cursul prezentei şedinţe: a se vedea procesul-verbal Calendarul următoarelor şedinţe: a se vedea procesul-verbal +Declaraţii scrise înscrise diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/val.len b/examples/legacy/seq2seq/test_data/wmt_en_ro/val.len new file mode 100644 index 00000000000000..897314a960b28d Binary files /dev/null and b/examples/legacy/seq2seq/test_data/wmt_en_ro/val.len differ diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/val.source b/examples/legacy/seq2seq/test_data/wmt_en_ro/val.source new file mode 100644 index 00000000000000..c895d0ae247e2b --- /dev/null +++ b/examples/legacy/seq2seq/test_data/wmt_en_ro/val.source @@ -0,0 +1,16 @@ +Brazil's Former Presidential Chief-of-Staff to Stand Trial A federal judge on Tuesday accepted the charges filed against Brazil's former presidential chief of staff for his alleged involvement in a massive corruption scheme at state-owned oil company Petrobras. The federal prosecutor's office said Jose Dirceu will face trial on the corruption, racketeering and money laundering charges filed earlier this month. Fourteen other people will also be tried, including Joao Vaccari Neto, the former treasurer of Brazil's governing Workers' Party and Renato de Souza Duque, Petrobras' former head of corporate services. +Dirceu is the most senior member of the ruling Workers' Party to be taken into custody in connection with the scheme. Dirceu served as former President Luiz Inacio Lula da Silva's chief of staff between 2003 and 2005. He was arrested early August in his home, where he already was under house arrest serving an 11-year sentence for his involvement in a cash-for-votes scheme in Congress more than 10 years ago. Prosecutors have said that Dirceu masterminded the kickback scheme at Petrobras, accepted bribes while in office and continued to receive payments from contractors after he was jailed in late 2013 for the vote-buying scandal. +According to prosecutors, the scheme at Petrobras involved roughly $2 billion in bribes and other illegal funds. Some of that money was allegedly funneled back to campaign coffers of the ruling party and its allies. It also allegedly included the payment of bribes to Petrobras executives in return for inflated contracts. 'Miraculous' recovery for Peshawar massacre schoolboy A teenager paralysed after being shot four times in Pakistan's deadliest terror attack has made a "miraculous" recovery following treatment in the UK. Muhammad Ibrahim Khan, 13, had been told by doctors in Pakistan that he would never walk again. +At least 140 people, mostly children, were killed when gunmen stormed Peshawar's Army Public School last December. Muhammad, who arrived in London last month for surgery, is being discharged from hospital later. Exactly nine months ago, on an ordinary Tuesday morning, Muhammad sat in his first aid class listening to his teachers intently. At the same time seven gunmen disguised in security uniforms were entering the Army Public School. They were strapped with explosives and had one simple mission in mind: Kill every man, woman and child they came across. "I can't forget what happened that day," Muhammad says with a severe stare. +We were sitting in the auditorium, we were asking questions... and then we heard heavy gunfire outside. The terrorists moved inside and they started killing - our teacher was burned alive. Muhammad described pulling four other pupils out of the auditorium as the carnage unfolded. He said he then heard his friend, Hamza calling to him. He said, 'oh brother save me'. I held his hand. That's when I was shot in the back, and he was shot in the head. Most of the people killed in the attack were pupils Hamza died in Muhammad's arms. Muhammad recalled blacking out after that, and the next thing he knew he was in a hospital bed, paralysed from the waist down. +Doctors in Peshawar in northern Pakistan, and then Rawalpindi, close to the capital, told his family there was no treatment, and he would never walk again. "Seeing him I felt like my soul had left my body," says Muhammad's father, Sher Khan Those nine months were the hardest in my life. But Mr Khan and his wife, Sherbano, refused to believe that their cricket-mad son would never be able to use his legs again. They campaigned, and appealed for help on Pakistani TV, gaining the support of high profile people such as cricketer turned politician Imran Khan. +Finally, they were able to raise the funds to bring Muhammad to the UK and provide him with treatment at London's private Harley Street Clinic. Consultant neurosurgeon Irfan Malik described Muhammad as "terrified" when he first arrived at the hospital. "He'd spent the last [few] months lying on a bed, unable to move side to side," says Mr Malik. He was weak, he had a pressure sore on his back. He wasn't in great shape. A vertebra at the base of Muhammad's spine was destroyed Muhammad was shot in his shoulder, his hip, and his back during the attack, damaging his lower spine - leading to paralysis. +But during six hours of surgery, Mr Malik and his team were able to reattach nerve endings and reconstruct the damaged part of the spine. Even Mr Malik was surprised at what happened next. Exactly one week after the surgery Muhammad stood up and started taking steps and walking. We were not expecting to get that sort of excellent result. That was miraculous," he says. Less than two weeks after his operation, Muhammad is ready to leave hospital and start the long road to recovery. Muhammad has defied the odds and started to walk again He says he wants to build his strength and continue his education in the UK. But he says he is determined to return to Pakistan, join the army and help fight terrorism. +"I feel like I have a second chance at life," he says as he shows off pictures he's drawn of guns scribbled out next to school books and pens Muhammad grows physically stronger every day but the psychological trauma he continues to endure is unimaginable. "My anger is not diminishing" he says. In my school little kids were killed. What was their crime? His mother, wiping a tear from her eye, caressed his head and said: "I can see my son walking again." He'll be able to get on with his normal life. 'Super Voice' 4G service from Three offers better signal Three is making use of a lower frequency 4G spectrum that can travel more widely +Mobile phone provider Three has launched a UK service it says will improve reception inside buildings and in rural black spots. Its 4G Super Voice enables customers to make calls and send texts using a lower frequency spectrum. Other networks are looking into introducing the technology, known as Voice Over Long-Term Evolution (VoLTE). It currently works on only the Samsung Galaxy S5, but recent iPhone handsets will be added in the coming months. Three said up to 5.5 million customers would have access to the service by 2017. +Chief technology officer Bryn Jones said: "By the end of the year, one million of our customers will have access to better indoor coverage and be able to use their phones in more places than ever before." Stars prepare for panto season Pantomime season is big business for theatres up and down the UK, with many getting ready for this year's season now. Some of the biggest names in showbusiness now take part in the yuletide theatre. Matthew Kelly and Hayley Mills will be appearing in Cinderella - one as an ugly sister, the other as fairy godmother. They reveal their panto secrets to BBC Breakfast. Steven Wilson: 'If I don't do anything, I feel this creeping guilt' +Steven Wilson was recently the big winner at the Progressive Music Awards Steven Wilson is often dubbed the hardest working musician in the world of progressive rock. The multi-talented musician won three prizes at this month's Progressive Music Awards in London, including album of the year for Hand. The Guardian's five-star review called it "a smart, soulful and immersive work of art." Since the 1980s, Wilson has been the driving force in a number of musical projects, the best known of which is the rock band Porcupine Tree. Now, ahead of two sell-out shows at the Royal Albert Hall, Wilson is releasing a vinyl-only double LP, Transience, to showcase the "more accessible" side of his solo output. +He tells the BBC about his love of vinyl, his busy schedule and explains how comic actor Matt Berry came to be his support act. What does vinyl mean to you? I grew up at the very tail end of the vinyl era, and at the time, I remember, we couldn't wait for CD to come along because vinyl was so frustrating. You would buy the record, take it home, and it would have a scratch, and you would have to take it back again. I love CDs, and for some kinds of music - classical for example - it is better than vinyl. But the problem with the CD and digital downloads is that there's nothing you can really cherish or treasure. Owning vinyl is like having a beautiful painting hanging in your living room. +It's something you can hold, pore over the lyrics and immerse yourself in the art work. I thought it was just a nostalgic thing, but it can't be if kids too young to remember vinyl are enjoying that kind of experience. Do you have a piece of vinyl that you treasure? The truth is I got rid of 100% of my vinyl in the 90s. All the vinyl I have is re-bought. I started off from the perspective that I wanted to recreate the collection I had when I was 15, but it's gone beyond that. The first record which I persuaded my parents to buy for me was Electric Light Orchestra's Out of the Blue. +If I still had my original copy, it would have sentimental value, but, alas, it's in a charity shop somewhere. Steven Wilson hopes the album will be a doorway for potential new fans Why release your new compilation Transience on vinyl? It was originally conceived as an idea for Record Store Day, but we missed the boat on that. My record company had suggested I put together some of my shorter, more accessible songs. I got a bit obsessed by the idea to make something like "an introduction to Steven Wilson," and I was committed to it being a vinyl-only release. Anyone who buys the vinyl does also get a high-resolution download. +Do you have a concern that the album won't show your work in a true light? \ No newline at end of file diff --git a/examples/legacy/seq2seq/test_data/wmt_en_ro/val.target b/examples/legacy/seq2seq/test_data/wmt_en_ro/val.target new file mode 100644 index 00000000000000..178d85d71902c8 --- /dev/null +++ b/examples/legacy/seq2seq/test_data/wmt_en_ro/val.target @@ -0,0 +1,16 @@ +Fostul șef al cabinetului prezidențial brazilian este adus în fața instanței Marți, un judecător federal a acceptat acuzațiile aduse împotriva fostului șef al cabinetului prezidențial brazilian pentru presupusa implicare a acestuia într-o schemă masivă de corupție privind compania petrolieră de stat Petrobras. Biroul procurorului federal a declarat că Jose Dirceu va fi trimis în judecată pentru acuzațiile de corupție, înșelătorie și spălare de bani aduse în această lună. Alte paisprezece persoane vor fi judecate, printre acestea numărându-se Joao Vaccari Neto, fostul trezorier al Partidului Muncitorilor, aflat la putere în Brazilia, și Renato de Souza Duque, fostul președinte al serviciilor pentru întreprinderi ale Petrobras. +Dirceu este cel mai vechi membru al Partidului Muncitorilor aflat la guvernare luat în custodie pentru legăturile cu această schemă. Dirceu a servit ca șef de cabinet al fostului președinte Luiz Inacio Lula da Silva între 2003 și 2005. A fost arestat la începutul lui august de acasă, unde deja se afla sub arest la domiciliu, cu o pedeapsă de 11 ani pentru implicarea într-o schemă de cumpărare a voturilor în Congres cu peste 10 ani în urmă. Procurorii au declarat că Dirceu a dezvoltat schema de luare de mită de la Petrobras, a acceptat mită în timp ce se afla în funcție și a continuat să primească plăți de la antreprenori după ce a fost închis la sfârșitul lui 2013 pentru scandalul voturilor cumpărate. +Conform procurorilor, schema de la Petrobras a implicat aproximativ 2 miliarde de dolari sub formă de mită și alte fonduri ilegale. O parte din acei bani s-ar fi întors în fondul de campanie al partidului aflat la guvernare și al aliaților acestora. De asemenea, ar fi inclus mită către directorii Petrobras în schimbul unor contracte umflate. Recuperarea „miraculoasă” a unui elev supraviețuitor al masacrului de la Peshawar Un adolescent paralizat după ce fusese împușcat de patru ori în cel mai cumplit atac terorist din Pakistan a reușit o recuperare „miraculoasă” după ce a urmat un tratament în Regatul Unit. Lui Mohamed Ibrahim Khan, în vârstă de 13 ani, doctorii din Pakistan îi spuseseră că nu va mai putea să meargă niciodată. +Cel puțin 140 de persoane, majoritatea copii, au fost ucise când bărbați înarmați au atacat școala publică a armatei din Peshawar în luna decembrie a anului trecut. Mohamed, care a sosit la Londra luna trecută pentru operație, va fi externat mai târziu din spital. Exact cu nouă luni în urmă, într-o dimineață obișnuită de marți, Mohamed stătea la ora de primul ajutor și își asculta atent profesorii. Chiar atunci, șapte bărbați înarmați deghizați în uniformele agenților de pază intrau în școala publică a armatei. Purtau centuri cu explozivi și aveau de îndeplinit o misiune simplă: să îi ucidă pe toți bărbații, femeile și copiii care le ieșeau în cale. „Nu pot uita ce s-a întâmplat în acea zi”, spune Mohamed cu o privire aspră. +Stăteam în amfiteatru, puneam întrebări... apoi am auzit focuri de armă afară. Teroriștii au intrat înăuntru și au început să ucidă. Profesorul nostru a fost ars de viu. Mohamed descrie cum a scos patru elevi din amfiteatru în timp ce se desfășura carnagiul. Apoi spune că și-a auzit prietenul, pe Hamza, strigându-l. Spunea „oh, frate, salvează-mă”. L-am ținut de mână. Atunci eu am fost împușcat în spate, iar el în cap. Cei mai mulți dintre cei uciși în atac erau elevi Hamza a murit în brațele lui Mohamed. Mohamed își amintește că imediat după asta a leșinat și că următorul lucru pe care l-a știut a fost că se afla pe un pat de spital, paralizat de la brâu în jos. +Doctorii din Peshawar din nordul Pakistanului, apoi cei din Rawalpindi, aproape de capitală, i-au spus familiei sale că nu exista tratament și că nu va mai putea merge niciodată. „Când l-am văzut, am simțit cum îmi iese sufletul”, spune Sher Khan, tatăl lui Mohamed. Acele nouă luni au fost cele mai grele din viața mea. Însă Khan și soția lui, Sherbano, au refuzat să creadă că fiul lor atât de pasionat de crichet nu-și va mai putea folosi vreodată picioarele. Au făcut o campanie și au cerut ajutor de la televiziunea pakistaneză, atrăgând sprijinul unor oameni faimoși precum Imran Khan, jucător de crichet devenit politician. +Într-un final, au reușit să strângă fonduri pentru a-l duce pe Mohamed în Regatul Unit și a-i oferi tratament la clinica privată Harley Street din Londra. Neurochirurgul consultant Irfan Malik l-a descris pe Mohamed drept „înspăimântat” când acesta a ajuns la spital. „Își petrecuse ultimele [câteva] luni zăcând în pat, fără să se poată mișca de pe o parte pe alta, spune Malik. Era slăbit, se pusese multă presiune pe spatele lui. Nu era într-o formă prea bună. O vertebră de la baza coloanei vertebrale a lui Mohamed fusese distrusă Mohamed fusese împușcat în umăr, în șold și în spate în timpul atacului, iar coloana vertebrală inferioară îi fusese distrusă, ducând la paralizie. +Însă, în timpul unei operații care a durat șase ore, Malik și echipa lui au reușit să lege din nou terminațiile nervoase și să reconstruiască partea distrusă a coloanei. Chiar și Malik a fost surprins de ceea ce s-a întâmplat în continuare. Exact la o săptămână după operație, Mohamed s-a ridicat și a început să facă pași și să meargă. Nu ne așteptam la un rezultat atât de bun. A fost un miracol”, spune acesta. În mai puțin de două săptămâni de la operație, Mohamed este gata să părăsească spitalul și să înceapă procesul lung de recuperare. Mohamed a sfidat soarta și a început să meargă din nou Vrea să devină puternic și să își continue studiile în Regatul Unit. Însă este hotărât să revină în Pakistan, să se înroleze în armată și să lupte împotriva terorismului. +„Simt că am încă o șansă la viață” spune el, arătând imaginile cu arme desenate de el lângă manuale școlare și stilouri Fizic, Mohamed devine tot mai puternic în fiecare zi, însă trauma psihologică prin care trece și acum este de neimaginat. „Furia mea nu a scăzut”, mărturisește el. În școala mea au fost uciși copii mici. Ce crimă au comis ei? Mama lui își șterge o lacrimă, îl mângâie pe creștet și spune: „Îmi văd fiul mergând din nou”. Va putea să-și continue firesc viața. Serviciul 4G „Super Voice” de la Three oferă semnal mai bun Three folosește un spectru 4G cu o frecvență mai joasă, care poate acoperi o zonă mai extinsă +Furnizorul de telefonie mobilă Three a lansat în Regatul Unit un serviciu despre care spune că va îmbunătăți recepția în interiorul clădirilor și în zonele rurale fără semnal. Serviciul 4G Super Voice le permite clienților să efectueze apeluri și să trimită mesaje text folosind un spectru cu o frecvență mai joasă. Și alte rețele intenționează să introducă aceeași tehnologie, cunoscută ca „Voice Over Long-Term Evolution (VoLTE)”. Aceasta funcționează momentan doar cu Samsung Galaxy S5, însă telefoanele iPhone recente vor beneficia de ea în lunile următoare. Three menționează că până la 5,5 milioane de clienți vor avea acces la serviciu până în 2017. +Responsabilul șef pentru tehnologie, Bryn Jones a declarat: „Până la sfârșitul anului, un milion dintre clienții noștri vor avea acces la o acoperire mai bună în interior și își vor putea folosi telefoanele în mai multe locuri ca până acum”. Vedetele se pregătesc pentru stagiunea de pantomimă Stagiunea de pantomimă este foarte importantă pentru teatrele din tot Regatul Unit, multe dintre ele pregătindu-se acum pentru stagiunea din acest an. Acum, la teatrul de Crăciun participă unele dintre numele cele mai mari din showbusiness. Matthew Kelly și Hayley Mills vor apărea în Cenușăreasa - primul în rolul uneia dintre surorile rele, iar a doua în rolul zânei. Aceștia dezvăluie secretele pantomimei lor la BBC Breakfast. Steven Wilson: „Dacă nu fac nimic, mă simt vinovat” +Steven Wilson a fost desemnat recent drept marele câștigător al Progressive Music Awards Steven Wilson a fost numit de multe ori drept cel mai muncitor muzician din lumea rockului progresiv. Talentatul muzician a câștigat trei premii la Progressive Music Awards, care a avut loc luna aceasta la Londra, printre care și premiul pentru cel mai bun album al anului pentru Hand. În recenzia sa de cinci stele, The Guardian a numit albumul „o operă de artă inteligentă, expresivă și captivantă”. Încă din anii 1980, Wilson este motorul mai multor proiecte muzicale, cel mai cunoscut dintre acestea fiind trupa de rock Porcupine Tree. Acum, înainte de două spectacole cu casa închisă la Royal Albert Hall, Wilson lansează un dublu LP doar în format vinil, Transience, pentru a arăta latura „mai accesibilă” a activității sale solo. +A povestit pentru BBC despre dragostea lui pentru viniluri și despre programul său încărcat și a explicat cum a ajuns actorul de comedie Matt Berry să îi deschidă spectacolele. Ce înseamnă vinil pentru tine? Am crescut chiar în perioada de sfârșit a erei vinilurilor și îmi amintesc că atunci abia așteptam apariția CD-ului, căci vinilul era atât de enervant. Cumpărai un disc, mergeai cu el acasă, avea o zgârietură și trebuia să îl aduci înapoi. Iubesc CD-urile, iar pentru anumite tipuri de muzică, de exemplu cea clasică, sunt mai bune decât vinilurile. Însă problema cu CD-urile și cu descărcările digitale este aceea că nu mai există nimic pe care să îl prețuiești cu adevărat. Să ai un vinil e ca și cum ai avea un tablou frumos agățat în sufragerie. +E ceva ce poți ține în mână, în timp ce te lași absorbit de versuri și copleșit de actul artistic. Am crezut că e doar o chestie nostalgică, însă nu are cum să fie așa dacă unor puști prea tineri să-și amintească de viniluri le place acest gen de experiență. Ai vreun vinil la care ții în mod special? Recunosc că am scăpat de toate vinilurile în anii '90. Toate vinilurile pe care le am sunt cumpărate din nou. Am pornit de la ideea de a reface colecția pe care o aveam la 15 ani, însă am trecut de limita aceea. Primul disc pe care mi-am convins părinții să mi-l cumpere a fost Out of the Blue de la Electric Light Orchestra. +Dacă aș mai fi avut încă exemplarul inițial, acesta ar fi avut valoare sentimentală, însă, din păcate, se află pe undeva printr-un magazin de caritate. Steven Wilson speră că albumul va fi o poartă către posibili fani noi De ce ți-ai lansat noua compilație Transience pe vinil? Aceasta a fost concepută inițial ca idee pentru Ziua magazinelor de discuri, însă am ratat ocazia. Casa mea de discuri sugerase să adun câteva dintre melodiile mele mai scurte și mai accesibile. Am ajuns să fiu ușor obsedat de ideea de a face ceva gen „introducere în muzica lui Steven Wilson” și am ținut neapărat ca proiectul să fie lansat doar pe vinil. Cine cumpără vinilul primește, de asemenea, și o variantă descărcată la rezoluție înaltă. +Ești îngrijorat că albumul nu va arăta muzica ta în adevărata ei lumină? \ No newline at end of file diff --git a/examples/legacy/seq2seq/test_datasets.py b/examples/legacy/seq2seq/test_datasets.py new file mode 100644 index 00000000000000..6792fcf6ddd6f5 --- /dev/null +++ b/examples/legacy/seq2seq/test_datasets.py @@ -0,0 +1,254 @@ +# Copyright 2020 The HuggingFace Team. All rights reserved. +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +import os +from pathlib import Path + +import numpy as np +import pytest +from torch.utils.data import DataLoader + +from pack_dataset import pack_data_dir +from parameterized import parameterized +from save_len_file import save_len_file +from transformers import AutoTokenizer +from transformers.models.mbart.modeling_mbart import shift_tokens_right +from transformers.testing_utils import TestCasePlus, require_torch_non_multi_gpu_but_fix_me, slow +from utils import FAIRSEQ_AVAILABLE, DistributedSortishSampler, LegacySeq2SeqDataset, Seq2SeqDataset + + +BERT_BASE_CASED = "bert-base-cased" +PEGASUS_XSUM = "google/pegasus-xsum" +ARTICLES = [" Sam ate lunch today.", "Sams lunch ingredients."] +SUMMARIES = ["A very interesting story about what I ate for lunch.", "Avocado, celery, turkey, coffee"] +T5_TINY = "patrickvonplaten/t5-tiny-random" +BART_TINY = "sshleifer/bart-tiny-random" +MBART_TINY = "sshleifer/tiny-mbart" +MARIAN_TINY = "sshleifer/tiny-marian-en-de" + + +def _dump_articles(path: Path, articles: list): + content = "\n".join(articles) + Path(path).open("w").writelines(content) + + +def make_test_data_dir(tmp_dir): + for split in ["train", "val", "test"]: + _dump_articles(os.path.join(tmp_dir, f"{split}.source"), ARTICLES) + _dump_articles(os.path.join(tmp_dir, f"{split}.target"), SUMMARIES) + return tmp_dir + + +class TestAll(TestCasePlus): + @parameterized.expand( + [ + MBART_TINY, + MARIAN_TINY, + T5_TINY, + BART_TINY, + PEGASUS_XSUM, + ], + ) + @slow + @require_torch_non_multi_gpu_but_fix_me + def test_seq2seq_dataset_truncation(self, tok_name): + tokenizer = AutoTokenizer.from_pretrained(tok_name) + tmp_dir = make_test_data_dir(tmp_dir=self.get_auto_remove_tmp_dir()) + max_len_source = max(len(tokenizer.encode(a)) for a in ARTICLES) + max_len_target = max(len(tokenizer.encode(a)) for a in SUMMARIES) + max_src_len = 4 + max_tgt_len = 8 + assert max_len_target > max_src_len # Will be truncated + assert max_len_source > max_src_len # Will be truncated + src_lang, tgt_lang = "ro_RO", "de_DE" # ignored for all but mbart, but never causes error. + train_dataset = Seq2SeqDataset( + tokenizer, + data_dir=tmp_dir, + type_path="train", + max_source_length=max_src_len, + max_target_length=max_tgt_len, # ignored + src_lang=src_lang, + tgt_lang=tgt_lang, + ) + dataloader = DataLoader(train_dataset, batch_size=2, collate_fn=train_dataset.collate_fn) + for batch in dataloader: + assert isinstance(batch, dict) + assert batch["attention_mask"].shape == batch["input_ids"].shape + # show that articles were trimmed. + assert batch["input_ids"].shape[1] == max_src_len + # show that targets are the same len + assert batch["labels"].shape[1] == max_tgt_len + if tok_name != MBART_TINY: + continue + # check language codes in correct place + batch["decoder_input_ids"] = shift_tokens_right(batch["labels"], tokenizer.pad_token_id) + assert batch["decoder_input_ids"][0, 0].item() == tokenizer.lang_code_to_id[tgt_lang] + assert batch["decoder_input_ids"][0, -1].item() == tokenizer.eos_token_id + assert batch["input_ids"][0, -2].item() == tokenizer.eos_token_id + assert batch["input_ids"][0, -1].item() == tokenizer.lang_code_to_id[src_lang] + + break # No need to test every batch + + @parameterized.expand([BART_TINY, BERT_BASE_CASED]) + @require_torch_non_multi_gpu_but_fix_me + def test_legacy_dataset_truncation(self, tok): + tokenizer = AutoTokenizer.from_pretrained(tok) + tmp_dir = make_test_data_dir(tmp_dir=self.get_auto_remove_tmp_dir()) + max_len_source = max(len(tokenizer.encode(a)) for a in ARTICLES) + max_len_target = max(len(tokenizer.encode(a)) for a in SUMMARIES) + trunc_target = 4 + train_dataset = LegacySeq2SeqDataset( + tokenizer, + data_dir=tmp_dir, + type_path="train", + max_source_length=20, + max_target_length=trunc_target, + ) + dataloader = DataLoader(train_dataset, batch_size=2, collate_fn=train_dataset.collate_fn) + for batch in dataloader: + assert batch["attention_mask"].shape == batch["input_ids"].shape + # show that articles were trimmed. + assert batch["input_ids"].shape[1] == max_len_source + assert 20 >= batch["input_ids"].shape[1] # trimmed significantly + # show that targets were truncated + assert batch["labels"].shape[1] == trunc_target # Truncated + assert max_len_target > trunc_target # Truncated + break # No need to test every batch + + @require_torch_non_multi_gpu_but_fix_me + def test_pack_dataset(self): + tokenizer = AutoTokenizer.from_pretrained("facebook/mbart-large-cc25") + + tmp_dir = Path(make_test_data_dir(tmp_dir=self.get_auto_remove_tmp_dir())) + orig_examples = tmp_dir.joinpath("train.source").open().readlines() + save_dir = Path(make_test_data_dir(tmp_dir=self.get_auto_remove_tmp_dir())) + pack_data_dir(tokenizer, tmp_dir, 128, save_dir) + orig_paths = {x.name for x in tmp_dir.iterdir()} + new_paths = {x.name for x in save_dir.iterdir()} + packed_examples = save_dir.joinpath("train.source").open().readlines() + # orig: [' Sam ate lunch today.\n', 'Sams lunch ingredients.'] + # desired_packed: [' Sam ate lunch today.\n Sams lunch ingredients.'] + assert len(packed_examples) < len(orig_examples) + assert len(packed_examples) == 1 + assert len(packed_examples[0]) == sum(len(x) for x in orig_examples) + assert orig_paths == new_paths + + @pytest.mark.skipif(not FAIRSEQ_AVAILABLE, reason="This test requires fairseq") + @require_torch_non_multi_gpu_but_fix_me + def test_dynamic_batch_size(self): + if not FAIRSEQ_AVAILABLE: + return + ds, max_tokens, tokenizer = self._get_dataset(max_len=64) + required_batch_size_multiple = 64 + batch_sampler = ds.make_dynamic_sampler(max_tokens, required_batch_size_multiple=required_batch_size_multiple) + batch_sizes = [len(x) for x in batch_sampler] + assert len(set(batch_sizes)) > 1 # it's not dynamic batch size if every batch is the same length + assert sum(batch_sizes) == len(ds) # no dropped or added examples + data_loader = DataLoader(ds, batch_sampler=batch_sampler, collate_fn=ds.collate_fn, num_workers=2) + failures = [] + num_src_per_batch = [] + for batch in data_loader: + src_shape = batch["input_ids"].shape + bs = src_shape[0] + assert bs % required_batch_size_multiple == 0 or bs < required_batch_size_multiple + num_src_tokens = np.product(batch["input_ids"].shape) + num_src_per_batch.append(num_src_tokens) + if num_src_tokens > (max_tokens * 1.1): + failures.append(num_src_tokens) + assert num_src_per_batch[0] == max(num_src_per_batch) + if failures: + raise AssertionError(f"too many tokens in {len(failures)} batches") + + @require_torch_non_multi_gpu_but_fix_me + def test_sortish_sampler_reduces_padding(self): + ds, _, tokenizer = self._get_dataset(max_len=512) + bs = 2 + sortish_sampler = ds.make_sortish_sampler(bs, shuffle=False) + + naive_dl = DataLoader(ds, batch_size=bs, collate_fn=ds.collate_fn, num_workers=2) + sortish_dl = DataLoader(ds, batch_size=bs, collate_fn=ds.collate_fn, num_workers=2, sampler=sortish_sampler) + + pad = tokenizer.pad_token_id + + def count_pad_tokens(data_loader, k="input_ids"): + return [batch[k].eq(pad).sum().item() for batch in data_loader] + + assert sum(count_pad_tokens(sortish_dl, k="labels")) < sum(count_pad_tokens(naive_dl, k="labels")) + assert sum(count_pad_tokens(sortish_dl)) < sum(count_pad_tokens(naive_dl)) + assert len(sortish_dl) == len(naive_dl) + + def _get_dataset(self, n_obs=1000, max_len=128): + if os.getenv("USE_REAL_DATA", False): + data_dir = "examples/seq2seq/wmt_en_ro" + max_tokens = max_len * 2 * 64 + if not Path(data_dir).joinpath("train.len").exists(): + save_len_file(MARIAN_TINY, data_dir) + else: + data_dir = "examples/seq2seq/test_data/wmt_en_ro" + max_tokens = max_len * 4 + save_len_file(MARIAN_TINY, data_dir) + + tokenizer = AutoTokenizer.from_pretrained(MARIAN_TINY) + ds = Seq2SeqDataset( + tokenizer, + data_dir=data_dir, + type_path="train", + max_source_length=max_len, + max_target_length=max_len, + n_obs=n_obs, + ) + return ds, max_tokens, tokenizer + + @require_torch_non_multi_gpu_but_fix_me + def test_distributed_sortish_sampler_splits_indices_between_procs(self): + ds, max_tokens, tokenizer = self._get_dataset() + ids1 = set(DistributedSortishSampler(ds, 256, num_replicas=2, rank=0, add_extra_examples=False)) + ids2 = set(DistributedSortishSampler(ds, 256, num_replicas=2, rank=1, add_extra_examples=False)) + assert ids1.intersection(ids2) == set() + + @parameterized.expand( + [ + MBART_TINY, + MARIAN_TINY, + T5_TINY, + BART_TINY, + PEGASUS_XSUM, + ], + ) + @require_torch_non_multi_gpu_but_fix_me + def test_dataset_kwargs(self, tok_name): + tokenizer = AutoTokenizer.from_pretrained(tok_name, use_fast=False) + if tok_name == MBART_TINY: + train_dataset = Seq2SeqDataset( + tokenizer, + data_dir=make_test_data_dir(tmp_dir=self.get_auto_remove_tmp_dir()), + type_path="train", + max_source_length=4, + max_target_length=8, + src_lang="EN", + tgt_lang="FR", + ) + kwargs = train_dataset.dataset_kwargs + assert "src_lang" in kwargs and "tgt_lang" in kwargs + else: + train_dataset = Seq2SeqDataset( + tokenizer, + data_dir=make_test_data_dir(tmp_dir=self.get_auto_remove_tmp_dir()), + type_path="train", + max_source_length=4, + max_target_length=8, + ) + kwargs = train_dataset.dataset_kwargs + assert "add_prefix_space" not in kwargs if tok_name != BART_TINY else "add_prefix_space" in kwargs + assert len(kwargs) == 1 if tok_name == BART_TINY else len(kwargs) == 0 diff --git a/examples/legacy/seq2seq/test_finetune_trainer.py b/examples/legacy/seq2seq/test_finetune_trainer.py new file mode 100644 index 00000000000000..77a1c9026297ca --- /dev/null +++ b/examples/legacy/seq2seq/test_finetune_trainer.py @@ -0,0 +1,181 @@ +# Copyright 2020 The HuggingFace Team. All rights reserved. +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +import os +import sys +import unittest +from unittest.mock import patch + +from transformers.file_utils import is_apex_available +from transformers.integrations import is_fairscale_available +from transformers.testing_utils import ( + TestCasePlus, + execute_subprocess_async, + get_gpu_count, + require_torch_multi_gpu, + require_torch_non_multi_gpu, + slow, +) +from transformers.trainer_callback import TrainerState +from transformers.trainer_utils import set_seed + +from .finetune_trainer import main + + +set_seed(42) +MARIAN_MODEL = "sshleifer/student_marian_en_ro_6_1" +MBART_TINY = "sshleifer/tiny-mbart" + + +# a candidate for testing_utils +def require_fairscale(test_case): + """ + Decorator marking a test that requires fairscale + """ + if not is_fairscale_available(): + return unittest.skip("test requires fairscale")(test_case) + else: + return test_case + + +# a candidate for testing_utils +def require_apex(test_case): + """ + Decorator marking a test that requires apex + """ + if not is_apex_available(): + return unittest.skip("test requires apex")(test_case) + else: + return test_case + + +class TestFinetuneTrainer(TestCasePlus): + def finetune_trainer_quick(self, distributed=None, extra_args_str=None): + output_dir = self.run_trainer(1, "12", MBART_TINY, 1, distributed, extra_args_str) + logs = TrainerState.load_from_json(os.path.join(output_dir, "trainer_state.json")).log_history + eval_metrics = [log for log in logs if "eval_loss" in log.keys()] + first_step_stats = eval_metrics[0] + assert "eval_bleu" in first_step_stats + + @require_torch_non_multi_gpu + def test_finetune_trainer_no_dist(self): + self.finetune_trainer_quick() + + # the following 2 tests verify that the trainer can handle distributed and non-distributed with n_gpu > 1 + @require_torch_multi_gpu + def test_finetune_trainer_dp(self): + self.finetune_trainer_quick(distributed=False) + + @require_torch_multi_gpu + def test_finetune_trainer_ddp(self): + self.finetune_trainer_quick(distributed=True) + + # it's crucial to test --sharded_ddp w/ and w/o --fp16 + @require_torch_multi_gpu + @require_fairscale + def test_finetune_trainer_ddp_sharded_ddp(self): + self.finetune_trainer_quick(distributed=True, extra_args_str="--sharded_ddp") + + @require_torch_multi_gpu + @require_fairscale + def test_finetune_trainer_ddp_sharded_ddp_fp16(self): + self.finetune_trainer_quick(distributed=True, extra_args_str="--sharded_ddp --fp16") + + @require_apex + def test_finetune_trainer_apex(self): + self.finetune_trainer_quick(extra_args_str="--fp16 --fp16_backend=apex") + + @slow + def test_finetune_trainer_slow(self): + # There is a missing call to __init__process_group somewhere + output_dir = self.run_trainer( + eval_steps=2, max_len="128", model_name=MARIAN_MODEL, num_train_epochs=10, distributed=False + ) + + # Check metrics + logs = TrainerState.load_from_json(os.path.join(output_dir, "trainer_state.json")).log_history + eval_metrics = [log for log in logs if "eval_loss" in log.keys()] + first_step_stats = eval_metrics[0] + last_step_stats = eval_metrics[-1] + + assert first_step_stats["eval_bleu"] < last_step_stats["eval_bleu"] # model learned nothing + assert isinstance(last_step_stats["eval_bleu"], float) + + # test if do_predict saves generations and metrics + contents = os.listdir(output_dir) + contents = {os.path.basename(p) for p in contents} + assert "test_generations.txt" in contents + assert "test_results.json" in contents + + def run_trainer( + self, + eval_steps: int, + max_len: str, + model_name: str, + num_train_epochs: int, + distributed: bool = False, + extra_args_str: str = None, + ): + data_dir = self.examples_dir / "seq2seq/test_data/wmt_en_ro" + output_dir = self.get_auto_remove_tmp_dir() + args = f""" + --model_name_or_path {model_name} + --data_dir {data_dir} + --output_dir {output_dir} + --overwrite_output_dir + --n_train 8 + --n_val 8 + --max_source_length {max_len} + --max_target_length {max_len} + --val_max_target_length {max_len} + --do_train + --do_eval + --do_predict + --num_train_epochs {str(num_train_epochs)} + --per_device_train_batch_size 4 + --per_device_eval_batch_size 4 + --learning_rate 3e-3 + --warmup_steps 8 + --evaluation_strategy steps + --predict_with_generate + --logging_steps 0 + --save_steps {str(eval_steps)} + --eval_steps {str(eval_steps)} + --group_by_length + --label_smoothing_factor 0.1 + --adafactor + --task translation + --tgt_lang ro_RO + --src_lang en_XX + """.split() + # --eval_beams 2 + + if extra_args_str is not None: + args.extend(extra_args_str.split()) + + if distributed: + n_gpu = get_gpu_count() + distributed_args = f""" + -m torch.distributed.launch + --nproc_per_node={n_gpu} + {self.test_file_dir}/finetune_trainer.py + """.split() + cmd = [sys.executable] + distributed_args + args + execute_subprocess_async(cmd, env=self.get_env()) + else: + testargs = ["finetune_trainer.py"] + args + with patch.object(sys, "argv", testargs): + main() + + return output_dir diff --git a/examples/legacy/seq2seq/test_fsmt_bleu_score.py b/examples/legacy/seq2seq/test_fsmt_bleu_score.py new file mode 100644 index 00000000000000..beb7f2bc9857fd --- /dev/null +++ b/examples/legacy/seq2seq/test_fsmt_bleu_score.py @@ -0,0 +1,71 @@ +# coding=utf-8 +# Copyright 2020 Huggingface +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +import io +import json +import unittest + +from parameterized import parameterized +from transformers import FSMTForConditionalGeneration, FSMTTokenizer +from transformers.testing_utils import get_tests_dir, require_torch, slow, torch_device +from utils import calculate_bleu + + +filename = get_tests_dir() + "/test_data/fsmt/fsmt_val_data.json" +with io.open(filename, "r", encoding="utf-8") as f: + bleu_data = json.load(f) + + +@require_torch +class ModelEvalTester(unittest.TestCase): + def get_tokenizer(self, mname): + return FSMTTokenizer.from_pretrained(mname) + + def get_model(self, mname): + model = FSMTForConditionalGeneration.from_pretrained(mname).to(torch_device) + if torch_device == "cuda": + model.half() + return model + + @parameterized.expand( + [ + ["en-ru", 26.0], + ["ru-en", 22.0], + ["en-de", 22.0], + ["de-en", 29.0], + ] + ) + @slow + def test_bleu_scores(self, pair, min_bleu_score): + # note: this test is not testing the best performance since it only evals a small batch + # but it should be enough to detect a regression in the output quality + mname = f"facebook/wmt19-{pair}" + tokenizer = self.get_tokenizer(mname) + model = self.get_model(mname) + + src_sentences = bleu_data[pair]["src"] + tgt_sentences = bleu_data[pair]["tgt"] + + batch = tokenizer(src_sentences, return_tensors="pt", truncation=True, padding="longest").to(torch_device) + outputs = model.generate( + input_ids=batch.input_ids, + num_beams=8, + ) + decoded_sentences = tokenizer.batch_decode( + outputs, skip_special_tokens=True, clean_up_tokenization_spaces=False + ) + scores = calculate_bleu(decoded_sentences, tgt_sentences) + print(scores) + self.assertGreaterEqual(scores["bleu"], min_bleu_score) diff --git a/examples/legacy/seq2seq/test_seq2seq_examples.py b/examples/legacy/seq2seq/test_seq2seq_examples.py new file mode 100644 index 00000000000000..ecc0524c37d93b --- /dev/null +++ b/examples/legacy/seq2seq/test_seq2seq_examples.py @@ -0,0 +1,131 @@ +# Copyright 2020 The HuggingFace Team. All rights reserved. +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +import logging +import os +import sys +from pathlib import Path +from unittest.mock import patch + +from parameterized import parameterized +from run_eval import run_generate +from run_eval_search import run_search +from transformers.testing_utils import CaptureStdout, TestCasePlus, slow +from utils import ROUGE_KEYS + + +logging.basicConfig(level=logging.DEBUG) +logger = logging.getLogger() + + +def _dump_articles(path: Path, articles: list): + content = "\n".join(articles) + Path(path).open("w").writelines(content) + + +T5_TINY = "patrickvonplaten/t5-tiny-random" +BART_TINY = "sshleifer/bart-tiny-random" +MBART_TINY = "sshleifer/tiny-mbart" + +stream_handler = logging.StreamHandler(sys.stdout) +logger.addHandler(stream_handler) +logging.disable(logging.CRITICAL) # remove noisy download output from tracebacks + + +class TestTheRest(TestCasePlus): + def run_eval_tester(self, model): + input_file_name = Path(self.get_auto_remove_tmp_dir()) / "utest_input.source" + output_file_name = input_file_name.parent / "utest_output.txt" + assert not output_file_name.exists() + articles = [" New York (CNN)When Liana Barrientos was 23 years old, she got married in Westchester County."] + _dump_articles(input_file_name, articles) + + score_path = str(Path(self.get_auto_remove_tmp_dir()) / "scores.json") + task = "translation_en_to_de" if model == T5_TINY else "summarization" + testargs = f""" + run_eval_search.py + {model} + {input_file_name} + {output_file_name} + --score_path {score_path} + --task {task} + --num_beams 2 + --length_penalty 2.0 + """.split() + + with patch.object(sys, "argv", testargs): + run_generate() + assert Path(output_file_name).exists() + # os.remove(Path(output_file_name)) + + # test one model to quickly (no-@slow) catch simple problems and do an + # extensive testing of functionality with multiple models as @slow separately + def test_run_eval(self): + self.run_eval_tester(T5_TINY) + + # any extra models should go into the list here - can be slow + @parameterized.expand([BART_TINY, MBART_TINY]) + @slow + def test_run_eval_slow(self, model): + self.run_eval_tester(model) + + # testing with 2 models to validate: 1. translation (t5) 2. summarization (mbart) + @parameterized.expand([T5_TINY, MBART_TINY]) + @slow + def test_run_eval_search(self, model): + input_file_name = Path(self.get_auto_remove_tmp_dir()) / "utest_input.source" + output_file_name = input_file_name.parent / "utest_output.txt" + assert not output_file_name.exists() + + text = { + "en": ["Machine learning is great, isn't it?", "I like to eat bananas", "Tomorrow is another great day!"], + "de": [ + "Maschinelles Lernen ist großartig, oder?", + "Ich esse gerne Bananen", + "Morgen ist wieder ein toller Tag!", + ], + } + + tmp_dir = Path(self.get_auto_remove_tmp_dir()) + score_path = str(tmp_dir / "scores.json") + reference_path = str(tmp_dir / "val.target") + _dump_articles(input_file_name, text["en"]) + _dump_articles(reference_path, text["de"]) + task = "translation_en_to_de" if model == T5_TINY else "summarization" + testargs = f""" + run_eval_search.py + {model} + {str(input_file_name)} + {str(output_file_name)} + --score_path {score_path} + --reference_path {reference_path} + --task {task} + """.split() + testargs.extend(["--search", "num_beams=1:2 length_penalty=0.9:1.0"]) + + with patch.object(sys, "argv", testargs): + with CaptureStdout() as cs: + run_search() + expected_strings = [" num_beams | length_penalty", model, "Best score args"] + un_expected_strings = ["Info"] + if "translation" in task: + expected_strings.append("bleu") + else: + expected_strings.extend(ROUGE_KEYS) + for w in expected_strings: + assert w in cs.out + for w in un_expected_strings: + assert w not in cs.out + assert Path(output_file_name).exists() + os.remove(Path(output_file_name)) diff --git a/examples/legacy/seq2seq/test_seq2seq_examples_multi_gpu.py b/examples/legacy/seq2seq/test_seq2seq_examples_multi_gpu.py new file mode 100644 index 00000000000000..6625f061b56607 --- /dev/null +++ b/examples/legacy/seq2seq/test_seq2seq_examples_multi_gpu.py @@ -0,0 +1,55 @@ +# Copyright 2020 The HuggingFace Team. All rights reserved. +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +# as due to their complexity multi-gpu tests could impact other tests, and to aid debug we have those in a separate module. + +import os +import sys + +from transformers.testing_utils import TestCasePlus, execute_subprocess_async, get_gpu_count, require_torch_gpu, slow + +from .utils import load_json + + +class TestSummarizationDistillerMultiGPU(TestCasePlus): + @classmethod + def setUpClass(cls): + return cls + + @slow + @require_torch_gpu + def test_distributed_eval(self): + output_dir = self.get_auto_remove_tmp_dir() + args = f""" + --model_name Helsinki-NLP/opus-mt-en-ro + --save_dir {output_dir} + --data_dir {self.test_file_dir_str}/test_data/wmt_en_ro + --num_beams 2 + --task translation + """.split() + + # we want this test to run even if there is only one GPU, but if there are more we use them all + n_gpu = get_gpu_count() + distributed_args = f""" + -m torch.distributed.launch + --nproc_per_node={n_gpu} + {self.test_file_dir}/run_distributed_eval.py + """.split() + cmd = [sys.executable] + distributed_args + args + execute_subprocess_async(cmd, env=self.get_env()) + + metrics_save_path = os.path.join(output_dir, "test_bleu.json") + metrics = load_json(metrics_save_path) + # print(metrics) + self.assertGreaterEqual(metrics["bleu"], 25) diff --git a/examples/legacy/seq2seq/test_tatoeba_conversion.py b/examples/legacy/seq2seq/test_tatoeba_conversion.py new file mode 100644 index 00000000000000..5747811bddda0f --- /dev/null +++ b/examples/legacy/seq2seq/test_tatoeba_conversion.py @@ -0,0 +1,40 @@ +# Copyright 2020 The HuggingFace Team. All rights reserved. +# +# Licensed under the Apache License, Version 2.0 (the "License"); +# you may not use this file except in compliance with the License. +# You may obtain a copy of the License at +# +# http://www.apache.org/licenses/LICENSE-2.0 +# +# Unless required by applicable law or agreed to in writing, software +# distributed under the License is distributed on an "AS IS" BASIS, +# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. +# See the License for the specific language governing permissions and +# limitations under the License. + +import os +import tempfile +import unittest + +from transformers.file_utils import cached_property +from transformers.models.marian.convert_marian_tatoeba_to_pytorch import DEFAULT_REPO, TatoebaConverter +from transformers.testing_utils import require_torch_non_multi_gpu_but_fix_me, slow + + +@unittest.skipUnless(os.path.exists(DEFAULT_REPO), "Tatoeba directory does not exist.") +class TatoebaConversionTester(unittest.TestCase): + @cached_property + def resolver(self): + tmp_dir = tempfile.mkdtemp() + return TatoebaConverter(save_dir=tmp_dir) + + @slow + @require_torch_non_multi_gpu_but_fix_me + def test_resolver(self): + self.resolver.convert_models(["heb-eng"]) + + @slow + @require_torch_non_multi_gpu_but_fix_me + def test_model_card(self): + content, mmeta = self.resolver.write_model_card("opus-mt-he-en", dry_run=True) + assert mmeta["long_pair"] == "heb-eng"