From cc4b2f9fede3f50425ed88647e9ecf6062b1a636 Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Mon, 24 Oct 2022 15:34:06 +1100
Subject: [PATCH 1/9] Add default implementation for `get_media_type` for
 providers with single media type

---
 .../provider_data_ingester.py                 | 15 +++++---
 .../mock_provider_data_ingester.py            | 36 ++++++++++++++++---
 .../test_provider_data_ingester.py            | 19 ++++++++++
 3 files changed, 61 insertions(+), 9 deletions(-)

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py b/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py
index 7028e0c4c..f1db52dcd 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py
@@ -337,7 +337,7 @@ def get_batch_data(self, response_json):
         """
         pass
 
-    def process_batch(self, media_batch):
+    def process_batch(self, media_batch) -> int:
         """
         Process a batch of records by adding them to the appropriate MediaStore.
         Returns the total count of records ingested up to this point, for all
@@ -371,14 +371,19 @@ def process_batch(self, media_batch):
 
         return record_count
 
-    @abstractmethod
     def get_media_type(self, record: dict) -> str:
         """
         For a given record, return the media type it represents (eg "image", "audio",
-        etc.) If a provider only supports a single media type, this may be hard-coded
-        to return that type.
+        etc.) If a provider only supports a single media type, this method defaults
+        to returning the only media type defined in the ``providers`` attribute.
         """
-        pass
+        if len(self.providers) == 1:
+            return list(self.providers.keys())[0]
+
+        raise NotImplementedError(
+            "Provider scripts that support multiple media types "
+            "must provide an override for ``get_media_type``."
+        )
 
     @abstractmethod
     def get_record_data(self, data: dict) -> dict | list[dict] | None:
diff --git a/tests/dags/providers/provider_api_scripts/resources/provider_data_ingester/mock_provider_data_ingester.py b/tests/dags/providers/provider_api_scripts/resources/provider_data_ingester/mock_provider_data_ingester.py
index 453982d15..ea8b69b9f 100644
--- a/tests/dags/providers/provider_api_scripts/resources/provider_data_ingester/mock_provider_data_ingester.py
+++ b/tests/dags/providers/provider_api_scripts/resources/provider_data_ingester/mock_provider_data_ingester.py
@@ -16,10 +16,13 @@
 DEFAULT_QUERY_PARAMS = {"has_image": 1, "page": 1}
 
 
-class MockProviderDataIngester(ProviderDataIngester):
+class MockProviderDataIngesterMixin:
     """
     A very simple concrete implementation of the ProviderDataIngester class,
     for testing purposes.
+
+    Excludes ``get_media_type`` to allow for testing implementations
+    that do not require it (single media type providers).
     """
 
     providers = {"audio": AUDIO_PROVIDER, "image": IMAGE_PROVIDER}
@@ -33,9 +36,6 @@ def get_batch_data(self, response_json):
             return response_json.get("data")
         return None
 
-    def get_media_type(self, record):
-        return record["media_type"]
-
     def get_record_data(self, record):
         data = {
             "foreign_identifier": record["id"],
@@ -50,6 +50,34 @@ def get_record_data(self, record):
         return data
 
 
+class MockProviderDataIngester(MockProviderDataIngesterMixin, ProviderDataIngester):
+    def get_media_type(self, record):
+        return record["media_type"]
+
+
+class MockImageOnlyProviderDataIngester(
+    MockProviderDataIngesterMixin, ProviderDataIngester
+):
+    providers = {"image": IMAGE_PROVIDER}
+
+
+class MockAudioOnlyProviderDataIngester(
+    MockProviderDataIngesterMixin, ProviderDataIngester
+):
+    providers = {"audio": AUDIO_PROVIDER}
+
+
+class IncorrectlyConfiguredMockProviderDataIngester(
+    MockProviderDataIngesterMixin, ProviderDataIngester
+):
+    """
+    Used for testing default method implementions.
+    """
+
+    # Do not configure ``get_media_type`` to test the failure case
+    # for the default implementation
+
+
 # Expected result of calling `get_batch_data` with `response_success.json`
 EXPECTED_BATCH_DATA = [
     {
diff --git a/tests/dags/providers/provider_api_scripts/test_provider_data_ingester.py b/tests/dags/providers/provider_api_scripts/test_provider_data_ingester.py
index 7da644683..2b4a3de50 100644
--- a/tests/dags/providers/provider_api_scripts/test_provider_data_ingester.py
+++ b/tests/dags/providers/provider_api_scripts/test_provider_data_ingester.py
@@ -17,6 +17,9 @@
     EXPECTED_BATCH_DATA,
     IMAGE_PROVIDER,
     MOCK_RECORD_DATA_LIST,
+    IncorrectlyConfiguredMockProviderDataIngester,
+    MockAudioOnlyProviderDataIngester,
+    MockImageOnlyProviderDataIngester,
     MockProviderDataIngester,
 )
 
@@ -26,6 +29,9 @@
 )
 
 ingester = MockProviderDataIngester()
+image_ingester = MockImageOnlyProviderDataIngester()
+audio_ingester = MockAudioOnlyProviderDataIngester()
+misconfigured_ingester = IncorrectlyConfiguredMockProviderDataIngester()
 audio_store = MockAudioStore(AUDIO_PROVIDER)
 image_store = MockImageStore(IMAGE_PROVIDER)
 ingester.media_stores = {"audio": audio_store, "image": image_store}
@@ -388,3 +394,16 @@ def test_commit_commits_all_stores():
 
         assert audio_store_mock.called
         assert image_store_mock.called
+
+
+def test_get_media_type_default_behaviour_multiple_media_types_fails():
+    with pytest.raises(NotImplementedError):
+        misconfigured_ingester.get_media_type({})
+
+
+def test_get_media_type_default_behaviour_image_only_provider():
+    assert image_ingester.get_media_type({}) == "image"
+
+
+def test_get_media_type_default_behaviour_audio_only_provider():
+    assert audio_ingester.get_media_type({}) == "audio"

From 2781620c29785b838389acf272cbaab7a53098df Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Mon, 24 Oct 2022 15:34:12 +1100
Subject: [PATCH 2/9] Refactor Europeana to use ProviderDataIngester base class

---
 .../provider_api_scripts/europeana.py         | 366 +++++++-----------
 .../provider_api_scripts/test_europeana.py    | 256 ++++++------
 2 files changed, 247 insertions(+), 375 deletions(-)

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
index bd0f56b0f..ea924b192 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
@@ -8,266 +8,172 @@
 
 Notes:                  https://www.europeana.eu/api/v2/search.json
 """
-
 import argparse
 import logging
 from datetime import datetime, timedelta, timezone
 
+import common
 from airflow.models import Variable
 from common.licenses import get_license_info
 from common.loader import provider_details as prov
-from common.requester import DelayedRequester
-from common.storage.image import ImageStore
-from requests.exceptions import JSONDecodeError
+from providers.provider_api_scripts.provider_data_ingester import ProviderDataIngester
 
 
-logging.basicConfig(
-    format="%(asctime)s - %(name)s - %(levelname)s:  %(message)s", level=logging.INFO
-)
 logger = logging.getLogger(__name__)
+logging.getLogger(common.urls.__name__).setLevel(logging.WARNING)
+
+
+class EuropeanaRecordBuilder:
+    """
+    A small class to contain the record building functionality
+    and simplify testing a bit.
+    """
+
+    def get_record_data(self, data: dict) -> dict:
+        record = {
+            "foreign_landing_url": self.get_foreign_landing_url(data),
+            "image_url": data.get("edmIsShownBy")[0],
+            "foreign_identifier": data.get("id"),
+            "meta_data": self.get_meta_data_dict(data),
+            "title": data.get("title")[0],
+            "license_info": get_license_info(
+                license_url=self.get_license_url(data.get("rights"))
+            ),
+        }
+
+        data_providers = set(record["meta_data"]["dataProvider"])
+        eligible_sub_providers = {
+            s
+            for s in EuropeanaDataIngester.sub_providers
+            if EuropeanaDataIngester.sub_providers[s] in data_providers
+        }
+        if len(eligible_sub_providers) > 1:
+            raise Exception(
+                f"More than one sub-provider identified for the "
+                f"image with foreign ID {record['foreign_identifier']}"
+            )
+
+        return record | {
+            "source": (
+                eligible_sub_providers.pop()
+                if len(eligible_sub_providers) == 1
+                else EuropeanaDataIngester.providers["image"]
+            )
+        }
+
+    def get_license_url(self, license_field) -> str | None:
+        if len(license_field) > 1:
+            logger.warning("More than one license field found")
+        for license_ in license_field:
+            if "creativecommons" in license_:
+                return license_
+        return None
+
+    def get_foreign_landing_url(self, data: dict) -> str:
+        original_url = data.get("edmIsShownAt")
+        if original_url is not None:
+            return original_url[0]
+        europeana_url = data.get("guid")
+        return europeana_url
+
+    def get_meta_data_dict(self, data: dict) -> dict:
+        meta_data = {
+            "country": data.get("country"),
+            "dataProvider": data.get("dataProvider"),
+            "description": self.get_description(data),
+        }
+
+        return {k: v for k, v in meta_data.items() if v is not None}
+
+    def get_description(self, data: dict) -> str | None:
+        lang_aware_description = data.get("dcDescriptionLangAware")
+        if lang_aware_description:
+            description = lang_aware_description.get(
+                "en"
+            ) or lang_aware_description.get("def")
+        else:
+            description = data.get("dcDescription")
 
-DELAY = 30.0
-RESOURCES_PER_REQUEST = "100"
-PROVIDER = prov.EUROPEANA_DEFAULT_PROVIDER
-API_KEY = Variable.get("API_KEY_EUROPEANA", default_var=None)
-ENDPOINT = "https://www.europeana.eu/api/v2/search.json?"
-# SUB_PROVIDERS is a collection of providers within europeana which are
-# valuable to a broad audience
-SUB_PROVIDERS = prov.EUROPEANA_SUB_PROVIDERS
-
-RESOURCE_TYPE = "IMAGE"
-REUSE_TERMS = ["open", "restricted"]
-
-DEFAULT_QUERY_PARAMS = {
-    "profile": "rich",
-    "reusability": REUSE_TERMS,
-    "sort": ["europeana_id+desc", "timestamp_created+desc"],
-    "rows": RESOURCES_PER_REQUEST,
-    "media": "true",
-    "start": 1,
-    "qf": [f"TYPE:{RESOURCE_TYPE}", "provider_aggregation_edm_isShownBy:*"],
-}
-
-delayed_requester = DelayedRequester(DELAY)
-image_store = ImageStore(provider=PROVIDER)
-
-
-def main(date):
-    logger.info(f"Processing Europeana API for date: {date}")
-
-    start_timestamp, end_timestamp = _derive_timestamp_pair(date)
-    _get_pagewise(start_timestamp, end_timestamp)
-
-    total_images = image_store.commit()
-    logger.info(f"Total images: {total_images}")
-    logger.info("Terminated!")
-
-
-def _get_pagewise(start_timestamp, end_timestamp):
-    cursor = "*"
+        if description:
+            return description[0].strip()
 
-    while cursor is not None:
-        image_list, next_cursor, total_number_of_images = _get_image_list(
-            start_timestamp, end_timestamp, cursor
-        )
+        return ""
 
-        if next_cursor is None:
-            break
 
-        cursor = next_cursor
+class EuropeanaDataIngester(ProviderDataIngester):
+    providers = {"image": prov.EUROPEANA_DEFAULT_PROVIDER}
+    sub_providers = prov.EUROPEANA_SUB_PROVIDERS
+    batch_limit = 100
+    endpoint = "https://www.europeana.eu/api/v2/search.json?"
+    delay = 30
 
-        if image_list is not None:
-            images_stored = _process_image_list(image_list)
-            logger.info(f"Images stored: {images_stored} of {total_number_of_images}")
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
 
-        else:
-            logger.warning("No image data!  Attempting to continue")
-
-
-def _get_image_list(
-    start_timestamp,
-    end_timestamp,
-    cursor,
-    endpoint=ENDPOINT,
-    max_tries=6,  # one original try, plus 5 retries
-):
-    try_number = 0
-    image_list, next_cursor, total_number_of_images = (None, None, None)
-    for try_number in range(max_tries):
-
-        query_param_dict = _build_query_param_dict(
-            start_timestamp, end_timestamp, cursor
-        )
-
-        response = delayed_requester.get(
-            endpoint,
-            params=query_param_dict,
-        )
-
-        logger.debug("response.status_code: {response.status_code}")
-        response_json = _extract_response_json(response)
-        (
-            image_list,
-            next_cursor,
-            total_number_of_images,
-        ) = _extract_image_list_from_json(response_json)
-
-        if image_list is not None:
-            break
-
-    if try_number == max_tries - 1 and (image_list is None or next_cursor is None):
-        logger.warning("No more tries remaining. Returning None types.")
-    return image_list, next_cursor, total_number_of_images
-
-
-def _extract_response_json(response):
-    if response is not None and response.status_code == 200:
-        try:
-            response_json = response.json()
-        except JSONDecodeError as e:
-            logger.warning(f"Could not get image_data json.\n{e}")
-            response_json = None
-    else:
-        response_json = None
+        # Each response back from Europeana returns a `nextCursor`
+        # property that needs to be passed to subsequent requests
+        # as `cursor`. This allows us to systematically page
+        # through the API data.
+        self.cursor = None
 
-    return response_json
+        self.base_request_body = {
+            "wskey": Variable.get("API_KEY_EUROPEANA", default_var=None),
+            "profile": "rich",
+            "reusability": ["open", "restricted"],
+            "sort": ["europeana_id+desc", "timestamp_created+desc"],
+            "rows": str(self.batch_limit),
+            "media": "true",
+            "start": 1,
+            "qf": ["TYPE:IMAGE", "provider_aggregation_edm_isShownBy:*"],
+            # As a dated DAG, Europeana accepts a ``query`` prop in the
+            # request params that delineates the timestamps between which
+            # records will have been added. The base class sets up the
+            # ``self.date`` attribute for us, so we can construct that
+            # ``query`` prop for the request params ahead of time.
+            "query": self._get_timestamp_query_param(self.date),
+        }
 
+        self.record_builder = EuropeanaRecordBuilder()
 
-def _extract_image_list_from_json(response_json):
-    if response_json is None or str(response_json.get("success")) != "True":
-        image_list, next_cursor, total_number_of_images = None, None, None
-    else:
-        image_list = response_json.get("items")
-        next_cursor = response_json.get("nextCursor")
-        total_number_of_images = response_json.get("totalResults")
+    def _get_timestamp_query_param(self, date):
+        date_obj = datetime.strptime(date, "%Y-%m-%d")
+        utc_date = date_obj.replace(tzinfo=timezone.utc)
+        start_timestamp = utc_date.isoformat()
+        end_timestamp = (utc_date + timedelta(days=1)).isoformat()
 
-    return image_list, next_cursor, total_number_of_images
+        start_timestamp = start_timestamp.replace("+00:00", "Z")
+        end_timestamp = end_timestamp.replace("+00:00", "Z")
 
+        return f"timestamp_created:[{start_timestamp} TO {end_timestamp}]"
 
-def _process_image_list(image_list):
-    prev_total = 0
-    total_images = 0
-    for image_data in image_list:
-        total_images = _process_image_data(image_data)
-        if total_images is None:
-            total_images = prev_total
-        else:
-            prev_total = total_images
-
-    return total_images
-
-
-def _process_image_data(image_data, sub_providers=SUB_PROVIDERS, provider=PROVIDER):
-    logger.debug(f"Processing image data: {image_data}")
-    license_url = _get_license_url(image_data.get("rights"))
-    image_url = image_data.get("edmIsShownBy")[0]
-    foreign_landing_url = _get_foreign_landing_url(image_data)
-    foreign_id = image_data.get("id")
-    title = image_data.get("title")[0]
-    meta_data = _create_meta_data_dict(image_data)
-
-    data_providers = set(meta_data["dataProvider"])
-    eligible_sub_providers = {
-        s for s in sub_providers if sub_providers[s] in data_providers
-    }
-    if len(eligible_sub_providers) > 1:
-        raise Exception(
-            f"More than one sub-provider identified for the "
-            f"image with foreign ID {foreign_id}"
-        )
-    source = (
-        eligible_sub_providers.pop() if len(eligible_sub_providers) == 1 else provider
-    )
+    def get_next_query_params(self, prev_query_params) -> dict:
+        if not prev_query_params:
+            return self.base_request_body
 
-    license_info = get_license_info(license_url=license_url)
+        return prev_query_params | {
+            "cursor": self.cursor,
+        }
 
-    return image_store.add_item(
-        foreign_landing_url=foreign_landing_url,
-        image_url=image_url,
-        license_info=license_info,
-        foreign_identifier=foreign_id,
-        title=title,
-        meta_data=meta_data,
-        source=source,
-    )
+    def get_should_continue(self, response_json):
+        if response_json.get("success") != "True":
+            logger.warning('Request failed with ``success = "False"``')
+            return False
 
+        self.cursor = response_json.get("nextCursor")
 
-def _get_license_url(license_field):
-    if len(license_field) > 1:
-        logger.warning("More than one license field found")
-    for license_ in license_field:
-        if "creativecommons" in license_:
-            return license_
-    return None
-
-
-def _get_foreign_landing_url(image_data):
-    original_url = image_data.get("edmIsShownAt")
-    if original_url is not None:
-        return original_url[0]
-    europeana_url = image_data.get("guid")
-    return europeana_url
-
-
-def _create_meta_data_dict(image_data):
-    meta_data = {
-        "country": image_data.get("country"),
-        "dataProvider": image_data.get("dataProvider"),
-        "description": _get_description(image_data),
-    }
-
-    return {k: v for k, v in meta_data.items() if v is not None}
-
-
-def _get_description(image_data):
-    if (
-        image_data.get("dcDescriptionLangAware") is not None
-        and image_data.get("dcDescriptionLangAware").get("en") is not None
-    ):
-        description = image_data.get("dcDescriptionLangAware").get("en")[0]
-    elif (
-        image_data.get("dcDescriptionLangAware") is not None
-        and image_data.get("dcDescriptionLangAware").get("def") is not None
-    ):
-        description = image_data.get("dcDescriptionLangAware").get("def")[0]
-    elif image_data.get("dcDescription") is not None:
-        description = image_data.get("dcDescription")[0]
-    else:
-        description = None
-
-    description = description.strip() if description is not None else ""
-
-    return description
-
-
-def _build_query_param_dict(
-    start_timestamp,
-    end_timestamp,
-    cursor,
-    api_key=API_KEY,
-    default_query_param=None,
-):
-    if default_query_param is None:
-        default_query_param = DEFAULT_QUERY_PARAMS
-    query_param_dict = default_query_param.copy()
-    query_param_dict.update(
-        wskey=api_key,
-        query=f"timestamp_created:[{start_timestamp} TO {end_timestamp}]",
-        cursor=cursor,
-    )
-    return query_param_dict
+        return self.cursor is not None
 
+    def get_batch_data(self, response_json):
+        return response_json.get("items")
 
-def _derive_timestamp_pair(date):
-    date_obj = datetime.strptime(date, "%Y-%m-%d")
-    utc_date = date_obj.replace(tzinfo=timezone.utc)
-    start_timestamp = utc_date.isoformat()
-    end_timestamp = (utc_date + timedelta(days=1)).isoformat()
+    def get_record_data(self, data: dict) -> dict:
+        return self.record_builder.get_record_data(data)
 
-    start_timestamp = start_timestamp.replace("+00:00", "Z")
-    end_timestamp = end_timestamp.replace("+00:00", "Z")
 
-    return start_timestamp, end_timestamp
+def main(date):
+    logger.info(f"Begin: Europeana data ingestion for {date}")
+    ingester = EuropeanaDataIngester(date)
+    ingester.ingest_records()
 
 
 if __name__ == "__main__":
diff --git a/tests/dags/providers/provider_api_scripts/test_europeana.py b/tests/dags/providers/provider_api_scripts/test_europeana.py
index c3a8224b2..43447adf2 100644
--- a/tests/dags/providers/provider_api_scripts/test_europeana.py
+++ b/tests/dags/providers/provider_api_scripts/test_europeana.py
@@ -1,22 +1,18 @@
 import json
-import logging
 import os
-from unittest.mock import MagicMock, patch
 
-import requests
+import pytest
 from common.licenses import LicenseInfo
-from providers.provider_api_scripts import europeana
+from providers.provider_api_scripts.europeana import (
+    EuropeanaDataIngester,
+    EuropeanaRecordBuilder,
+)
 
 
 RESOURCES = os.path.join(
     os.path.abspath(os.path.dirname(__file__)), "resources/europeana"
 )
 
-logging.basicConfig(
-    format="%(asctime)s - %(name)s - %(levelname)s:  %(message)s",
-    level=logging.DEBUG,
-)
-
 
 def _get_resource_json(json_name):
     with open(os.path.join(RESOURCES, json_name)) as f:
@@ -25,120 +21,95 @@ def _get_resource_json(json_name):
     return resource_json
 
 
-def test_derive_timestamp_pair():
-    # Note that the timestamps are derived as if input was in UTC.
-    start_ts, end_ts = europeana._derive_timestamp_pair("2018-01-15")
-    assert start_ts == "2018-01-15T00:00:00Z"
-    assert end_ts == "2018-01-16T00:00:00Z"
+FROZEN_DATE = "2018-01-15"
 
 
-def test_get_image_list_retries_with_none_response():
-    with patch.object(
-        europeana.delayed_requester, "get", return_value=None
-    ) as mock_get:
-        europeana._get_image_list("1234", "5678", "test_cursor", max_tries=3)
+@pytest.fixture
+def ingester() -> EuropeanaDataIngester:
+    return EuropeanaDataIngester(date=FROZEN_DATE)
 
-    assert mock_get.call_count == 3
 
+@pytest.fixture
+def record_builder() -> EuropeanaRecordBuilder:
+    return EuropeanaRecordBuilder()
 
-def test_get_image_list_for_last_page():
-    response_json = _get_resource_json("europeana_example.json")
-    response_json["items"] = []
-    response_json.pop("nextCursor", None)
 
-    r = requests.Response()
-    r.status_code = 200
-    r.json = MagicMock(return_value=response_json)
+def test_derive_timestamp_pair(ingester):
+    # Note that the timestamps are derived as if input was in UTC.
+    # The timestamps below depend on the ``FROZEN_DATE`` constant
+    # defined above.
+    assert ingester.base_request_body["query"] == (
+        "timestamp_created:[2018-01-15T00:00:00Z TO 2018-01-16T00:00:00Z]"
+    )
 
-    with patch.object(europeana.delayed_requester, "get", return_value=r) as mock_get:
-        europeana._get_image_list("1234", "5678", "test_cursor")
 
-    mock_get.assert_called_once()
+def test_get_next_query_params_uses_default_first_pass(ingester):
+    assert ingester.get_next_query_params({}) == ingester.base_request_body
 
 
-def test_get_image_list_retries_with_non_ok_response():
-    response_json = _get_resource_json("europeana_example.json")
-    r = requests.Response()
-    r.status_code = 504
-    r.json = MagicMock(return_value=response_json)
-    with patch.object(europeana.delayed_requester, "get", return_value=r) as mock_get:
-        europeana._get_image_list("1234", "5678", "test_cursor", max_tries=3)
+def test_get_next_query_params_updates_cursor(ingester):
+    prev_query_params = ingester.base_request_body.copy()
+    # Set cursor to something, by default it will be empty
+    cursor = 243392
+    ingester.cursor = cursor
 
-    assert mock_get.call_count == 3
+    # test that it will add the cursor when none was previously set
+    next_query_params = ingester.get_next_query_params(prev_query_params)
+    assert next_query_params == prev_query_params | {"cursor": cursor}
 
+    # next test that it actually also updates any existing cursor
+    next_cursor = cursor + 1
+    ingester.cursor = next_cursor
 
-def test_get_image_list_with_realistic_response():
-    response_json = _get_resource_json("europeana_example.json")
-    r = requests.Response()
-    r.status_code = 200
-    r.json = MagicMock(return_value=response_json)
-    with patch.object(europeana.delayed_requester, "get", return_value=r) as mock_get:
-        image_list, next_cursor, total_number_of_images = europeana._get_image_list(
-            "1234", "5678", "test_cursor", max_tries=3
-        )
-    expect_image_list = _get_resource_json("europeana_image_list.json")
-
-    assert mock_get.call_count == 1
-    assert image_list == expect_image_list
-
-
-# This test will fail if default constants change.
-def test_build_query_param_dict_default():
-    start_timestamp = "1234"
-    end_timestamp = "5678"
-    europeana_api_key = "test_key"
-    resource_type = "IMAGE"
-    reuse_terms = ["open", "restricted"]
-    resources_per_request = "100"
-
-    actual_query_param_dict = europeana._build_query_param_dict(
-        start_timestamp, end_timestamp, "test_cursor", api_key=europeana_api_key
+    next_query_params_with_updated_cursor = ingester.get_next_query_params(
+        next_query_params
     )
-    expect_query_param_dict = {
-        "wskey": europeana_api_key,
-        "profile": "rich",
-        "reusability": reuse_terms,
-        "sort": ["europeana_id+desc", "timestamp_created+desc"],
-        "rows": resources_per_request,
-        "media": "true",
-        "start": 1,
-        "qf": [f"TYPE:{resource_type}", "provider_aggregation_edm_isShownBy:*"],
-        "query": f"timestamp_created:[{start_timestamp} TO {end_timestamp}]",
-        "cursor": "test_cursor",
+
+    assert next_query_params_with_updated_cursor == next_query_params | {
+        "cursor": next_cursor
     }
-    assert actual_query_param_dict == expect_query_param_dict
 
 
-def test_extract_image_list_from_json_handles_realistic_input():
-    test_dict = _get_resource_json("europeana_example.json")
-    expect_image_list = _get_resource_json("europeana_image_list.json")
-    expect_next_cursor = "test_next_cursor"
-    expect_total_number_of_images = 27
+def test_get_should_continue_updates_cursor(ingester):
+    assert ingester.cursor is None
+
+    response_json = {
+        "nextCursor": 123533,
+        "success": "True",
+    }
+
+    assert ingester.get_should_continue(response_json) is True
+
+    assert ingester.cursor == response_json["nextCursor"]
+
+
+@pytest.mark.parametrize(
+    ("response_json"),
     (
-        actual_image_list,
-        actual_next_cursor,
-        actual_total_number_of_images,
-    ) = europeana._extract_image_list_from_json(test_dict)
-    assert actual_image_list == expect_image_list
-    assert actual_next_cursor == expect_next_cursor
-    assert actual_total_number_of_images == expect_total_number_of_images
+        {"success": "True", "nextCursor": None},
+        {"success": "True"},
+        {"success": "False", "nextCursor": "blam"},
+    ),
+)
+def test_get_should_continue_returns_false(ingester, response_json):
+    assert ingester.get_should_continue(response_json) is False
 
 
-def test_extract_image_list_from_json_returns_nones_given_non_true_success():
-    test_dict = {"success": "false", "nextCursor": "test_next_cursor"}
-    assert europeana._extract_image_list_from_json(test_dict) == (None, None, None)
+def test_get_batch_data_gets_items_property(ingester):
+    response_json = {"items": object()}
 
+    assert ingester.get_batch_data(response_json) is response_json["items"]
 
-def test_extract_image_list_from_json_returns_nones_given_none_json():
-    assert europeana._extract_image_list_from_json(None) == (None, None, None)
 
+def test_get_image_list_with_realistic_response(ingester):
+    response_json = _get_resource_json("europeana_example.json")
+    record_count = ingester.process_batch(response_json["items"])
+    assert record_count == len(response_json["items"])
 
-def test_process_image_data_with_real_example():
+
+def test_record_builder_get_record_data(ingester, record_builder):
     image_data = _get_resource_json("image_data_example.json")
-    with patch.object(
-        europeana.image_store, "add_item", return_value=100
-    ) as mock_add_item:
-        total_images = europeana._process_image_data(image_data)
+    record_data = record_builder.get_record_data(image_data)
 
     expect_meta_data = {
         "country": ["Spain"],
@@ -146,15 +117,15 @@ def test_process_image_data_with_real_example():
         "description": "Sello en seco: España artística y monumental.",
     }
 
-    mock_add_item.assert_called_once_with(
-        foreign_landing_url=(
+    assert record_data == {
+        "foreign_landing_url": (
             "http://bibliotecadigital.jcyl.es/i18n/consulta/registro.cmd?" "id=26229"
         ),
-        image_url=(
+        "image_url": (
             "http://bibliotecadigital.jcyl.es/i18n/catalogo_imagenes"
             "/imagen_id.cmd?idImagen=102620362"
         ),
-        license_info=(
+        "license_info": (
             LicenseInfo(
                 "cc0",
                 "1.0",
@@ -162,49 +133,48 @@ def test_process_image_data_with_real_example():
                 "http://creativecommons.org/publicdomain/zero/1.0/",
             )
         ),
-        foreign_identifier="/2022704/lod_oai_bibliotecadigital_jcyl_es_26229_ent1",
-        title=(
+        "foreign_identifier": "/2022704/lod_oai_bibliotecadigital_jcyl_es_26229_ent1",
+        "title": (
             "Claustro del Monasterio de S. Salvador en Oña [Material gráfico]"
             "= Cloître du Monastère de S. Salvador à Oña"
         ),
-        meta_data=expect_meta_data,
-        source=europeana.PROVIDER,
-    )
-    assert total_images == 100
+        "meta_data": expect_meta_data,
+        "source": ingester.providers["image"],
+    }
 
 
-def test_get_license_url_with_real_example():
+def test_record_builder_get_license_url_with_real_example(record_builder):
     rights_field = ["http://creativecommons.org/publicdomain/zero/1.0/"]
 
     assert (
-        europeana._get_license_url(rights_field)
+        record_builder.get_license_url(rights_field)
         == "http://creativecommons.org/publicdomain/zero/1.0/"
     )
 
 
-def test_get_license_url_with_non_cc_license():
+def test_get_license_url_with_non_cc_license(record_builder):
     rights_field = ["http://noncc.org/"]
 
-    assert europeana._get_license_url(rights_field) is None
+    assert record_builder.get_license_url(rights_field) is None
 
 
-def test_get_license_url_with_multiple_license():
+def test_get_license_url_with_multiple_license(record_builder):
     rights_field = [
         "http://noncc.org/",
         "http://creativecommons.org/publicdomain/zero/1.0/",
     ]
     expect_license = "http://creativecommons.org/publicdomain/zero/1.0/"
-    assert europeana._get_license_url(rights_field) == expect_license
+    assert record_builder.get_license_url(rights_field) == expect_license
 
 
-def test_get_foreign_landing_url_with_edmIsShownAt():
+def test_get_foreign_landing_url_with_edmIsShownAt(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     expect_url = "http://bibliotecadigital.jcyl.es/i18n/consulta/registro.cmd?id=26229"
 
-    assert europeana._get_foreign_landing_url(image_data) == expect_url
+    assert record_builder.get_foreign_landing_url(image_data) == expect_url
 
 
-def test_get_foreign_landing_url_without_edmIsShownAt():
+def test_get_foreign_landing_url_without_edmIsShownAt(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     image_data.pop("edmIsShownAt", None)
     expect_url = (
@@ -212,10 +182,10 @@ def test_get_foreign_landing_url_without_edmIsShownAt():
         "_es_26229_ent1?utm_source=api&utm_medium=api&utm_campaign=test_key"
     )
 
-    assert europeana._get_foreign_landing_url(image_data) == expect_url
+    assert record_builder.get_foreign_landing_url(image_data) == expect_url
 
 
-def test_create_meta_data_dict():
+def test_get_meta_data_dict(record_builder):
     image_data = _get_resource_json("image_data_example.json")
 
     expect_meta_data = {
@@ -224,10 +194,10 @@ def test_create_meta_data_dict():
         "description": "Sello en seco: España artística y monumental.",
     }
 
-    assert europeana._create_meta_data_dict(image_data) == expect_meta_data
+    assert record_builder.get_meta_data_dict(image_data) == expect_meta_data
 
 
-def test_create_meta_data_dict_without_country():
+def test_get_meta_data_dict_without_country(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     image_data.pop("country", None)
 
@@ -236,10 +206,10 @@ def test_create_meta_data_dict_without_country():
         "description": "Sello en seco: España artística y monumental.",
     }
 
-    assert europeana._create_meta_data_dict(image_data) == expect_meta_data
+    assert record_builder.get_meta_data_dict(image_data) == expect_meta_data
 
 
-def test_get_description_with_langaware_en():
+def test_get_description_with_langaware_en(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     image_data["dcDescriptionLangAware"]["en"] = [
         "First English Description",
@@ -247,40 +217,37 @@ def test_get_description_with_langaware_en():
     ]
     expect_description = "First English Description"
 
-    assert europeana._get_description(image_data) == expect_description
+    assert record_builder.get_description(image_data) == expect_description
 
 
-def test_get_description_with_langaware_def():
+def test_get_description_with_langaware_def(record_builder):
     image_data = _get_resource_json("image_data_example.json")
 
     expect_description = "Sello en seco: España artística y monumental."
 
-    assert europeana._get_description(image_data) == expect_description
+    assert record_builder.get_description(image_data) == expect_description
 
 
-def test_get_description_without_langaware():
+def test_get_description_without_langaware(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     image_data.pop("dcDescriptionLangAware", None)
     expect_description = "Sello en seco: España artística y monumental."
 
-    assert europeana._get_description(image_data) == expect_description
+    assert record_builder.get_description(image_data) == expect_description
 
 
-def test_get_description_without_description():
+def test_get_description_without_description(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     image_data.pop("dcDescriptionLangAware", None)
     image_data.pop("dcDescription", None)
     expect_description = ""
 
-    assert europeana._get_description(image_data) == expect_description
+    assert record_builder.get_description(image_data) == expect_description
 
 
-def test_process_image_data_with_sub_provider():
+def test_process_image_data_with_sub_provider(record_builder):
     image_data = _get_resource_json("image_data_sub_provider_example.json")
-    with patch.object(
-        europeana.image_store, "add_item", return_value=100
-    ) as mock_add_item:
-        total_images = europeana._process_image_data(image_data)
+    record_data = record_builder.get_record_data(image_data)
 
     expect_meta_data = {
         "country": ["United Kingdom"],
@@ -288,24 +255,23 @@ def test_process_image_data_with_sub_provider():
         "description": "Lettering: Greenwich Hospital.",
     }
 
-    mock_add_item.assert_called_once_with(
-        foreign_landing_url="https://wellcomecollection.org/works/zzwnbyhb",
-        image_url=(
+    assert record_data == {
+        "foreign_landing_url": "https://wellcomecollection.org/works/zzwnbyhb",
+        "image_url": (
             "https://iiif.wellcomecollection.org/image/V0013398.jpg/full/512,"
             "/0/default.jpg"
         ),
-        license_info=LicenseInfo(
+        "license_info": LicenseInfo(
             "by",
             "4.0",
             "https://creativecommons.org/licenses/by/4.0/",
             "http://creativecommons.org/licenses/by/4.0/",
         ),
-        foreign_identifier="/9200579/zzwnbyhb",
-        title=(
+        "foreign_identifier": "/9200579/zzwnbyhb",
+        "title": (
             "Royal Naval Hospital, Greenwich, with ships and rowing boats "
             "in the foreground. Engraving."
         ),
-        meta_data=expect_meta_data,
-        source="wellcome_collection",
-    )
-    assert total_images == 100
+        "meta_data": expect_meta_data,
+        "source": "wellcome_collection",
+    }

From dfac506409087cc3a48d689ef49e7503bc65940b Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Tue, 25 Oct 2022 09:24:22 +1100
Subject: [PATCH 3/9] Fix description missing if en or def are empty

Also update record builder tests to not call individual methods, removing the assumption that the record builder methods operate individually. Making all methods other than `get_record_data` on the record builder class solidifies this.
---
 .../provider_api_scripts/europeana.py         | 20 ++---
 .../provider_api_scripts/test_europeana.py    | 75 +++++++++++++------
 2 files changed, 63 insertions(+), 32 deletions(-)

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
index ea924b192..345a7b6a7 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
@@ -31,13 +31,13 @@ class EuropeanaRecordBuilder:
 
     def get_record_data(self, data: dict) -> dict:
         record = {
-            "foreign_landing_url": self.get_foreign_landing_url(data),
+            "foreign_landing_url": self._get_foreign_landing_url(data),
             "image_url": data.get("edmIsShownBy")[0],
             "foreign_identifier": data.get("id"),
-            "meta_data": self.get_meta_data_dict(data),
+            "meta_data": self._get_meta_data_dict(data),
             "title": data.get("title")[0],
             "license_info": get_license_info(
-                license_url=self.get_license_url(data.get("rights"))
+                license_url=self._get_license_url(data.get("rights"))
             ),
         }
 
@@ -61,7 +61,7 @@ def get_record_data(self, data: dict) -> dict:
             )
         }
 
-    def get_license_url(self, license_field) -> str | None:
+    def _get_license_url(self, license_field) -> str | None:
         if len(license_field) > 1:
             logger.warning("More than one license field found")
         for license_ in license_field:
@@ -69,29 +69,31 @@ def get_license_url(self, license_field) -> str | None:
                 return license_
         return None
 
-    def get_foreign_landing_url(self, data: dict) -> str:
+    def _get_foreign_landing_url(self, data: dict) -> str:
         original_url = data.get("edmIsShownAt")
         if original_url is not None:
             return original_url[0]
         europeana_url = data.get("guid")
         return europeana_url
 
-    def get_meta_data_dict(self, data: dict) -> dict:
+    def _get_meta_data_dict(self, data: dict) -> dict:
         meta_data = {
             "country": data.get("country"),
             "dataProvider": data.get("dataProvider"),
-            "description": self.get_description(data),
+            "description": self._get_description(data),
         }
 
         return {k: v for k, v in meta_data.items() if v is not None}
 
-    def get_description(self, data: dict) -> str | None:
+    def _get_description(self, data: dict) -> str | None:
+        description = None
         lang_aware_description = data.get("dcDescriptionLangAware")
         if lang_aware_description:
             description = lang_aware_description.get(
                 "en"
             ) or lang_aware_description.get("def")
-        else:
+
+        if not description:  # cover None and []
             description = data.get("dcDescription")
 
         if description:
diff --git a/tests/dags/providers/provider_api_scripts/test_europeana.py b/tests/dags/providers/provider_api_scripts/test_europeana.py
index 43447adf2..91e51e485 100644
--- a/tests/dags/providers/provider_api_scripts/test_europeana.py
+++ b/tests/dags/providers/provider_api_scripts/test_europeana.py
@@ -2,7 +2,7 @@
 import os
 
 import pytest
-from common.licenses import LicenseInfo
+from common.licenses import LicenseInfo, get_license_info
 from providers.provider_api_scripts.europeana import (
     EuropeanaDataIngester,
     EuropeanaRecordBuilder,
@@ -144,34 +144,42 @@ def test_record_builder_get_record_data(ingester, record_builder):
 
 
 def test_record_builder_get_license_url_with_real_example(record_builder):
-    rights_field = ["http://creativecommons.org/publicdomain/zero/1.0/"]
+    image_data = _get_resource_json("image_data_example.json")
+    image_data["rights"] = ["http://creativecommons.org/publicdomain/zero/1.0/"]
 
-    assert (
-        record_builder.get_license_url(rights_field)
-        == "http://creativecommons.org/publicdomain/zero/1.0/"
-    )
+    assert record_builder.get_record_data(image_data)[
+        "license_info"
+    ] == get_license_info("http://creativecommons.org/publicdomain/zero/1.0/")
 
 
 def test_get_license_url_with_non_cc_license(record_builder):
-    rights_field = ["http://noncc.org/"]
+    image_data = _get_resource_json("image_data_example.json")
+    image_data["rights"] = ["http://noncc.org/"]
 
-    assert record_builder.get_license_url(rights_field) is None
+    assert record_builder.get_record_data(image_data)["license_info"] == LicenseInfo(
+        None, None, None, None
+    )
 
 
 def test_get_license_url_with_multiple_license(record_builder):
-    rights_field = [
+    image_data = _get_resource_json("image_data_example.json")
+    image_data["rights"] = [
         "http://noncc.org/",
         "http://creativecommons.org/publicdomain/zero/1.0/",
     ]
-    expect_license = "http://creativecommons.org/publicdomain/zero/1.0/"
-    assert record_builder.get_license_url(rights_field) == expect_license
+    expect_license = get_license_info(
+        "http://creativecommons.org/publicdomain/zero/1.0/"
+    )
+    assert record_builder.get_record_data(image_data)["license_info"] == expect_license
 
 
 def test_get_foreign_landing_url_with_edmIsShownAt(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     expect_url = "http://bibliotecadigital.jcyl.es/i18n/consulta/registro.cmd?id=26229"
 
-    assert record_builder.get_foreign_landing_url(image_data) == expect_url
+    assert (
+        record_builder.get_record_data(image_data)["foreign_landing_url"] == expect_url
+    )
 
 
 def test_get_foreign_landing_url_without_edmIsShownAt(record_builder):
@@ -182,7 +190,9 @@ def test_get_foreign_landing_url_without_edmIsShownAt(record_builder):
         "_es_26229_ent1?utm_source=api&utm_medium=api&utm_campaign=test_key"
     )
 
-    assert record_builder.get_foreign_landing_url(image_data) == expect_url
+    assert (
+        record_builder.get_record_data(image_data)["foreign_landing_url"] == expect_url
+    )
 
 
 def test_get_meta_data_dict(record_builder):
@@ -194,7 +204,7 @@ def test_get_meta_data_dict(record_builder):
         "description": "Sello en seco: España artística y monumental.",
     }
 
-    assert record_builder.get_meta_data_dict(image_data) == expect_meta_data
+    assert record_builder.get_record_data(image_data)["meta_data"] == expect_meta_data
 
 
 def test_get_meta_data_dict_without_country(record_builder):
@@ -206,10 +216,19 @@ def test_get_meta_data_dict_without_country(record_builder):
         "description": "Sello en seco: España artística y monumental.",
     }
 
-    assert record_builder.get_meta_data_dict(image_data) == expect_meta_data
+    assert record_builder.get_record_data(image_data)["meta_data"] == expect_meta_data
+
+
+@pytest.fixture
+def assert_description(record_builder):
+    def fn(image_data, expected_description):
+        record_data = record_builder.get_record_data(image_data)
+        assert record_data["meta_data"]["description"] == expected_description
+
+    return fn
 
 
-def test_get_description_with_langaware_en(record_builder):
+def test_get_description_with_langaware_en(assert_description):
     image_data = _get_resource_json("image_data_example.json")
     image_data["dcDescriptionLangAware"]["en"] = [
         "First English Description",
@@ -217,32 +236,42 @@ def test_get_description_with_langaware_en(record_builder):
     ]
     expect_description = "First English Description"
 
-    assert record_builder.get_description(image_data) == expect_description
+    assert_description(image_data, expect_description)
 
 
-def test_get_description_with_langaware_def(record_builder):
+def test_get_description_with_langaware_def(assert_description):
     image_data = _get_resource_json("image_data_example.json")
 
     expect_description = "Sello en seco: España artística y monumental."
 
-    assert record_builder.get_description(image_data) == expect_description
+    assert_description(image_data, expect_description)
 
 
-def test_get_description_without_langaware(record_builder):
+def test_get_description_without_langaware(assert_description):
     image_data = _get_resource_json("image_data_example.json")
     image_data.pop("dcDescriptionLangAware", None)
     expect_description = "Sello en seco: España artística y monumental."
 
-    assert record_builder.get_description(image_data) == expect_description
+    assert_description(image_data, expect_description)
 
 
-def test_get_description_without_description(record_builder):
+def test_get_description_without_description(assert_description):
     image_data = _get_resource_json("image_data_example.json")
     image_data.pop("dcDescriptionLangAware", None)
     image_data.pop("dcDescription", None)
     expect_description = ""
 
-    assert record_builder.get_description(image_data) == expect_description
+    assert_description(image_data, expect_description)
+
+
+def test_get_description_dcDescriptionLangAware_without_en_or_def(assert_description):
+    image_data = _get_resource_json("image_data_example.json")
+    # Need to give dcDescriptionLangAware _something_ to thwart naive
+    # falsy checks
+    image_data["dcDescriptionLangAware"] = {"pt": "Não sou uma descrição"}
+
+    expect_description = image_data["dcDescription"][0]
+    assert_description(image_data, expect_description)
 
 
 def test_process_image_data_with_sub_provider(record_builder):

From 384380dc24ea8a8192c87a6234da170ec882750e Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Tue, 25 Oct 2022 09:25:58 +1100
Subject: [PATCH 4/9] Remove unnecessary batch_limit override

---
 .../dags/providers/provider_api_scripts/europeana.py             | 1 -
 1 file changed, 1 deletion(-)

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
index 345a7b6a7..65617d184 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
@@ -105,7 +105,6 @@ def _get_description(self, data: dict) -> str | None:
 class EuropeanaDataIngester(ProviderDataIngester):
     providers = {"image": prov.EUROPEANA_DEFAULT_PROVIDER}
     sub_providers = prov.EUROPEANA_SUB_PROVIDERS
-    batch_limit = 100
     endpoint = "https://www.europeana.eu/api/v2/search.json?"
     delay = 30
 

From b54f8af171b80713f115f0d35b454eb83669d4c0 Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Tue, 25 Oct 2022 09:30:41 +1100
Subject: [PATCH 5/9] Update provider workflow config for Europeana

---
 openverse_catalog/dags/providers/provider_workflows.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/openverse_catalog/dags/providers/provider_workflows.py b/openverse_catalog/dags/providers/provider_workflows.py
index eceb0a632..f6cb1f42c 100644
--- a/openverse_catalog/dags/providers/provider_workflows.py
+++ b/openverse_catalog/dags/providers/provider_workflows.py
@@ -5,6 +5,7 @@
 
 from providers.provider_api_scripts.brooklyn_museum import BrooklynMuseumDataIngester
 from providers.provider_api_scripts.cleveland_museum import ClevelandDataIngester
+from providers.provider_api_scripts.europeana import EuropeanaDataIngester
 from providers.provider_api_scripts.finnish_museums import FinnishMuseumsDataIngester
 from providers.provider_api_scripts.freesound import FreesoundDataIngester
 from providers.provider_api_scripts.inaturalist import INaturalistDataIngester
@@ -123,6 +124,7 @@ def __post_init__(self):
     ),
     ProviderWorkflow(
         provider_script="europeana",
+        ingestion_callable=EuropeanaDataIngester,
         start_date=datetime(2011, 9, 1),
         schedule_string="@daily",
         dated=True,

From 1ea1a50763b2058e3e863d30701a479e94c4f316 Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Tue, 25 Oct 2022 16:05:26 +1100
Subject: [PATCH 6/9] Add back default cursor from previous implementation

---
 .../dags/providers/provider_api_scripts/europeana.py             | 1 +
 1 file changed, 1 insertion(+)

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
index 65617d184..14de1d1fd 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
@@ -132,6 +132,7 @@ def __init__(self, *args, **kwargs):
             # ``self.date`` attribute for us, so we can construct that
             # ``query`` prop for the request params ahead of time.
             "query": self._get_timestamp_query_param(self.date),
+            "cursor": "*",
         }
 
         self.record_builder = EuropeanaRecordBuilder()

From a34b7d83df8a2d5949747e9b845d888aed345187 Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Tue, 25 Oct 2022 16:10:47 +1100
Subject: [PATCH 7/9] Move success check into `get_batch_data`

Co-authored-by: Madison Swain-Bowden <bowdenm@spu.edu>
---
 .../provider_api_scripts/europeana.py         |   13 +-
 .../provider_data_ingester.py                 |    2 +-
 qq                                            | 1399 +++++++++++++++++
 3 files changed, 1407 insertions(+), 7 deletions(-)
 create mode 100644 qq

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
index 14de1d1fd..8dbb19624 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
@@ -156,16 +156,17 @@ def get_next_query_params(self, prev_query_params) -> dict:
             "cursor": self.cursor,
         }
 
-    def get_should_continue(self, response_json):
-        if response_json.get("success") != "True":
-            logger.warning('Request failed with ``success = "False"``')
-            return False
-
+    def get_should_continue(self, response_json: dict):
         self.cursor = response_json.get("nextCursor")
 
         return self.cursor is not None
 
-    def get_batch_data(self, response_json):
+    def get_batch_data(self, response_json: dict) -> None | list[dict]:
+        if response_json.get("success") != "True":
+            logger.warning('Request failed with ``success = "False"``')
+            # No batch data to process if the request failed.
+            return None
+
         return response_json.get("items")
 
     def get_record_data(self, data: dict) -> dict:
diff --git a/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py b/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py
index f1db52dcd..14a12d4fa 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/provider_data_ingester.py
@@ -331,7 +331,7 @@ def get_should_continue(self, response_json):
         return True
 
     @abstractmethod
-    def get_batch_data(self, response_json):
+    def get_batch_data(self, response_json) -> None | list[dict]:
         """
         Take an API response and return the list of records.
         """
diff --git a/qq b/qq
new file mode 100644
index 000000000..12694a072
--- /dev/null
+++ b/qq
@@ -0,0 +1,1399 @@
+[33m1ea1a507[m[33m ([m[1;36mHEAD -> [m[1;32mrefactor/europeana-provider-base-class[m[33m)[m Add back default cursor from previous implementation
+[33mb54f8af1[m[33m ([m[1;31morigin/refactor/europeana-provider-base-class[m[33m)[m Update provider workflow config for Europeana
+[33m384380dc[m Remove unnecessary batch_limit override
+[33mdfac5064[m Fix description missing if en or def are empty
+[33m2781620c[m Refactor Europeana to use ProviderDataIngester base class
+[33mcc4b2f9f[m Add default implementation for `get_media_type` for providers with single media type
+[33m9ff501e6[m[33m ([m[1;31morigin/main[m[33m, [m[1;31morigin/HEAD[m[33m, [m[1;32mmain[m[33m)[m 🔄 Synced file(s) with WordPress/openverse (#802)
+[33m63b0fb7f[m Retire TSV loading workflow (#789)
+[33m3217ed5e[m Made improvements to `CONTRIBUTING.md` (#791)
+[33m8f92318c[m[33m ([m[1;33mtag: v1.3.5[m[33m)[m Refactor Freesound to use ProviderDataIngester (#746)
+[33m46c2c161[m Retire Walters Art Museum provider script (#786)
+[33m740cf00c[m Bump pytest-mock from 3.9.0 to 3.10.0 (#781)
+[33mdb47359a[m Refactor Jamendo to use the ProviderDataIngester (#741)
+[33md678dc7a[m Disable email on failure by default (#788)
+[33m8ee7fb72[m Add concurrency settings for workflow (#770)
+[33mfcf1d90c[m 🔄 Synced file(s) with WordPress/openverse (#787)
+[33m4fee8ce9[m Increase dependabot PR limit to 10 (#780)
+[33m337ea7ae[m 🔄 Synced file(s) with WordPress/openverse (#771)
+[33m4cb9d417[m Fix italics for duration disclosure (#769)
+[33mf6538ce2[m Bump pre-commit from 2.14.0 to 2.20.0 (#779)
+[33md378ba7b[m Bump tldextract from 3.3.1 to 3.4.0 (#777)
+[33md926e083[m Bump apache-airflow[amazon,http,postgres] from 2.4.0 to 2.4.1 (#767)
+[33m06faf94f[m Bump pytest-sugar from 0.9.4 to 0.9.5 (#751)
+[33m62ee12a0[m Bump isort from 5.9.3 to 5.10.1 (#764)
+[33me49b0c32[m Bump black from 22.3.0 to 22.10.0 (#778)
+[33mc1b970b1[m Add user agent to StockSnap header and use header in requests by default (#765)
+[33md4dbf4d0[m Improved data refresh status reporting (#744)
+[33m7bf37fc5[m Bump pytest-mock from 3.6.1 to 3.9.0 (#749)
+[33m58247f67[m Bump tldextract from 3.1.0 to 3.3.1 (#752)
+[33m600b9eea[m Remove periods after URLs in log lines. (#763)
+[33mb571d024[m Bump flake8 from 3.9.2 to 5.0.4 (#750)
+[33m516d7674[m Add dependabot config (#740)
+[33m323d07bc[m Refactor SMK script to use the `ProviderDataIngester` class (#742)
+[33m3b58e60c[m Default unfurling of links and media to False in Slack notifications (#743)
+[33mb9f29df9[m[33m ([m[1;33mtag: v1.3.4[m[33m)[m Add tags option for provider workflows & "legacy-ingestion" tag (#739)
+[33mb4ef93ce[m Bump Airflow to 2.4.0, standardize version bump process (#737)
+[33mcec68932[m Use Airflow variable to omit DAGs from any Slack notification (#644)
+[33m4a9c008a[m Update reingestion workflows to load and report data (#618)
+[33mfc627743[m 🔄 Synced file(s) with WordPress/openverse (#735)
+[33m28bfd169[m Add spellcheck to pre-commit config (#718)
+[33ma329be22[m[33m ([m[1;33mtag: v1.3.3[m[33m)[m Bump Airflow version to 2.3.4 (#731)
+[33me66bf63f[m 🔄 Synced file(s) with WordPress/openverse (#733)
+[33m5e7119c5[m[33m ([m[1;33mtag: v1.3.2[m[33m)[m 🔄 Synced file(s) with WordPress/openverse (#728)
+[33m6e9d02d6[m Add none check for Cleveland `image_data` (#709)
+[33mbcda6e0b[m Add `DEPLOYMENT.md` & deployment-related files (#711)
+[33m70312d08[m Remove error swallowing during ingestion (#713)
+[33m18decf9b[m Refactor Wikimedia Commons to use ProviderDataIngester (#614)
+[33m25feeb73[m Allow string as exceptions in `on_failure_callback` (#695)
+[33me9fe5b96[m Always use Jamendo's "streaming" audio (#706)
+[33m9be8bcec[m Refactor Brooklyn Museum to use ProviderDataIngester (#701)
+[33md828d257[m Fix dagrun conf for provider scripts (#708)
+[33m70c66f93[m Initialize iNaturalist with dagrun conf (#707)
+[33mb85df5b2[m hardcodes the test ingestion limit to 1 000 000 (#705)
+[33m8ac257cd[m Refactor Metropolitan Museum of Art to use ProviderDataIngester (#674)
+[33m2a9647ab[m Always record provider run duration (#694)
+[33m03ce84f2[m Allow DAGs to silence only errors matching predicate (#654)
+[33ma9417694[m Bump iNaturalist timeouts to 5 days (#691)
+[33m8a28f948[m Update CODEOWNERS (#677)
+[33m1c2fbe8a[m Standardize on datetime over pendulum (#678)
+[33mee474f2c[m Add iNaturalist.org metadata (#549)
+[33m2d41485f[m Add Openverse email to DAG default args (#683)
+[33m2273271f[m Update audioset_view to use most recently updated f_id/provider pair (#660)
+[33m1d407e81[m Use Python 3.10 everywhere (#656)
+[33m83c688d8[m[33m ([m[1;33mtag: v1.3.1[m[33m)[m Add configuration options to skip ingestion errors (#650)
+[33mf6e8fa01[m Upgrade Airflow to v2.3.3 (#664)
+[33m40b4306b[m Updates Handbook Link (#662)
+[33m54aee38b[m Re-ping if PR is updated and don't ping if 2 approvals exist (#642)
+[33m0072114e[m Tighten exception handling, always flush buffer (#645)
+[33m0f584754[m Automatic DAG documentation generation (#649)
+[33m704b33cb[m Only delete dag runs/task instances during testing that match pattern (#651)
+[33m9fea6554[m Omit DAGs that are known to fail from alerts (#643)
+[33md33083de[m Fix typo in README (#652)
+[33m492ae8b5[m Data refresh record difference reporting (#636)
+[33ma2e1d50f[m Use the default provider categories during ingestion (#635)
+[33m8c04155c[m Partition TSVs by date (#632)
+[33m06046dae[m Only drop load table if it exists (#634)
+[33m991162bd[m Refactor Science museum to use ProviderDataIngester (#576)
+[33mea5a7f06[m Refactor Museum Victoria to use ProviderDataIngester (#600)
+[33m78232410[m Re-raise pytest-socket errors within DelayedRequester (#629)
+[33m1882d777[m Update Finnish Museums to use base class (#579)
+[33m2f9df1bf[m Adjust load data timeout and retries (#626)
+[33m3ee97b6c[m Update data refresh DAG to account for manual go-live (#578)
+[33m8754cb63[m Generate TSV filenames in separate step (#620)
+[33m4451ee03[m Patch Stocksnap tests that called out to external API (#628)
+[33m0bd0b002[m Turn on catchup for dated DAGs to allow backfill (#602)
+[33mc294e3e2[m Ignore DS_Store files (#627)
+[33mcd7ca961[m Add date range to ingestion load reports (#613)
+[33m7bf8ec42[m Update Openverse URL in the user agent string (#612)
+[33m5e86d291[m Unify header added (#610)
+[33mea1016de[m Add test to check for import errors for all DAGs in the dags dir (#580)
+[33mcc7322b8[m Refactor StockSnap to use ProviderDataIngester (#601)
+[33ma5101162[m 🔄 Synced file(s) with WordPress/openverse (#604)
+[33m1f97c69a[m 🔄 Synced file(s) with WordPress/openverse (#603)
+[33m42ddf2bf[m Add missing `MD5` hash to foreign id comparison (#575)
+[33m1c9fd4cf[m Add base class for Provider API scripts (#555)
+[33maacab7bb[m Add `filetype` to Phylopic script (#547)
+[33mdc8a68ba[m Post comments using JSON instead of form data (#570)
+[33mae122cc7[m Add `filetype` test to Metropolitan script (#568)
+[33m49ed0dcf[m Add audio_set_foreign_identifier to the audio materialized view (#565)
+[33mfa5e97b5[m Fix module import for PR review reminder DAG (#566)
+[33mf5de3e2a[m Add PR review reminder DAG (#553)
+[33m825c5aad[m Add `filetype` and `filesize` to Cleveland Museum of Art API script (#537)
+[33m2ae1c4d4[m Add `filetype` and `filesize` to SMK script (#542)
+[33mc4ffd95d[m Add flag to strip slash in urls while validating (#556)
+[33mfec0d9d1[m Consolidate provider workflows using dynamic DAGs and dataclasses (#540)
+[33m4d6e5392[m Add a helper function to extract extension from the media URL (#545)
+[33m5f5fc7cc[m Create DAG objects at top level (#551)
+[33m90980825[m Add DAG to report reported media pending review (#513)
+[33m8ca6a230[m Correct order of None handling in Cleveland provider script (#544)
+[33mb36aac72[m Remove thumbnails from images (#526)
+[33m4cba0ced[m Unconditionally destroy buckets after testing (#516)
+[33m40a0d8a2[m Simplify WP Photo Directory script and get missing authors (#515)
+[33mbba0413a[m[33m ([m[1;33mtag: v1.3.0[m[33m)[m Ensure SMK images don't timeout on validation (#506)
+[33m7dbff464[m airflow dockerfile: set `PYTHONPATH` to DAGs folder (#514)
+[33m31f461ac[m Generate DAGs to recreate popularity calculations using a factory (#507)
+[33m9dca8963[m Upgrade Airflow to 2.3, python to 3.10 (#502)
+[33m1ef4a133[m Retry flaky request when Smithsonian provider script detects no unit codes (#508)
+[33m1fda166d[m 🔄 Synced file(s) with WordPress/openverse (#509)
+[33m3ef7138a[m Merge popularity calculations and data refresh into a single DAG (#496)
+[33m20458817[m Don't delete custom pools during test cleanup (#501)
+[33m971f3966[m 🔄 Synced local '.github/CODEOWNERS' with remote '.github/CODEOWNERS' (#505)
+[33m0bd79797[m Add human readable description for durations under 1 second (#500)
+[33m25c25d5b[m[33m ([m[1;33mtag: v1.2.2[m[33m)[m Recreate the audioset matview after full popularity recalculation (#493)
+[33m99bb7389[m Enable reporting when there is no data to load (#492)
+[33me98cf799[m Make Airflow connection variables easier to read (#480)
+[33mb44f3398[m Wikimedia: Catch bit rates that are greater than the int max (#475)
+[33m80930e9d[m Fix `alt_files` duplicates (#479)
+[33m4738e3f7[m[33m ([m[1;33mtag: v1.2.1[m[33m)[m Update Smithsonian Unit code checker DAG to alert to Slack (#452)
+[33m81952618[m Change docker-compose restart policy for local development (#474)
+[33mc928589b[m Improved load reporting (#471)
+[33m9b962860[m Rename Thingiverse.py to thingiverse.py (#472)
+[33m8c87749f[m Show duplicate record count in completion slack message (#442)
+[33mdd57690a[m Re-introduce pytest-socket (#467)
+[33m3755baeb[m Adjust timeouts for Data Refresh `wait_for_completion` step (#458)
+[33m039371e7[m Use safe_search param to restrict results from Flickr (#460)
+[33m24117f01[m Upgrade black to 22.3.0 (#463)
+[33m6e10adb6[m 🔄 Synced file(s) with WordPress/openverse (#462)
+[33med41f4e7[m 🔄 Synced file(s) with WordPress/openverse (#459)
+[33mc164382f[m Remove `apt upgrade` from PG image, upgrade to 13.6 (#455)
+[33m1d9c96d6[m Handle case where Wikimedia has no audio metadata (#443)
+[33mecaf732a[m 🔄 Synced file(s) with WordPress/openverse (#444)
+[33m962f1c5d[m Send single slack notification per provider on TSV load complete (#434)
+[33m5bce20de[m 🔄 Synced file(s) with WordPress/openverse (#441)
+[33m67609549[m 🔄 Synced file(s) with WordPress/openverse (#440)
+[33mdd347a43[m[33m ([m[1;33mtag: v1.2.0[m[33m)[m Add data refresh to Airflow (#397)
+[33m7cccf888[m Change PhyloPic date range & schedule interval (#423)
+[33me41e8d7a[m Add LRU cache to `is_valid_license_info` (#424)
+[33mc4d381fd[m Round duration for provider ingestion completion message (#422)
+[33m0e3675ca[m Enable XCom pickling in Airflow (#421)
+[33m22a8965b[m Use published Docker image in primary docker-compose.yml (#417)
+[33m5f941e6e[m Fix invalid license urls from Finnish Museum API (#418)
+[33m124d23b6[m Reduce noise in NYPL ingestion (#415)
+[33me8400cd4[m Add ConnectionError to acceptable flaky exceptions for Freesound (#413)
+[33mfd68b9ea[m Fix schedule intervals on Cleveland Museum & Wikimedia Commons (#416)
+[33m3034e31f[m Update API requests for Museum Victoria DAG (#414)
+[33m8712f325[m Add OFEO-SG subprovider (#412)
+[33mc5cad660[m Handle duplicate keys in load_data task (#395)
+[33m38ee4938[m Make 'sound' category more specific (#402)
+[33m23638152[m Group test runs by module or class (#409)
+[33me5f820ad[m 🔄 Synced file(s) with WordPress/openverse (#404)
+[33m7f19de2a[m 🔄 Synced file(s) with WordPress/openverse (#403)
+[33mf3808d85[m Update Slack messages to include environment (#382)
+[33m69b2eb7a[m[33m ([m[1;33mtag: v1.1.0[m[33m)[m Update Airflow to 2.2.4 (#372)
+[33m2b2f9636[m Reconfigure retries & timeouts for typical ingestion DAGs (#361)
+[33m5188b388[m Add slack message on TSV load complete (#369)
+[33m9538f384[m Add provider media type to DAG tags (#360)
+[33mada025d8[m Trigger TSV loading immediately after workflow (#357)
+[33mcb19f839[m Use Airflow Variables for storing API keys (#362)
+[33m9555374b[m Differentiate between slack channels (#359)
+[33m6dd5cb34[m Updated user agent for Wikimedia Commons #140 (#355)
+[33m8431b4be[m Remove buckets after testing (#344)
+[33m760eab51[m Use pytest-xdist for testing (#337)
+[33mcbb26f14[m Ensure Freesound tests are isolated (#340)
+[33ma8df91ab[m Change minio ports from 500X to 501X (#341)
+[33mcadc9d3e[m[33m ([m[1;33mtag: v1.0.0[m[33m)[m Freesound SSLError fix (#330)
+[33m8de8d703[m Set up CI/CD with ghcr.io (#332)
+[33mb07282dc[m Fix inconsistent alignment in slack message text (#328)
+[33m5a954f91[m Properly handle "None" values returned from Freesound API (#327)
+[33m0c5b43fb[m Add audioset_view to catalog DDL (#320)
+[33mc50f487c[m Set default timeout to 12 hours (#311)
+[33m738c9d88[m Change request info log to debug to prevent spam (#312)
+[33mb1f24143[m Make commoncrawl bucket configurable, change default (#318)
+[33m52c1d245[m 🔄 Synced file(s) with WordPress/openverse (#317)
+[33m8fc29a22[m 🔄 Synced file(s) with WordPress/openverse (#314)
+[33m4e965e2c[m Extend Jamendo's timeout to 24 hours (#310)
+[33mc4f3f965[m Disable TSV loader scheduling (#309)
+[33m836bbbf4[m Upgrade to Airflow 2.2.3 (#308)
+[33mab90e8ee[m Add unique indices to catalog (#306)
+[33mbb3c9436[m Add Image Categories (#302)
+[33m9d2e6a5f[m Bump lxml from 4.6.3 to 4.6.5 (#303)
+[33m12f80005[m Remove `get_*_operator` functions, simplify commoncrawl logic (#301)
+[33m6f5f598b[m Remove unnecessary logging.basicConfig calls (#299)
+[33me40b86ce[m Slack alerting for DAG failures (#297)
+[33m75469b7d[m Refactor delay tests to prevent them from being flaky (#298)
+[33m2f14bbad[m Specific error message for auth errors on request, improve tests (#295)
+[33m16fd77fa[m Retire common_api_workflows, clean up config (#296)
+[33mfb05e35b[m 🔄 Synced file(s) with WordPress/openverse (#294)
+[33mbaadc4f7[m 🔄 Synced file(s) with WordPress/openverse (#293)
+[33m89767ec9[m Add Provider API script for Freesound (#95)
+[33m7b142c78[m Reduce TSV loader complexity (#289)
+[33m14c2d6d7[m Slack alerting utilities (#279)
+[33me3cc70a2[m Add DAG tags, remove health check workflow (#277)
+[33madafb42d[m Add production deployment documentation (#271)
+[33m669067d2[m Retire legacy ingestion column fix (#287)
+[33m8f6a1cd5[m Retire cleaner_worfklow, pg_cleaner (#288)
+[33m6173fb44[m Remove tsv_to_postgres_loader_overwrite (#286)
+[33mef614b97[m Add index creation for matviews (#280)
+[33m88322d2d[m Respository restructure (#276)
+[33m6025630d[m 🔄 Synced file(s) with WordPress/openverse (#274)
+[33mdc1df6b0[m Retire update workflows, refactor operators (#266)
+[33m7ee62451[m Add docker entrypoint to ensure db migration on startup (#270)
+[33ma5c2ee98[m Replace moto server with Minio (#254)
+[33m3464826d[m OAuth2 DAGs and Machinery (#246)
+[33m74ad9bd8[m Add pip upgrade command, docker optimizations (#265)
+[33md65d4c46[m Add `justfile` deployment recipe (#267)
+[33m454e9a2c[m 🔄 Synced file(s) with WordPress/openverse (#269)
+[33mb911c69b[m 🔄 Synced file(s) with WordPress/openverse (#268)
+[33m601f7639[m Add args option to db-shell recipe (#259)
+[33m485fc34e[m 🔄 Synced file(s) with WordPress/openverse (#258)
+[33me7d7e173[m 🔄 Synced file(s) with WordPress/openverse (#256)
+[33m9367dc18[m 🔄 Synced file(s) with WordPress/openverse (#255)
+[33m4c66afb1[m Edit wikimedia_audio name in popularity sql (#253)
+[33m93255a19[m Add pgcli to postgres container, db-shell recipe (#252)
+[33md5d39f1a[m Improve `.env` documentation & structure, update values (#251)
+[33m91579b9f[m Remove prefixes from issue template titles (#250)
+[33m8ea757e0[m 🔄 Synced file(s) with WordPress/openverse (#249)
+[33m6d02802b[m Make Category a StringColumn (not an ArrayColumn) (#243)
+[33m97ef1da6[m Fix type in contributing.md (#245)
+[33mea31d810[m Add sample WordPress REST API script (#223)
+[33mc6f94b09[m Update provider template, refactor DAG parsing tests (#237)
+[33mf4b2abc1[m Remove `trackid` query parameter from set thumbnail url (#239)
+[33m2e003466[m hotfix whitespace in new issue template
+[33ma9666559[m Merge pull request #238 from WordPress/rm-get-log-operator
+[33m1992ba17[m Remove unnecessary dag from operator util test
+[33m926e6d4a[m Merge pull request #230 from lyu4321/issue-176
+[33mda7c7f0f[m Update .github/ISSUE_TEMPLATE/image_provider_api_integration_request.yml
+[33m4b70e986[m Merge pull request #240 from WordPress/update_test
+[33mc8524980[m Use `with dag` in `test_operator_util`
+[33m7608dbb4[m Update labels and desc for provider template
+[33mb1742cab[m Update labels and desc for source template
+[33m7f320c23[m remove dag argument from all the operator creation functions
+[33m463913b8[m init
+[33mc87aab0c[m Update desc in source template
+[33mc2a4afb3[m Remove extra #
+[33m7f0a3673[m Add desc and missing fields to provider template
+[33ma4123c69[m Update source issue template from md to yml
+[33ma023b9d0[m Update provider issue template from md to yml
+[33mb044229d[m Docker optimization & repository restructuring (#226)
+[33maaca3b9e[m [Audio] Add Wikimedia as an Audio source (#197)
+[33m7ef1b9b4[m Add new columns to MediaStore and database (#196)
+[33m0ade78b4[m Merge pull request #221 from WordPress/stocksnap-popularity
+[33m032ff837[m Use `just` commands in CI workflow (#218)
+[33medd0ab9c[m Move dev-specific services into compose overrides file (#217)
+[33mfb24e39d[m Implement stocksnap popularity and popularity documentation
+[33m96011a0f[m Revert accidentally-pushed previous stocksnap test commit
+[33mbbd8898b[m Fix stocksnap test to use new metadata values
+[33m3c99a17a[m Merge pull request #206 from WordPress/repo-sync/openverse/default
+[33m0f0797d4[m 🔄 Synced local '.github/workflows/new_prs.yml' with remote '.github/workflows/new_prs.yml'
+[33m7b7a3122[m Organize & document `justfile`, fix issue with recreate command (#198)
+[33m7af65647[m Move storage module up and deduplicate MediaStore tests (#192)
+[33m793d67ab[m Merge pull request #194 from WordPress/airflow-credentials
+[33mc2dad879[m Issue templates (#195)
+[33m032e6ce9[m Update README.md
+[33m008185f2[m Merge pull request #190 from WordPress/repo-sync/openverse/default
+[33m7fa22e8e[m 🔄 Synced local '.github/PULL_REQUEST_TEMPLATE.md' with remote '.github/PULL_REQUEST_TEMPLATE.md'
+[33mdd8bf859[m Merge pull request #187 from WordPress/cleaned-up-docs
+[33ma48c70fc[m Update README.md
+[33ma445771e[m Update README.md
+[33m07d3ffb0[m Update README.md
+[33m71785485[m Add missing newline
+[33mc5a1be76[m Streamline monthly + daily dag lists in README.md
+[33m8ca3ba0e[m Merge pull request #185 from WordPress/repo-sync/openverse/default
+[33ma0f304f0[m 🔄 Synced local '.github/workflows/pr_label_check.yml' with remote '.github/workflows/pr_label_check.yml'
+[33ma8061309[m Merge pull request #184 from MuhammadFaizanHaidar/patch-1
+[33mfade0eb7[m Renamed the source suggestion issue template
+[33mec7e08ad[m Merge pull request #179 from WordPress/add/recreate-recipe
+[33m48c1f0cb[m Merge pull request #180 from WordPress/repo-sync/openverse/default
+[33m18c6a10b[m 🔄 Synced local '.github/workflows/new_prs.yml' with remote '.github/workflows/new_prs.yml'
+[33m909ead95[m Allow passing flags to `test` recipe
+[33m213904c8[m Add recreate recipe
+[33m186e4aa1[m Merge pull request #174 from WordPress/repo-sync/openverse/default
+[33ma39d32a1[m 🔄 Synced local '.github/workflows/pr_label_check.yml' with remote '.github/workflows/pr_label_check.yml'
+[33mceedd6fe[m Merge pull request #173 from WordPress/repo-sync/openverse/default
+[33m8680573a[m Merge pull request #172 from WordPress/ack-update
+[33m42e64d88[m Update README.md
+[33me96f7e3f[m 🔄 Created local '.github/workflows/pr_label_check.yml' from remote '.github/workflows/pr_label_check.yml'
+[33maeee7989[m 🔄 Synced local '.github/workflows/new_prs.yml' with remote '.github/workflows/new_prs.yml'
+[33m375bd82d[m 🔄 Synced local '.github/workflows/new_issues.yml' with remote '.github/workflows/new_issues.yml'
+[33m053d85ed[m Update acknowledgements section
+[33m8ca48c86[m Use dag_factory for Provider API DAG creation (#163)
+[33mc5e6d4bf[m Merge pull request #159 from WordPress/add/formatters
+[33m9f8b50f9[m Fix requirements.txt comment location
+[33m4af80b0a[m Remove unused flake8 annotations and fix exclude pattern
+[33mac09b2f7[m Make env.template not executable
+[33m117f84d3[m Rename common lint job
+[33ma5116c82[m Use pre-commit for CI linting
+[33m277de7a8[m Add black and isort and apply to all files
+[33m17628e74[m Merge pull request #153 from WordPress/add/just-scripts
+[33mc2d63246[m Remove old recipe from readme
+[33m90461c21[m Do not load any .env files for just
+[33mfa728f40[m Ensure containers are running before running exec
+[33md30dd25b[m Use more general language for logs recipe behvaior
+[33mf7e7847e[m Complete list of running containers
+[33mcfcc19dc[m Fix justfile to use dev configuration
+[33m9cecc481[m Remove directions to switch directories from README
+[33mbb47e440[m Rename makeenv to dotenv
+[33mf657e964[m Add preliminary just scripts
+[33m1ed278ec[m Merge pull request #157 from WordPress/add/pre-commit
+[33m608fa9e2[m Merge pull request #151 from WordPress/add/simulated-dag
+[33m7898fc5c[m Merge pull request #156 from WordPress/local_s3_bucket
+[33mcc4f2569[m Organize requirements files and de-duplicate
+[33m54c4afc1[m Apply pre-commit to all files
+[33m92ad9f0c[m Add general pre-commit hook
+[33m58861903[m Add pre-commit
+[33mfa3c191c[m Merge pull request #154 from WordPress/update/switch-to-volumes
+[33mdad98228[m Add note about volume prune
+[33mc35effa7[m Update example value for `AIRFLOW_CONN_AWS_DEFAULT` envvar
+[33m9e25193a[m Add openverse-airflow-logs to BUCKET_LIST
+[33m25d16127[m Use `tries` param instead of `TRIES` constant
+[33m8a0e75e5[m Update README to remove volumes on cleanup
+[33m9e93f527[m Switch local postgres to use volumes
+[33m7c9158ca[m Replace os.path with pathlib in provider API script template (#149)
+[33m28df4bf3[m Update Apache Airflow version (#148)
+[33ma2d16cef[m Add manually run healthcheck DAG
+[33m04eaeeed[m Merge pull request #147 from WordPress/fix/provider-template-path
+[33m4f9e7341[m Log cleanup DAG (#139)
+[33mc7310513[m Fix resource path string
+[33m6c172033[m Simplify catalog folder structure (#133)
+[33mea3b2b8f[m Merge pull request #145 from WordPress/fix/make-harmonious-with-api
+[33m697b406a[m Allow running the catalog and the API at the same time
+[33mb12ba815[m Merge pull request #114 from WordPress/stocksnap
+[33m5bf81223[m Update StockSnap tests and example files
+[33mbfc9d0d8[m Get creator data from StockSnap API
+[33m925272e2[m Format with black & flake8
+[33ma7d562a3[m Make image's `title` from tags/keywords
+[33m8dca7f98[m Get `foreign_landing_url` from StockSnap API
+[33m2d099915[m Merge branch 'main' into stocksnap
+[33m3410f7e3[m Merge pull request #136 from WordPress/airflow-remote-logging-example
+[33m7fc4fdbd[m Merge branch 'airflow-remote-logging-example' of github.com:WordPress/openverse-catalog into airflow-remote-logging-example
+[33m0ad6cfee[m Improve remote logging docs
+[33ma3269dd8[m Merge branch 'main' into airflow-remote-logging-example
+[33mc739c24d[m Replace `genre` property with `genres` in tests (#137)
+[33m3818b201[m Update to new values in Airflow 2 (logging namespace moved in airflow config)
+[33m5f0b2ca0[m Add example vars for airflow remote logging
+[33m06fb4991[m [API integration] Add Jamendo provider API script (#113)
+[33mf54ad987[m Merge pull request #135 from WordPress/mv_docs
+[33m73e35915[m Merge pull request #134 from WordPress/repo-sync/openverse/default
+[33mca8dd1d1[m 🔄 Synced local '.github/ISSUE_TEMPLATE/' with remote '.github/ISSUE_TEMPLATE/'
+[33m4ec2d707[m 🔄 Created local '.github/workflows/new_prs.yml' from remote '.github/workflows/new_prs.yml'
+[33mbc69ec84[m 🔄 Created local '.github/workflows/new_issues.yml' from remote '.github/workflows/new_issues.yml'
+[33m19ed1373[m Add handbook link to README file
+[33m66df8b18[m Delete docs folder
+[33m6724b148[m Update stocksnap tests and example `full_item.json`
+[33med77e0e2[m Get image title from API response instead of the scraped page
+[33m8764118f[m Merge pull request #131 from WordPress/pr_template
+[33m73f50dd7[m Add a PR template to the repository
+[33md1dde6fc[m Merge pull request #130 from WordPress/modify_audio_columns
+[33m924b2b1b[m Add stocksnap tests
+[33mbb31eb93[m Pass license_info instead of license_ and license_version
+[33m182e1592[m Rename `alt_audio_files` column to `alt_files`
+[33mdd4bcff0[m Add funtion to merge arrays in sql
+[33m8ac0298b[m Change `genres` column to ArrayColumn type
+[33m8e2186ef[m Add new `ArrayColumn` type
+[33m9895bf2d[m Modify columns in test_audio.py
+[33m6b4fe9ff[m Rename `standardized_<media_type>_popularity` column in view tables
+[33m621765b1[m Make field for audio genres plural
+[33m3a816554[m Add watermarked column to sql files
+[33meaaba615[m Merge branch 'main' into stocksnap solving conflicts
+[33m20772bb4[m Make wikimedia script pass license_info, not license_url (#129)
+[33mbf5ebd21[m Add a script to create provider API script template (#128)
+[33m0f82371f[m Merge pull request #126 from WordPress/rm_duplicate_providers
+[33m546fade1[m Delete duplicated CommonCrawl providers
+[33md3db16d7[m [Quality] Make provider scripts pass validated license_info to the storage module (#66)
+[33m9446c7f9[m Add support for other media types to popularity calculations (#112) (#124)
+[33m8bac45a0[m Add missing `watermarked` column to audio loading table (#125)
+[33m5a4c5871[m Ingest wikimedia images marked with CC0 and PDM (#119)
+[33m073c1215[m Clean Wikimedia item titles (#120)
+[33m5d1ecb2b[m Add Audio to the database (#111)
+[33mab8fa907[m Refactor to make only one extra request per image
+[33m93415d90[m Add samples files of an image and a api response for tests
+[33m127fa29c[m Add instruction to write tsv file with image data
+[33m9519967c[m Fix filling of tags field
+[33m7a14f6a6[m Complete image's title, creator and creator_url
+[33mb601984e[m Set default output dir for commoncrawl (#118)
+[33m2bf469ec[m Merge pull request #116 from WordPress/issue_templates
+[33m870cbc2c[m Add the link to the Make site
+[33m6dfbfb01[m Update labels to the new format
+[33me7aeda8b[m Add volunteering section to all templates
+[33mccd23f7e[m Align bug and feature templates with other repos
+[33mb1cc1fee[m Program stocksnap script with minimum required fields
+[33ma42476a9[m Add StockSnap to `dags/util/loader/provider_details.py`
+[33m14452b21[m Create base provider files for stocksnap
+[33m264306c1[m Improve DAG creation template Signed-off-by: Olga Bulat <obulat@gmail.com>
+[33m2c98e242[m Extract media type from staged tsv file name for loader (#110)
+[33m38b90981[m Add AudioStorage entity (#85)
+[33m25e18fa7[m Extract MediaStorage entity as parent to ImageStore (#83)
+[33mab8d3ccc[m Merge remote-tracking branch 'origin/template' into template
+[33m67b9b303[m Merge branch 'main' into template
+[33m13e607b8[m Fix typo in provider template script
+[33m5efdd322[m Add ingestion column to MediaStore when using provider API (#72)
+[33m5351b5e8[m Remove mutable parameters in provider api scripts (#100)
+[33mcd159ccd[m Remove logging of url rewriting when not rewritten (#108)
+[33m0c7a5073[m Fix pep8 violations (#103)
+[33m88a777ce[m Make the script output clearer
+[33m41714d25[m Merge branch 'template' of github.com:WordPress/openverse-catalog into template
+[33m4a03768e[m Make image the default media type
+[33m5efe43a8[m Replace relative path with absolute to fix file not found errors
+[33m1331d460[m Better wording for script date parameter
+[33m85affa35[m Merge pull request #104 from WordPress/release_drafter_on_main
+[33m3eb439d8[m Run release drafter action on push to main branch
+[33m01e76a72[m Merge pull request #90 from WordPress/local_sql_order
+[33m5e456603[m Update src/cc_catalog_airflow/templates/template_provider.py_template
+[33m7181cd35[m Shorten lines
+[33mb194efb8[m Merge branch 'main' into local_sql_order
+[33mb343d84d[m Merge branch 'main' into template
+[33m99a6f0e7[m Add more trailing zeros
+[33m9942d241[m Merge pull request #98 from WordPress/run_ci_on_main_push_only
+[33m68172b94[m Run CI on push only on main
+[33me6a64c6f[m Run CI on push only on master
+[33m6f605316[m Merge pull request #71 from WordPress/improve_url_logging
+[33m387c973a[m Fix linting errors
+[33mcb6d2647[m Merge pull request #91 from WordPress/fix_dep_version_conflict
+[33m012df2db[m Make URL logging less verbose on success, more verbose on failure
+[33mf4d9ebb0[m Merge branch 'main' into improve_url_logging
+[33m7ca3fea5[m Create a Provider API script template
+[33m408cb8a4[m Fix the dependency version conflict
+[33ma22d1931[m Ensure Docker loads local_postgres sql scripts in correct order
+[33m6199d4b3[m Merge pull request #76 from WordPress/add_testing_workflow
+[33mfc9a7a34[m Merge pull request #86 from WordPress/dependabot/pip/src/cc_catalog_airflow/urllib3-1.26.5
+[33m66b5e693[m Add trailing new line to lint workflow
+[33m51290e41[m Remove workflows from workflow-disabled folder
+[33m06e64b91[m Merge pull request #81 from WordPress/fix_test_failures
+[33m70515f27[m Bump urllib3 from 1.25.11 to 1.26.5 in /src/cc_catalog_airflow
+[33md9e77234[m Merge pull request #80 from WordPress/codeowners
+[33m20940a9f[m Merge pull request #68 from WordPress/update-readme
+[33mc6726a53[m Fix failing text, improve import readability
+[33mdc7ebe29[m Add blank lines for readability
+[33m14f0f0bc[m Merge pull request #78 from WordPress/extract_common_package
+[33m0cd97686[m Create a CODEOWNERS file
+[33m86a67a4f[m Move the common package to a higher level to simplify testing
+[33ma61a6649[m Add missing new lines at the end of files
+[33m400bd8f0[m Re-add the lint and test workflows from the original repo
+[33m10b31ed7[m Merge pull request #75 from WordPress/dependabot/pip/src/cc_catalog_airflow/flask-appbuilder-3.3.0
+[33m9a9550c2[m Bump flask-appbuilder from 3.2.3 to 3.3.0 in /src/cc_catalog_airflow
+[33m724031fb[m Merge pull request #70 from WordPress/dependabot/pip/src/cc_catalog_airflow/lxml-4.6.3
+[33m1886fb09[m Merge pull request #73 from WordPress/release_drafter
+[33mb4780b25[m Update release-drafter.yml
+[33m3426884a[m Add configuration and workflow for Release Drafter
+[33m900ad221[m Log the actual URL requested
+[33m94b49799[m Bump lxml from 4.4.2 to 4.6.3 in /src/cc_catalog_airflow
+[33ma860168d[m Merge pull request #63 from WordPress/airflow_update
+[33m4ab4e6ee[m Update README.md
+[33mc011f4bf[m Fix imports
+[33m46c20851[m Fix `test_operator_util`
+[33mecd5e7a0[m Replace deprecated provider imports
+[33m92fcc81a[m Update python, airflow, dependency versions
+[33m49539a56[m Merge pull request #62 from WordPress/readme-updates
+[33m68691f6b[m Update openverse-catalog.md
+[33m17dffa56[m Remove Openverse Search
+[33m66063f30[m Add a space
+[33mfe1cdabc[m Update links
+[33m461e8f85[m CC Catalog to Openverse Catalog
+[33mb68aa7ef[m Replace CC Catalog with Openverse Catalog
+[33m3e08e9e6[m path fixes
+[33md316be4a[m More typos and formatting for markdown files
+[33m02d831c7[m Use WordPress CoC
+[33maefd1e3c[m Merge pull request #54 from obulat/update_dependencies
+[33mea1f34bd[m Merge pull request #56 from Automattic/flickr-improve-docs
+[33m165e5ae3[m Add documetation on generating a Flickr API token
+[33m9760ce18[m Fix airflow db initialization
+[33m68ef4162[m Fix production dependencies compatability with upgraded airflow
+[33m9012a249[m Pin pandas version
+[33m84613a9b[m Update to postgres 13, apache-airflow 1.10.15
+[33mf2826460[m Update README.md
+[33me0acf60a[m Merge pull request #1 from Automattic/cc-a8c-migration
+[33mc9729f88[m Switch to renamed workflow dir to disable actions
+[33mefb34327[m Comment out and disable GitHub actions
+[33m25f226ab[m Remove CC meta files
+[33mcd789c26[m Update README with migration notice
+[33m67b4a8c7[m Merge pull request #544 from creativecommons/discontinued-notice
+[33meb71f203[m Update README.md
+[33mb9955ff3[m Update README.md
+[33m98348de6[m Update README.md with discontinued status
+[33m0ab8a380[m Merge pull request #539 from creativecommons/ct_codeowners_1608054710
+[33m68b7aa47[m Sync Community Team to CODEOWNERS
+[33mb1bf826f[m Merge pull request #537 from ariessa/master
+[33m54efa946[m Merge pull request #536 from dravadhis/iss463_mockimgstore
+[33m70bae81d[m Removed links
+[33m5391467d[m Create MockImageStore class for testing
+[33m709792a9[m Merge remote-tracking branch 'upstream/master'
+[33m0609aef9[m Fixed broken links
+[33mc045c7ff[m Merge pull request #535 from tushar912/fm-airflowdag
+[33m488ce9c9[m Updated flickr.md
+[33m35aa2a94[m Improved doc and its formatting
+[33mf0915891[m Fixed broken links and formatting
+[33mea9f45ea[m change start date
+[33m0a04a9f4[m add tests for finnish_museums_workflow
+[33m04ef1ace[m add finnish_museums_workflow
+[33mabbe9eb8[m Merge pull request #532 from tushar912/finnish-museums
+[33me928abde[m process object list page by page
+[33ma64dd2b1[m made total_images global
+[33mb1e9f311[m fix line too long
+[33md1ca7ced[m change provider details
+[33m8b528bd0[m handle image_rights none
+[33ma092756d[m fix raw_tags to be array of str
+[33m7efd39e3[m Merge pull request #533 from creativecommons/use_execution_date_for_commoncrawl
+[33m7eed044b[m Add files via upload
+[33m2da4f374[m Create cc-catalog.md
+[33m6667b81a[m remove unused imports
+[33me534f04f[m format local s3 init script with black
+[33m45b193db[m use execution date to calculate cc_index, rather than pulling it from S3
+[33mb5f0a720[m add additional cond for none
+[33m67c2c7fe[m remove unused import
+[33m29e05195[m format test ac to pep8
+[33m103653d8[m fix line too long
+[33ma14f3ba3[m format ac to pep8
+[33m971f9c79[m finnish museums provider and tests
+[33m3347889e[m Merge pull request #530 from creativecommons/common_crawl_etl_airflow_dag
+[33m6672f742[m add new variables to environment template
+[33m50d386f1[m fix linting error
+[33mdaca6cec[m add test for new CommonCrawl ETL DAG
+[33m7651e2d5[m add tests for operator functions
+[33m3884bc53[m make s3 file loading function private
+[33mac9c15cd[m format python files with black
+[33m17a10c09[m remove unused import
+[33m23602f59[m extract operator definitions to separate file
+[33m2eb201b1[m increase number of core instances for run with real data
+[33mf7de1c11[m add new Airflow DAG to run first pipeline
+[33mdc90a220[m add airflowignore so that python files don't set off warnings
+[33mf8af3f32[m Merge pull request #523 from creativecommons/cleaner_workflow_parallelism
+[33m9bdb9068[m Merge pull request #524 from creativecommons/dependabot/pip/src/cc_catalog_airflow/cryptography-3.2
+[33m8ef22b4f[m Bump cryptography from 3.1.1 to 3.2 in /src/cc_catalog_airflow
+[33mc2012f59[m lower logging level for urls import
+[33m6a46f51f[m fix numerous bugs, turn down ImageStore logging
+[33m627efb4e[m add logic to handle defective dictionary when getting license_url
+[33m26782163[m fix missing fields bugs, add tests for them
+[33m0bedecff[m add functionality to output defective identifiers to file
+[33m4c83734b[m fix bugs, lower DAG parallelism to avoid locking up scheduler
+[33m727e3557[m[33m ([m[1;33mtag: v0.9.0[m[33m)[m Merge pull request #517 from creativecommons/clean_preexisting_data_with_disk_write
+[33mca3cdecb[m fix flake8 errors introduced by black
+[33mcd042bd0[m remove unused MagicMock import
+[33mb56105a2[m fix broken test to avoid enironment assumptions
+[33m62246613[m reformat code with black
+[33mb428c200[m add test for new cleaner DAG
+[33mcc21272c[m add DAG to run new cleaner logic
+[33m2a968ffe[m add remaining tests for pg_cleaning functionality
+[33m9cb650b2[m refactor ImageStoreDict for better testability
+[33m4ec6f49a[m improve error handling in pg_cleaner
+[33m488f4e4c[m refactor for testability, add tests to pg_cleaner
+[33m664d6599[m add test for pg_cleaner
+[33md1a93c98[m use non-deprecated logger.warning instead of logger.warn
+[33m19546ee2[m add row-cleaning logic that saves to disk
+[33m61fac227[m fix loader_workflow test with new number of DAGs
+[33m42b49f46[m add DAG to run new overwriting logic
+[33m05e27379[m fix updating logic so that it handles missing matches
+[33m3d548d79[m add function to overwrite instead of upsert into image table
+[33mcabfa11c[m Merge pull request #516 from tushar912/ascii-false
+[33m348054e9[m added test to save unicode string
+[33m51bb32fb[m  Shorten line acc to pep8
+[33ma9fe50a0[m ensure ascii false in json.dumps
+[33mcb81077c[m Merge pull request #512 from dravadhis/iss366_requirements
+[33md951bdbc[m Split dependencies into prod and dev
+[33mf4bfcb56[m Split dependencies into prod and dev Add requirements_dev.txt and requirements_prod.txt. Modify Dockerfile, docker-compose.yml and docker-compose.override.yml to work with new requirement files.
+[33me392b49d[m Merge pull request #511 from dravadhis/iss211_rawpixel
+[33m1cc98a4b[m Merge pull request #508 from dravadhis/iss507_DAGwalters
+[33mf5b015af[m Make `meta_data.Description` field in RawPixel.py
+[33m0739afc1[m Make `meta_data.Description` field in RawPixel.py Make `meta_data.Description` field using `pinterest_description` in `raw_pixel.py`.
+[33me97ae8d2[m Merge pull request #506 from dravadhis/iss274walter
+[33mce88ff0f[m Integrate Walters Art Museum API with CC Search Remove 'Paper & Paper-Mache' from list of classifications.
+[33mbdb9c0da[m Merge pull request #510 from creativecommons/clean_common_crawl_using_imagestore
+[33ma3fe3bd0[m Integrate Walters Art Museum API with CC Search
+[33m23f6af84[m Integrate Walters Art Museum API with CC Search
+[33m6d9893f7[m Integrate Walters Art Museum API with CC Search Implement page increment logic in walters_art_museum.py
+[33m0495d4c0[m extend syncer DAG to use new cleaning function
+[33m63d2c0ed[m add directory looping logic to tsv_cleaner,
+[33m9923e376[m fix path joining to give trailing slash
+[33m90dd33d3[m format file with black
+[33m49511d89[m add test for new functionality
+[33m66c7e415[m Merge branch 'master' into clean_common_crawl_using_imagestore
+[33me824407b[m Integrate Walters Art Museum API with CC Search Modify _get_image_list to work with _get_response_json method of the DelayedRequester class. Replace get functions with bare dict.get calls.
+[33me57ba18a[m Merge pull request #504 from avats-dev/fix-readme-broken-links
+[33m4dd2695b[m Add Walters Art Museum Workflow
+[33m75bfa891[m Integrate Walters Art Museum API with CC Search Set API KEY in env.template as not_set
+[33m1190300f[m Integrate Walters Art Museum API
+[33ma0294269[m Integrate Walters Art Museum API with CC Search
+[33mdd572712[m Fix broken links
+[33mcd7ae0d1[m Merge pull request #1 from creativecommons/master
+[33m75b37f8f[m Merge pull request #499 from dravadhis/issue_fstring
+[33m99a84eeb[m Update europeana.py and wikimedia_commons.py
+[33m8fdabad4[m Change style to comply with style of the repository
+[33m14c5e555[m Update test_brooklyn_museum.py
+[33ma414ec3d[m Restore untested files to original state.
+[33mc7a59f3f[m pass environment variables in through bash operator for modification
+[33mf48fc1ce[m move tsv cleaning logic to correct location
+[33m752deb26[m move commit step so it only happens once per ImageStore
+[33m8a35a166[m Replace all occurences of str.format() with f-strings
+[33md0426de5[m Replace all occurences of str.format() with f-strings
+[33m61c9b7e1[m Replace all occurences of str.format() with f-strings
+[33m36f2c774[m Replace all occurences of str.format() with f-strings
+[33mf69827f5[m Merge pull request #498 from dhruvkb/patch-1
+[33m5bfe7323[m Replace all occurences of str.format() with f-strings, keeping the formatting same throughout the codebase.
+[33m3c032153[m Replace ORG_GITHUB_TOKEN with ADMIN_GITHUB_TOKEN
+[33me7d14d6f[m undo a string sanitization to make sure cleaning is idempotent
+[33mcaf9e619[m add script using ImageStore class to clean a TSV of image rows
+[33mdeb1a145[m make Image row namedtuple public
+[33m836aa60a[m Merge pull request #464 from creativecommons/verify_urls_in_imagestore
+[33ma914114d[m fix flake8 error
+[33ma776acdd[m handle reverse 2.1 license mapping and save raw license_urls
+[33mcd8828c7[m Merge branch 'master' into verify_urls_in_imagestore
+[33mc4ac873c[m[33m ([m[1;33mtag: v0.8.0[m[33m)[m Merge pull request #483 from creativecommons/image_expiration
+[33mde659eb0[m Merge pull request #478 from creativecommons/common_crawl_tags_merge
+[33m6cc2ae6b[m Merge pull request #488 from avats-dev/cat_img_wikimedia
+[33m31d5a590[m Merge pull request #491 from creativecommons/kgodey-patch-1
+[33m5e0e7135[m Rename new-source-suggestion to new-source-suggestion.md
+[33m7a1f0317[m Merge pull request #490 from akshgpt7/automate-linting
+[33m6b06b72c[m Add pull_request event to lint.yml
+[33m67bd9ce3[m edit test to check for meta_data.categories
+[33m994a8542[m List comprehension for dag workflow
+[33m335f6258[m api table given as argument
+[33m509daa8d[m Merge pull request #485 from creativecommons/europeana_reingestion_timeout_fix
+[33m434d45b1[m add categories to metadata dict and extract them
+[33mb8bde687[m Merge pull request #487 from avats-dev/minor-readme-typo
+[33mf6e0a206[m Merge pull request #475 from akshgpt7/automate-linting
+[33m75775fc6[m Removed a minor typo
+[33ma78c98f4[m createad scripts folder
+[33m31b872b5[m Update image expiration workflow to execute in parallel
+[33m2c0d87ee[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into image_expiration
+[33m008890cb[m increased timeout to 12
+[33mae0059d1[m Add .flake8 for configuration on test files
+[33m75ea7834[m Remove pull_request event
+[33m5d073aef[m Add test files linting workflow
+[33mbb628229[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into automate-linting
+[33mec8a1d25[m Merge pull request #476 from creativecommons/smithsonian_discrepancy_fix
+[33m4238c2fc[m Merge pull request #474 from creativecommons/si_nmnh_improvements
+[33m984bde4c[m Test image expiration
+[33m16a1438a[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into image_expiration
+[33m8769820f[m Merge pull request #479 from creativecommons/annatuma-source-issue-template
+[33m53e80b2c[m Create new-source-suggestion
+[33mdd06686c[m[33m ([m[1;33mtag: v0.7.0[m[33m)[m Merge pull request #477 from creativecommons/popularity_calculations_sql
+[33m2a8342f8[m query to update added
+[33m93ba67f8[m Merge branch 'master' into verify_urls_in_imagestore
+[33m96562359[m Update image expiration workflow to run sequentially
+[33mb3fa922f[m add tests for function to calculate standardized popularity
+[33m15edb59d[m add logic to avoid zero, but record raw value
+[33m9965948a[m Initial implementation of the image expiration workflow
+[33mb4b2d0ac[m Fix error in the OLDEST_PER_PROVIDER dictionary
+[33m8927ba6a[m Initial implementation of the expiration logic
+[33mb451473b[m Get all provider names into one location
+[33ma7276a05[m add tests for SQL module; reformat with black
+[33ma434fcfe[m reformat operators module with black
+[33m9b97545f[m added science and met museum logic (testing)
+[33m58e64182[m add tests for popularity SQL DAGs
+[33m7d5f45f8[m add Airflow DAGs to create and refresh image popularity data
+[33ma1f56eaf[m fix SQL bugs, add index so constants view can be updated concurrently
+[33m5b721667[m Expand the creator and description types considered in Smithsonain
+[33m80bec5e2[m add operators to allow Airflow to use new view updating functions
+[33ma8c3189a[m add and reorganize SQL-via-python to burn down popularity data
+[33mc7b4b97b[m add new SQL-via-python functions to build and refresh popularity data
+[33m9e688d95[m minor changes (testing)
+[33mcdf089c9[m merge CC tags script (testing)
+[33mb7f6f293[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into si_nmnh_improvements
+[33mccd228ca[m Variable name update
+[33md45848cf[m Merge pull request #465 from creativecommons/smithsonian_unit_code_check
+[33m8c2cb4d0[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
+[33mcfa8246e[m Raise exception when unit code table needs to be checked and update code for consistency
+[33m77bfcebd[m Merge pull request #473 from creativecommons/europeana_reingestion
+[33mf89b15a8[m Merge pull request #355 from kss682/issue-348
+[33m969bee47[m Concatenate creators with semicolons and "and" at the end
+[33m7eeb5429[m fix linting workflow syntax
+[33m6317bb4d[m Fix linting workflow
+[33m8926d817[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into si_nmnh_improvements
+[33mee020e42[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
+[33m6a7b5870[m[33m ([m[1;33mtag: v0.6.0[m[33m)[m Merge pull request #462 from creativecommons/nypl_implementation
+[33m4d33aacc[m Merge pull request #455 from creativecommons/smithsonian_sub_providers
+[33mb12f2626[m Improve creator and description metadata in Smithsonian
+[33m1893349c[m dag script
+[33m48032026[m code and test suite refactored
+[33ma3da7a73[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
+[33mcef091ee[m bug fix.
+[33m497e0301[m ingestion workflow
+[33m9fafd45a[m code refactored to make it more readable and pythonic
+[33m0a99cb75[m api key set to NYPL_API_KEY
+[33mc379320b[m implement new SQL-based popularity calculation
+[33m401d5997[m add SQL files to create tables and views on upstream DB
+[33m9d5b18a7[m set up local postgres with new tables and views
+[33mb70799e4[m Check for outdates unit codes as well as new additions
+[33m80692c9c[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
+[33me6e838c5[m single creator name retrieved from API
+[33mdacb48d2[m Merge pull request #467 from creativecommons/museum_victoria
+[33m7439b88f[m Provider name bug fixed
+[33m0294a269[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
+[33me022048e[m Update the unit code workflow
+[33me3a8439a[m Merge pull request #461 from creativecommons/flickr_new_subproviders
+[33md6cbb9b2[m Change Smithsonian unit code check to store values in table
+[33m94f2840c[m Initial implementation of Smithsonian new unit code check
+[33m7b244eea[m disable all calls to socket.socket, ensure tests pass
+[33mab65fc0f[m Change logging levels and messages to emphasize actual issues
+[33m7e5435e2[m add tests for upgrading/verifying schemes of IP addresses
+[33mce2c4f8d[m add test for url scheme adding logic, fix bug in same logic
+[33m2516267a[m add documentation to license methods
+[33ma80e0336[m added logger info , removed extra print statement
+[33m3ea22ec4[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into nypl_implementation
+[33m8fce51ad[m dag script
+[33m67050758[m removed old NYPL script
+[33m5cab507f[m remove unused exception type
+[33mabc533d0[m Add WOCinTech as a sub provider of Flickr
+[33mabc03825[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_sub_providers
+[33m57df7e0c[m stronger conditions in metadata method
+[33m27531216[m added metadata  and remaining test_suite
+[33m81ef9741[m[33m ([m[1;33mtag: v0.5.0[m[33m)[m Merge pull request #447 from creativecommons/museum_victoria
+[33m67b670a6[m unused import removed
+[33md8584b5b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
+[33m11977cc6[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into nypl_implementation
+[33m1380f7ed[m tested image , title and creator methods
+[33m9ddc9855[m title and creator methods added
+[33m2ed12b5f[m Merge pull request #442 from creativecommons/europeana_sub_providers
+[33m6e2e2b6f[m add logic to recover license URLs from pairs; cleanup/refactor
+[33ma0cab049[m use f-strings consistently for logging in licenses module
+[33m5d6f895b[m refactor licenses module using new license_path_map data structure
+[33m1f4fd885[m add logic to create map for recovering license paths from license pairs
+[33m116db6c3[m move Japanese 2.0 licenses to recoverable lists
+[33m295fe295[m clean up unused LICENSE_PATH_MAP constant
+[33m6ad2b0cc[m set up path map constants for reversal
+[33m355dfbc1[m add a number of known license paths to constants file
+[33m7cbb9c61[m fix broken constants tests
+[33m46f718d5[m[33m ([m[1;33mtag: v0.4.2[m[33m)[m Merge pull request #453 from creativecommons/wmc_mediatype_bugfix
+[33mfb65a179[m Merge pull request #452 from creativecommons/wmc_limit_bug
+[33m41c4e457[m update license tests, split path correctly in constants
+[33m5c728576[m add more constraint to license path definitions
+[33m2e6f6fd6[m add logic to check response code to URL rewriter
+[33m55ca7718[m tidy up docstring
+[33mc78a5525[m test and document CC URL validation logic
+[33m88914f30[m Add workflow for updating Smithsonian sub-providers
+[33m9e9ba965[m Add test case for checking Smithsonian sub-provider retrieval at DB level
+[33m00e02de7[m reduce line length for PEP8 compliance
+[33m2fac6e9f[m add docstrings to public URL methods
+[33m32afddd7[m rearrange methods in licenses for clearer logical flow
+[33m235e5d59[m give redirection handling logic meaningful name
+[33mf56fc508[m update image tests to avoid trying to use socket.socket
+[33m6c748751[m test suite till request handler
+[33m2999ad18[m image url retrieval method with new logic
+[33m1341dd03[m Initial implementation of Smithsonian sub-provider retrieval at DB level
+[33m17a18090[m make scheme-adding function private; reorder urls module
+[33m52033994[m use urls.rewrite_url_string in licenses module
+[33m83c08809[m Add test for sub-provider retrieval from Smithsonian at API level
+[33mf9b8acfc[m move logging init to let importer set level easily
+[33md269685f[m add check to determine if object is an image mediatype
+[33m989e7f52[m update script to use ImageStore.total_images property
+[33m2107bb62[m image_id points to new id field in api
+[33m04316eb8[m turn up parallelism to 8
+[33m62f710dc[m Initial implementation of sub provider retrieval from Smithsonian at API level
+[33mcffa5b40[m Drop the temporary table after sub-provider update
+[33m40e05abd[m turn down LIMIT, and turn up parallelism
+[33mba1a84a0[m add support for 'URLs' that are IP Addresses
+[33m03ff5086[m split common.storage.util into smaller pieces
+[33mbc420729[m remove unused import
+[33m7cef6344[m add logic to check license URLs for correctness, refactor utils
+[33m1d4502e6[m changing image id to single number
+[33mdb532afd[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
+[33mbca70817[m update tests to avoid tldextract calling internet
+[33ma3ebd2f8[m add URL validation and scheme upgrading logic
+[33m2ed77c65[m Apply consistent temporary table structure for Flickr and Europeana sub-provider update
+[33meaf76e48[m Improve Europeana sub-provider retrieval logic to reduce memory consumption
+[33m7be2fe58[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into europeana_sub_providers
+[33m0e6faea7[m[33m ([m[1;33mtag: 0.4.1[m[33m)[m Merge pull request #446 from akshgpt7/total_images
+[33m713f871c[m Merge pull request #444 from creativecommons/met_museum_bugfix
+[33m1b38f727[m tidy up quotes and spaces
+[33m0c8f44b6[m Merge pull request #448 from creativecommons/index_fix
+[33m3b23ca72[m Add an index to temporary popularity table identifier
+[33ma5835beb[m dag for museum victoria
+[33mbdb536cc[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
+[33m3bb24113[m pep8 styling
+[33m625c6707[m test suite
+[33m1d2fe409[m image id changed to pair numbers
+[33mbee74694[m PEP-8 fixes
+[33m90761309[m add total_images property
+[33mf47a0581[m Merge pull request #440 from creativecommons/kgodey-patch-1
+[33ma8b62bc5[m use image name from URL for foreign_id instead of generated index
+[33m6672be4a[m Add workflow for europeana sub-provider update
+[33mafe2c293[m Throw exception if more than one sub-provider encountered
+[33mb7d25c32[m Added collaborators to CODEOWNERS now that we have one!
+[33m9f8d035f[m Add test case for europeana sub-provider update
+[33m96badcd2[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into europeana_sub_providers
+[33meba1a115[m tested get_batch objects
+[33m6f3aec15[m implementation of provider
+[33me25369ac[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
+[33m2135a0cf[m[33m ([m[1;33mtag: v0.4.0[m[33m)[m Merge pull request #439 from creativecommons/output_dir_bug
+[33m10bb83fc[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into europeana_sub_providers
+[33m7eb308b0[m Merge pull request #420 from creativecommons/retrieve_subprovider
+[33m8b86f1c5[m add logging statement to see how many rows we're updating
+[33m41c4e8f3[m configure DAG for manual triggering
+[33m2645f6bf[m modify output path of popularity_workflow
+[33m8097c36d[m Clean the Flickr sub-provider update code
+[33me350f4a3[m bug fix : escape character
+[33m3741d15c[m Initial implementation of europeana sub provider retrieval
+[33mdfdf125c[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33m4d599de2[m Add test cases for checking alternative sub-provider update methods
+[33m86f6db87[m Add changes to the alternative sub-provider update methods
+[33mc1331035[m Pass provider/ sub-provider information as parameters
+[33ma71ccc83[m Merge pull request #428 from creativecommons/smk_provider
+[33m01c8a72f[m Merge pull request #427 from jhutchings1/codeql
+[33m86aa2fee[m Merge pull request #434 from creativecommons/swap_tablenames
+[33me726aa15[m rename local postgres building SQL files
+[33mea5ad96c[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33m640c22aa[m Alternative methods of sub-provider retrieval
+[33mb76403e7[m change table names in code that uses SQL
+[33mcf26c524[m Merge pull request #432 from creativecommons/s3_creds
+[33m9f4aa673[m Update sub-provider test to match the new image table schema
+[33m4e8d4051[m testing the api contents
+[33mbaefadca[m Read non-standard environment variables into boto3 client
+[33m35b95d3e[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33meb2dbda0[m Set spacex as separate sub provider and remove redundant source value setting
+[33mdabe1722[m dag for statens museum
+[33me1e54305[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smk_provider
+[33m8ee9909c[m[33m ([m[1;33mtag: v0.3.0[m[33m)[m Merge pull request #426 from creativecommons/popularity_calc
+[33mfb990034[m Merge pull request #429 from creativecommons/deduplication
+[33me35f6bfe[m remove unused SQL files
+[33maf93046e[m smk implementation and test suite
+[33m6306448c[m progress -
+[33m2bfb4c9f[m Consistent usage of single and double quotes
+[33mc8dd0bdf[m add newline
+[33m52fbc639[m Merge branch 'popularity_calc' of github.com:creativecommons/cccatalog into popularity_calc
+[33m85251197[m Don't use the source as a factor in the calculation of each metric
+[33m9ba46f1b[m Update src/cc_catalog_airflow/dags/util/popularity/math.py
+[33mb6c809c6[m Update src/cc_catalog_airflow/dags/util/popularity/math.py
+[33m6bb8f3b1[m Merge pull request #418 from creativecommons/science_museum-bug-fix
+[33m6a398b67[m update paths operator to remove all files from staging directory
+[33mdd9c924d[m change sql operators to use new_image table during transition
+[33me0230593[m add new_image table to local testing setup
+[33m1ccf8e06[m use new table schema in loader and SQL modules.
+[33ma4068bed[m Add CodeQL security scanning
+[33m5351d24c[m Better name for a test
+[33m5d840e57[m fix naming of column, reshuffle columns for commoncrawl TSVs
+[33m7ddcceaf[m add utility functions to migrate TSVs to new form
+[33m6ee1aa30[m add SQL file for different strategy to avoid updating image
+[33mf273a730[m Missing paren in docstring
+[33m52554534[m Decode S3 cache properly
+[33mf91a36ff[m Write the percentiles cache to s3
+[33madd82b65[m Define main before setting up DAG
+[33ma18163be[m Add DAG for popularity workflow
+[33mcf0c0b4b[m Document popularity score calculation
+[33m07081467[m Refactor percentile calculation and test cache validation
+[33maa29b18e[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33m137d0898[m Changes to make sub provider information available from a common file
+[33mdbc13bb9[m add looping behavior to migration SQL
+[33mcb8aa9c3[m add duplication column before putting data into it.
+[33m28df08e9[m Initial implementation of DB update for sub providers related to Flickr
+[33m250aa24b[m tidy up SQL formatting for legibility; remove extraneous columns
+[33mad117bb3[m Add test for pullingresults from psql
+[33m2f424d05[m Start testing popularity workflow
+[33m3a0654ff[m Log progress of popularity calculation
+[33ma2835e73[m Use more appropriate RuntimeError exception instead of SystemError
+[33mc8d9aeaa[m Modularize popularity job
+[33m2020cec1[m add SQL files to implement the deduplication process
+[33m58d8590d[m Upload normalized popularity scores back to the metadata column
+[33m6b8ea4c3[m repair error in new test table definition SQL
+[33m59d87b98[m Merge pull request #425 from creativecommons/kgodey-patch-1
+[33m37f172fa[m update local testing image table with new uniqueness constraints
+[33m866ce6c0[m Added Catalog core committers to codeowners.
+[33m7d19f33e[m modify sql operators to use new uniqueness constraint
+[33ma9698d8c[m add test data for common changes in URL we'd like to detect
+[33m7526e573[m Fix some issues preventing popularity cache from being computed; make sure output tsv is open before calling copy_expert
+[33meb4c4204[m Remove popularity logic from sql.py; that's specifically for the loader workflow and doens't belong there. Implement recomputation of percentiles from expired file cache.
+[33me87818a3[m Update sub provider retrieval logic by setting the provider value in source
+[33mf6795184[m foreign id reference image uid
+[33md3e5ee15[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33m7059538f[m Merge pull request #368 from allen505/europeana
+[33m2b35e3a5[m Add workload for producing normalized popularity TSV and queries for generating the popularity dump
+[33m69738bf3[m Fix error in test case with setting source
+[33m923a67b8[m Update sub-provider retrieval test case
+[33m30eb7cb1[m Update sub-provider retrieval to consider user ID
+[33m63186bae[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33mdbca4d85[m Merge pull request #410 from creativecommons/wmc_empty_response_bug
+[33m47310ad5[m Merge branch 'master' into europeana
+[33m1bc9e199[m Added european key to env.template  Changes to be committed: 	modified:   env.template
+[33m1a757ab4[m Code refactoring as per Code review
+[33m782ee086[m Merge pull request #411 from creativecommons/science_museum_workflow
+[33mc820b243[m science museum workflow
+[33mbbdb8677[m improve logging when the image_batch has no pages
+[33m088da3cc[m Merge branch 'science_museum_workflow' of https://github.com/creativecommons/cccatalog into science_museum_workflow
+[33m0e511e41[m science museum workflow
+[33m1fe6f583[m update _get_image_pages to handle non-empty response with no pages
+[33mf237aba6[m removed comment unrelated to science museum
+[33m2f9d72fb[m science museum workflow
+[33m5c743502[m Merge pull request #407 from creativecommons/env_template_bugfix
+[33mb6d29a6f[m Change schedule_interval to daily
+[33m10a17de7[m Removed return from pagewise and refactored code Changes were made as per Code Review Minor changes to fit PEP8  Changes to be committed: 	modified:   dags/provider_api_scripts/europeana.py
+[33m2adccac3[m Merge pull request #354 from ChariniNana/master
+[33mfd90b54c[m Merge pull request #400 from creativecommons/science_museum
+[33m12dcae0c[m Refactored code as per Code review
+[33m708431a6[m add LOADER_FILE_AGE and DATA_GOV_API_KEY to env.template
+[33m52eb5dad[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33m9f778a96[m[33m ([m[1;33mtag: v0.2.0[m[33m)[m Merge pull request #404 from creativecommons/loader_file_age_bugfix
+[33mc9ec3aed[m change loader_workflow file waiting time to 15 minutes
+[33m52952569[m Merge pull request #402 from creativecommons/wikimedia_reingestion
+[33m8421ac92[m Merge pull request #401 from creativecommons/smithsonian_integration
+[33mf2ef7a1a[m improve logging formatting strings as per Timid Robot's comment
+[33m19bcc3d6[m paritioned using custom year range.
+[33md5ba7b8a[m change docstring to reference correct module
+[33mfd098163[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into science_museum
+[33mcb193402[m change DAG name to align with Flickr ingestion DAG
+[33m12441607[m Add source as Flickr when the provider is a sub-provider
+[33m67ed6353[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
+[33m9f0a9ffb[m add workflow DAG to run smithsonian ingestion weekly
+[33me77dea5a[m fix bug in dag factory so that it uses correct operator
+[33m1d9e7bb7[m Merge branch 'master' into smithsonian_integration
+[33m2f7c36d9[m Merge branch 'master' into smithsonian_integration
+[33m197064cf[m add explicit tests for _check_type function
+[33ma574682f[m add docstrings for main functions, improve logging of type checker
+[33mfc91f163[m change log statement level to reduce output
+[33m52eb85f6[m add tests for remaining functions
+[33mac08f537[m modify _extract_tags so that it always returns a list
+[33m6a489621[m Merge pull request #394 from creativecommons/flickr_reingestion
+[33mab0b3e16[m fix problems found in testing
+[33mb5552486[m refactor to avoid single-use variables, add tests
+[33m4151e473[m add basic tests for processing response_json
+[33m7485e7d2[m use type checker function for row getter
+[33m7a369870[m improve logging calls, remove unnecessary f-strings
+[33m0640d0a5[m add rudimentary type verification to handle unexpected JSON values
+[33m9f5fbe34[m license method and other utilities tested
+[33m2c394c29[m Add test for sub provider retrieval
+[33m43010cb1[m Remove independent image store creation for default provider
+[33m98e5a6c8[m Apply suggested changes in error string parsing
+[33md3f04aa0[m Merge remote-tracking branch 'upstream/master'
+[33m0e5fdc66[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into science_museum
+[33mc0b294fa[m image methods created and tested
+[33m787cdfee[m improve creator-finding logic, add many creator type options
+[33m6f410216[m Initial implementation of sub provider retrieval
+[33m48f06049[m Merge pull request #398 from sp35/patch-1
+[33m6ae9a8f3[m _get_batch_object and param method tested
+[33m21817630[m add large sample JSONs from SI to .gitignore
+[33m1c992ab9[m remove large sample data JSON files
+[33m1749ba2d[m add tests for smithsonian.py; add sample responses
+[33m3aaa1742[m change to hash partitioning to control response size
+[33mb1db1ef3[m Add slack channel for the repo in metadata
+[33m10788071[m changes in _get_object_json and _get_license_url
+[33m416a8ef4[m Set the max allowed defective rows to 10
+[33m9fcc0494[m Merge remote-tracking branch 'upstream/master'
+[33m80be33fc[m Skip defective rows only at local loading excluding the logic from S3 loading
+[33m48ed4b79[m Trimmed a line europeana.py to fit 79 chars  Changes to be committed: 	modified:   dags/provider_api_scripts/europeana.py
+[33md70a10fa[m Removed unnecessary conditions  as per code review Removed empty license condtions Trimmed lines to 79 chars per line Removed import of re
+[33m6dfc6bf9[m Suggestions from code review
+[33mfd0d7e80[m add workflow implementing scheduled WMC reingestion
+[33mc9dc9cbc[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
+[33m006ecb1e[m Merge pull request #359 from kss682/issue358
+[33mc490ed95[m add sleep to test workflow
+[33m1222e012[m Update push_pull_request_test.yml
+[33m5e50e50a[m tune ingestion strategy configuration to prefer newer data
+[33m7764ff80[m add tests for new functionality
+[33m641bfb83[m add tests for get_dated_main_runner to check day-shifting logic
+[33m02b9a8cd[m update operator getter methods to use f-strings
+[33m734db84d[m change default start_date to a datetime.datetime type
+[33m4f380cd1[m Remove unused import
+[33m70847b93[m Attempt skipping defective rows in s3 load
+[33m510fc725[m clean up unused imports in test_operator_util.py
+[33m9be5e788[m document ingestion workflow and reingestion day list calculator
+[33md7374670[m remove subdag operator usage for simplicity,
+[33mf3fe8e00[m rename wait operator getter to conform with others
+[33m8e64af58[m extract meta-DAG factory method,
+[33m024a477d[m add reingestion meta-DAG
+[33mfa8f7eed[m refactor Flickr workflow in preparation for meta-DAG
+[33mb5aaafc8[m Merge pull request #390 from creativecommons/merging_strategies
+[33m6228731b[m add newlines at end of TSVs
+[33mc5285a31[m add truncated flickr example TSV files
+[33mb720f32a[m add merge_jsonb_objects function, reorganize/refactor
+[33m723aa8bf[m lxml used to get license and other minor fixes
+[33m68e22614[m add newest_non_null and merge_jsonb_objects strategies
+[33made00f44[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
+[33m3a4ab37c[m Merge pull request #389 from creativecommons/refactor_sql_module
+[33m64c2fdf2[m Use triple-quoted f-strings
+[33mc437c36f[m use string constants in extracted function arguments
+[33m39b2f705[m rename extracted function to match its current behavior,
+[33m08f07d30[m factor out string constants,
+[33m22842a72[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
+[33mc3501add[m Merge pull request #374 from creativecommons/load_s3_to_postgres_workflow
+[33mec6d0e23[m Merge pull request #380 from amartya-dev/master
+[33mab339292[m Merge pull request #381 from kss682/issue371
+[33m80fcac41[m reverts formatting changes
+[33mc4148e37[m check for name in enriched tags formatting changes modified test to include case for tag being dict
+[33ma60e7605[m add fields to gather and looping through unit codes to script.
+[33mff7b5792[m edited image.py ti comply with pep8
+[33m1383744a[m calls rewritten raw_pixel and removed RawPixel
+[33m2e2123b2[m check tags against a blacklist in ImageStore
+[33mee1e61b9[m enable pulling from Smithsonian API endpoint.
+[33me2afe96d[m Merge branch 'master' into smithsonian_integration
+[33m1bfd622c[m set up local S3 -using tests to run with --disable-socket
+[33mbe39ebe4[m update env.template with new environment variables
+[33mb8209e9e[m add final (for now) tests for s3 functions
+[33m624055b1[m Merge pull request #321 from sp35/rawpixel
+[33ma674567f[m Remove unused import
+[33ma51fc569[m incorporate function to load data from S3 into Postgres into DAG
+[33md6539025[m Merge pull request #369 from creativecommons/sweep_to_s3_workflow
+[33m7644cfac[m add function to load data from s3 into postgres
+[33m5e7d1363[m refactor loader sql module in preparation for adding s3 loading
+[33mc1b7d286[m reorganize DAG to hold new s3 loading to postgres logic
+[33m0cedb6ac[m Added DAG and corresponding test file New file to create DAG to execute Europeana's script Test suite to check for any import errors and the number of DAGs created  Changes to be committed: 	new file:   dags/europeana_workflow.py 	new file:   dags/test_europeana_workflow.py
+[33me50270c4[m set up local postgres with mock aws_s3 functionality
+[33m935e2e2c[m change f-string to plain string, as per Timid Robot's comment
+[33m71c8e8ec[m freeze more requirements to let building happen without errors
+[33m25d4192a[m add error exit if local S3 isn't working
+[33m68e4be2e[m add basic tests for s3 copying method
+[33ma7a0d670[m Refactor and test function for metadata functions Test functions for metadata and description functions Code Reafactoring New test for get_image_list for last page
+[33mbd4d0130[m LangAware Description, tests to extract_data Description of images is taken in the following priority: -English -Default -dcDesption if neither of the above were available
+[33me92fc0d1[m [fix] Use logger for all logs and tags directly
+[33m2b586e77[m set up local s3 for local running and testing
+[33m2c8bf9d6[m add loading data to s3 as a dependency of local loading
+[33m44e79188[m modify s3 loader trigger rule to avoid race with local loader
+[33m62f80b8f[m add s3 loading logic to database loader workflow
+[33m15b5811d[m date changes and removed old config
+[33m8759b1f9[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue358
+[33mb2f57ef1[m patch object used to handle response
+[33mab6e5d80[m handling objects as batch and its tests
+[33mcab3afcd[m [Fix] Change test case for list of tags in test_raw_pixel.py
+[33mdf0efb38[m [fix] Faulty list of tags and logger instead of logging
+[33mf1a480d0[m Added new test functions and response.json file Test function for empty list and error in response. Minor bugs fixes. This commit also adds a sample success response to be used for testing  Changes to be committed: 	modified:   dags/provider_api_scripts/europeana.py 	modified:   dags/provider_api_scripts/test_europeana.py 	new file:   dags/provider_api_scripts/tests/resources/europeana/europeana_example.json
+[33m901d66d3[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
+[33mc3e347df[m Merge pull request #357 from akshgpt7/automate-linting
+[33m838132d4[m Merge pull request #361 from creativecommons/freeze_requirements
+[33m0bbe4b76[m Freeze SQLAlchemy version due to upstream bug
+[33m3c73a0d5[m Remove branch restriction from push
+[33m5c18e6d1[m metropolitan museum workflow
+[33mef41f845[m Merge pull request #278 from AyanChoudhary/rewrite_met_museum
+[33m8d48efbf[m Add workflow for linting, annotations for pull requests and push
+[33me44acf2d[m Fixed timestamp and cusor bug Changed the Timestamp to ISO 8601 format Added code that caused error with last page of the results.
+[33mf9a83211[m Added test file for Europeana API
+[33m7c4a1073[m fix:styling issues
+[33ma3e41797[m use getenv to get API key
+[33m9ea85543[m proper use of image count
+[33m2bab62cf[m Refactor raw_pixel and test_raw_pixel - improvements
+[33meee72263[m Added code to get number of images stored 	modified:   src/cc_catalog_airflow/dags/provider_api_scripts/europeana.py
+[33m90cdc32e[m Stored image & metadata using the ImageStore class
+[33m3520b9eb[m brooklyn museum rewritten
+[33m2e91a188[m Merge remote-tracking branch 'upstream/master'
+[33m8f6e5dce[m Test skipping of defective rows upto a maximum number and throw error if max exceeded
+[33mcc9c4568[m Update the data import from tsv to table to support skipping upto a maximum number of defective rows
+[33m1262a97c[m Merge pull request #344 from amartya-dev/automated_testing
+[33m50e3a6eb[m Merge pull request #349 from creativecommons/prod_deployment
+[33m670ab637[m reorder commands in deployment bash script
+[33m4f13369b[m Tidy up bash script; improve Dockerfile directory handling
+[33m2f1d58d3[m fix: patch test API calls with monkeypatch
+[33mab24b4c2[m Pagewise function implemented Images are retrieved pagewise till all images are retrieved
+[33m97fb972d[m Merge branch 'master' into prod_deployment
+[33m5fbad057[m add deployment bash script to avoid remembering commands
+[33m45ade1a0[m Merge pull request #330 from akshgpt7/phylopic
+[33m6abb65ce[m Merge branch 'master' into prod_deployment
+[33m2c7f7ce9[m Merge pull request #346 from kss682/issue241
+[33m955caef0[m BashOperator used
+[33m1a7bd4d7[m reconfigure wmc workflow file to match production
+[33m77d4f6dc[m fix bug where flickr script fails when reponse has no images
+[33m3591ff69[m add testing plugins to requirements.txt,
+[33m60da0c71[m test on both push and pull request
+[33mb863af74[m Merge branch 'master' into prod_deployment
+[33m9656653c[m Add test resource for test_raw_pixel.py
+[33mb6c503a8[m Add tests for raw_pixel.py
+[33m503bce53[m monthly workflow indiviual scripts
+[33m0cf48025[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue241
+[33m64696eee[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
+[33mf972a59d[m Remove old Phylopic workflow
+[33m9f97e582[m Merge pull request #328 from kss682/issue255
+[33m5f49b694[m Merge pull request #347 from creativecommons/flickr_bugfix
+[33mdcb8c33f[m add tests, clean up temporary bug fix
+[33m55f721d7[m Merge branch 'master' into flickr_bugfix
+[33mbe0da184[m Added code to fetch details from the first page using Cursor based pagination.
+[33m84980d31[m Monthly workflow and testsuit added
+[33m5908f5b9[m monthly workflow
+[33mc6a4b64f[m Added command to copy env template
+[33me7244c12[m Added command to copy env template
+[33m389dde15[m Changed directory before docker compose
+[33md3fba27c[m Corrected the working directory specification
+[33m3fc9c045[m modified commit accordinf to latest docs
+[33m3842c449[m modified commit accordinf to latest docs
+[33mc6446844[m Automated testing on pull request
+[33m23dabab3[m Merge branch 'master' into prod_deployment
+[33m14419b32[m change environment and docker compose configuration for prod use
+[33mfb9994f9[m Merge pull request #342 from kss682/issue336
+[33m79e20bad[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
+[33m58fe6d5f[m changes made as per review
+[33m9cf6251a[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue255
+[33m1d25cef6[m method filter moved to query parameter
+[33m5d656238[m Merge pull request #341 from SaurabhAgarwala/pr-moving-workflow
+[33m73836ecf[m Add the continue-on-error configuration to the PR moving workflow
+[33m0f250a13[m Merge pull request #331 from creativecommons/dag_specific_loader
+[33mbe04e432[m feat: added tests for additional images
+[33m4a0ee314[m Merge pull request #320 from mjprince/master
+[33mf51d7b4b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
+[33m2b5f16dd[m Merge pull request #314 from ChariniNana/master
+[33m9bd3c2c1[m test suite for cleveland script.
+[33m82ba4d40[m get_response retry logic changed
+[33ma657f9d7[m Merge pull request #332 from akmadian/master
+[33m956c19c7[m Write test for phylopic workflow
+[33m3a7c507b[m Swap "not ready for work" and "awaiting triage" in issue templates
+[33m26f6c45d[m add python script to wait until Airflow metadata DB becomes ready
+[33m30f66eeb[m Update : review and pep8 guide changes made
+[33m1503f364[m remove old env.sh.template
+[33m17419719[m update README.md with new docker-compose dev setup
+[33mfb2d7603[m Remove non-essential parameter from get_response_json test
+[33m2d058d3a[m Code formatting
+[33m229b67a7[m Add generic tests for checking the get_response_json method and remove them from provider scripts
+[33mc428a490[m add env.template to give the format of the .env file
+[33mb7583dfc[m Rename test_phylo_pic.py to test_phylopic.py
+[33md994bdcb[m Remove duplicate file phylo_pic.py, created for case insensitive systems
+[33m3d3fb4aa[m Remove deprecated PhyloPic.py
+[33mad5d183c[m Revert "Remove old phylopic.py and test_phylopic.py"
+[33m8252aa03[m Remove old phylopic.py and test_phylopic.py
+[33m294f22c6[m Create Apache Airflow DAG to run new phylopic.py script.
+[33m1dd89444[m Update main.yml
+[33m6c44f90f[m rewriten clevelend provider script with  ImageStore.
+[33m2117b176[m Improve rawpixel.py - rename, private non-main functions, reduce main()
+[33mbd265c0a[m initial fix;  This needs to be checked more in depth
+[33me4c8d930[m Further stylistic changes to support future signature changes
+[33mfb4b1ca0[m Add stylistic edits to support signature changes in future
+[33m677bc0f8[m Merge remote-tracking branch 'upstream/master'
+[33m2837027d[m Merge branch 'master' into dag_specific_loader
+[33m63bf5f07[m feat: write unhappy path tests for _get_image_data
+[33m676b6bff[m Merge branch 'master' into dag_specific_loader
+[33m6c220b95[m fix: remove unused imports and fixed new function call
+[33mf8accb48[m Split process_image_data method into smaller methods in rawpixel.py
+[33m410335f4[m add drop table test, rename table creator
+[33ma6e6dbd0[m add more sql function tests for loading and upserting logic
+[33m47447368[m Update main.yml
+[33m0f5ae13b[m Rewrite RawPixel.py using new ImageStore class - rawpixel.py
+[33m6938cefd[m Create main.yml
+[33mf6aed3d7[m add more sql function unit tests
+[33m0005fb81[m Merge pull request #313 from creativecommons/rename_old_scripts
+[33m528e5810[m Format code
+[33m13f5f9a2[m Use the get_response_json function provided in requester class with phylopic script and related tests
+[33m845802ef[m rename phylopic.py to phylo_pic.py
+[33maf28c7c1[m add initial sql function tests
+[33m883708df[m modify loading table creation query to fail if it already exists
+[33mff5d1f47[m add tests for util.paths submodule
+[33me267c2cf[m change funciton name in paths.py to match new operator definition
+[33md86e2b8e[m rename DAG tasks (nodes) for clarity
+[33me5539765[m reorganize loading operators and logic into a package
+[33m218c24ad[m Fix test which mocks the get_response_json method
+[33m8cad5316[m increase testability of loader_workflow.py
+[33m8e0bad68[m change to official python base Docker image
+[33md1cc3db5[m Use the get_response_json function provided in requester class with wikimedia commons script and related tests
+[33m98de9d1a[m Add get_response_json function to requester class to minimise repetition of code
+[33mfb41ae58[m Merge pull request #276 from akshgpt7/phylopic
+[33m89034dfc[m Merge pull request #285 from ChariniNana/master
+[33m2b868f7e[m Merge pull request #309 from creativecommons/kgodey-patch-2
+[33m09f3c924[m Merge pull request #306 from creativecommons/issue_template_fixes
+[33me91381ea[m Code formatting in the test file
+[33m63a9b846[m Merge pull request #308 from creativecommons/kgodey-patch-1
+[33m453165dc[m Code formatting to comply with PEP8
+[33m304a0f84[m Delete older CODEOWNERS file
+[33m62fa4034[m Added CODEOWNERS file
+[33m217278f7[m Add foreign_identifier arg to add_item in phylopic.py, write test for it and add default 'all' value to date
+[33mfdaaaa39[m modify issue templates as per comments by Timid Robot and Kriti
+[33m3ea544fd[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
+[33m15009eb4[m Modify date keys to reflect the information they provide
+[33m12c55130[m Merge remote-tracking branch 'upstream/master'
+[33m6f99b434[m Simplify parameters and minor fixes in phylopic.py
+[33mc61a76e9[m Merge pull request #303 from mariuszskon/fix/etlmods-deprecation-warning
+[33m655be1dc[m increase wait for file to finish updating
+[33m9475bd68[m Merge pull request #290 from qubit99/master
+[33md4ed42b6[m parallelize DB loading somewhat,
+[33ma9b250b1[m Updated test to verify date uploaded/taken are stored in meta data
+[33mafea1e98[m Merge remote-tracking branch 'upstream/master'
+[33m3820596f[m Fix etlMods.py DeprecationWarning for invalid escape sequence
+[33me523687b[m fix:handle foreign_landing_url value from the API and rename _get_data_for_each_image to _get_data_for_image
+[33ma1b6d9e4[m fix:made requested changes and chnged foreign url according to new API
+[33m350f87ea[m Merge pull request #292 from creativecommons/new_issue_templates
+[33mba67f961[m add numerous new templates for issues
+[33m6904102d[m Updated Docstring
+[33m21e4f6c8[m Merge pull request #288 from Milind712000/fix-readme-file-links
+[33mf6502b0b[m Merge branch 'master' into dag_specific_loader
+[33m57566942[m increase wait time for production, change name for descriptiveness
+[33m6fd9210a[m Write tests for phylopic provider API script
+[33m663f23f3[m Add example files for phylopic tests
+[33m3d6a0442[m Fix README.md file links
+[33mdcc44ef6[m extract sql.py from main DAG file for clarity
+[33mfe1bf147[m finish basic version of loader DAG, add a smoke test
+[33m79eb62d8[m fix:write tests for _get_data_for_each_image through _process_image_data, used new api response as sample response and enforced PEP8 standards in test
+[33m3d2766a4[m [Issue 222] date info added to metadata
+[33m412a2e74[m fix:removed unused vars and imports, fixed fatal bug in get_data_for_each_image by using keyword arguments, removed default mode from arg parse and left only date as the sole parameter and refactored code to confirm with PEP8
+[33mfb58d77d[m add branching logic to loader dag
+[33m7161426a[m Break down larger functions
+[33m7962b201[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
+[33ma0bf4e3d[m Refactor phylopic.py according to make requested changes
+[33m6f38793f[m fix:changes test for met..museum.py to function with mockpatches
+[33m0350bd7d[m fix:requested changes in metropolitan_museum_of_art.py
+[33m34a2fc55[m add new loader_workflow.py, refactored a bit
+[33m7ba0a4e5[m add initial Smithsonian Institution Provider API script
+[33mfc8f003e[m Merge pull request #272 from akshgpt7/flickr
+[33me5aa677a[m Fix break logic in flickr.py and write test for it
+[33m373f4a66[m refactor:change class names to follow convention
+[33m70140556[m refactor:logger format to the new syntax
+[33mfa27f6a5[m feat: completed test for create_meta_data
+[33m2691d079[m feat: completed test for get_response_json
+[33m0b5d1e73[m feat: completed test for get_object_ids
+[33m0a6bcf67[m feat: refactored code with new classes
+[33m1578db9a[m feat:changed file to new name and updated imports from the new classes
+[33m17d8b8b9[m Add _get_response_json() method
+[33ma000160b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
+[33m668872d9[m Refactor the new phylopic API script
+[33m15183839[m Rewrite phylopic API script using new model.
+[33m00d4969b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into flickr
+[33mc6acda37[m Fix requested changes
+[33m7ac75321[m Merge pull request #269 from creativecommons/provider-api-issue-template
+[33m0b1c0299[m Logical fix in returning Nonetypes
+[33m08da7324[m Change 'tries' to 'max_tries' in flickr's provider api script's _get_image_list method for more clarity
+[33m44e6c0b9[m Refactor flickr API script's _get_image_list method to use 'tries' instead of 'retries'
+[33me2be5c4d[m remove unnecessary comment in cleveland museum
+[33mc309dcf0[m Merge pull request #270 from akshgpt7/cleveland
+[33mf864e891[m use has_image parameter in Cleveland Museum script
+[33m807cb5e8[m Add Provider API issue template
+[33mebf8582a[m add docker-compose to test Apache Airflow operations on PostgreSQL
+[33mf00d1576[m Merge pull request #266 from creativecommons/flickr_dag
+[33me40669f3[m remove deprecated Flickr script and associated cruft
+[33mcdf90758[m add new flickr dag, and a basic smoke test
+[33mb4c9c70b[m Merge pull request #263 from creativecommons/flickr_rewrite
+[33m849aaad9[m add whitespace around equals sign
+[33m1080186a[m add more tests, most at a higher level
+[33m7a3518de[m extract json checking to its own function
+[33m20f81d49[m add more tests for new flickr.py script
+[33m87b8ae1c[m Merge pull request #261 from creativecommons/wikimedia_timeout_increase
+[33m8d226e11[m raise exception if retries are exceeded
+[33m2a2c48ab[m increase timeout to help wikimedia commons script succeed
+[33m1c1fc52b[m Merge pull request #259 from creativecommons/requester_bugfix
+[33m283c4c8c[m delete extraneous requests.get outside of try/except block
+[33m752676cb[m add resource jsons to avoid large test functions
+[33mbb04b7b5[m add more tests for Flickr script
+[33mc99b09e9[m default to empty string for description so we can strip it
+[33m97f853dd[m rewrite Flickr.py to flickr.py, add basic tests
+[33mf373ed35[m add logging message for missing columns in ImageStore
+[33me3d1b407[m Merge pull request #250 from creativecommons/wikimedia_commons_dag
+[33m56eda8b8[m expand ts to timestamp for clarity in wikimedia_commons.py
+[33ma520362d[m change itereator variable from i to _
+[33mb5a68a6e[m modify wikimedia_workflow DAG test to work from other directories
+[33m3ad1c3dd[m add DAG for new Wikimedia Commons script
+[33mfbfcb8d4[m change image_batch recursion into loop for safety
+[33ma99c39f4[m remove old WikimediaCommons script and tests
+[33m98a31aa6[m update Dockerfile to avoid permissions problems with env.sh
+[33mc36f3d28[m Merge pull request #248 from creativecommons/wikimedia_rewrite
+[33me6b1334a[m conform to PEP8 numbers of lines between test functions
+[33m232588b1[m add docstring for initializing DelayedRequester
+[33m8ea121b8[m Add globalusage tallying logic to wikimedia_commons.py
+[33m1f3d1fa1[m port and add tests for new wikimedia_commons.py script
+[33m066ccf4a[m Merge pull request #246 from creativecommons/image_repository_class
+[33m752e85c3[m add initial version of new wikimedia_commons.py script
+[33mab0cabf8[m add DelayedRequest class to handle rate limited requests
+[33mb314e9d0[m reorganize image store class
+[33m1f9e7e8f[m add early exit when there is no license or version available
+[33m6b7c3088[m reorganize directory structure for delayed_request module
+[33m5049b57b[m add logic to enrich meta_data with license_url by default
+[33mde23bd56[m change pairs from generator to list comprehension for logging
+[33m796f6c5b[m move unused filesize column one layer to DB
+[33m2ad78259[m add docstrings to public ImageStore methods
+[33m640da118[m add docstrings to public functions in storage.util
+[33mf2a5c010[m remove unused enforce_all_arguments_truthy function
+[33mb5b204b8[m try harder to cast booleans, add docstrings for column classes
+[33m4dd8b15c[m finish ImageStore.commit logic
+[33m852757f9[m add writing to disk and more verification logic to ImageStore
+[33m74c29f33[m add image.py with ImageStore class
+[33m4b7f8752[m add columns.py, creating column types
+[33mafddfa0b[m add sanitization of strings and json to storage utilities
+[33md56d79ae[m add methods to enforce truthiness and merge provider/source
+[33mc4b80600[m Merge pull request #245 from creativecommons/turn_on_separate_dags
+[33m41d04dfb[m add character limit enforcer to avoid DB import failures,
+[33m781435ed[m add basic utilities to be used by ImageStore class,
+[33m0ae98f94[m schedule separate DAGs to run in place of dailyWorkflow.py
+[33m993c74d2[m Merge pull request #235 from creativecommons/json_string_bugfix
+[33m329b2c1c[m rewrap function arguments
+[33m24e95792[m add function to sanitize json values before dumping to json string
+[33m42b65e91[m Merge pull request #230 from creativecommons/airflow_daily_dag_split
+[33mbd19070d[m capitalize all letters in constants from `config.py`
+[33mad2b3411[m wrap long line
+[33m133851be[m add comment to Dockerfile explaining 'hash' style image tag
+[33mc2fb113d[m Change links to reference style, where appropriate
+[33mcdaa0a77[m specify Amazon EMR to avoid acronym-knowledge overhead
+[33m80acb00f[m make minor changes to conform to PEP8
+[33mc0a67a4a[m update README with new filepaths, and clean up cruft
+[33m0051db98[m remove old dailyWorkflow.py DAG file
+[33m6c69a400[m Add newlines to ends of files to please git
+[33m939b0922[m Fix crontab bug in WikimediaCommons DAG; add DAG config validation
+[33ma307b323[m split dailyWorkflow.py into separate DAGs.
+[33m9676210a[m use env.sh in Dockerfile
+[33m1ad3cfc7[m add airflow testing detritus to .gitignore
+[33mbd5c05e3[m move dag files to synchronize with Docker Container
+[33m08d37f63[m move Dockerfile and requirements.txt to DAG directory
+[33m35697bb5[m Move example output files to testing resource location
+[33m33c53961[m move api provider scripts to make deployment simpler
+[33mcf7d68a8[m Merge pull request #226 from creativecommons/wikimedia_commons_creator_fix
+[33m0e8d9818[m Use single quote for all strings in `test_WikimediaCommons.py`
+[33m0c28c78f[m Extract json examples from test file
+[33m37959914[m use parentheses instead of backslashes for line continuation
+[33mcd765de2[m extract row_generator from list comprehension for readability
+[33mb1a6eb06[m change docstring to correct endpoint for documentation
+[33mb07de227[m add functionality to scrape text from description field
+[33mdb7fc30a[m refactor WikimediaCommons.py with snake_case, change endpoint
+[33mcee194dc[m Merge branch 'flickr_test_speed' into wikimedia_commons_creator_fix
+[33m4027b911[m bring WikimediaCommons.py into pep8 compliance, remove star import
+[33md3f8aa50[m monkeypatch delay function to speed up testing
+[33m897a808a[m refactor create_tsv_list_row, add logging functionality
+[33m9dfa77e5[m Refactor getMetaData into process_image_data
+[33m906d64b5[m change Wikimedia Commons script to use artist info for creator
+[33mcf8c0d85[m[33m ([m[1;33mtag: v0.1.0[m[33m)[m Merge pull request #218 from creativecommons/extract_row_formatter
+[33m1392dadf[m change name of etlMods import to be more meaningful
+[33m574a3684[m align more variables with pep8, remove star import from Flickr.py
+[33m08c608e1[m extract row-writing function from Flickr.py
+[33mb76dc709[m Merge pull request #213 from creativecommons/test_env_setup
+[33m8ed02300[m add Dockerfile to set up local testing/development environment; add test for Flickr.py
+[33mfd9d71e0[m Merge pull request #198 from creativecommons/string_sanitizer_bugfix
+[33mbd75338c[m add casting to string as first step of sanitizeString method
+[33mece000fe[m Merge pull request #190 from paulofilip3/master
+[33m3a66c105[m Fix requirements.txt
+[33m9cbf0f76[m Add gitignore
+[33m2c0fb06b[m Update README.md
+[33m4dd2b8ba[m Update README.md
+[33mce9c808e[m Update README.md
+[33m3d787d11[m Update README.md
+[33md58c7a4a[m Update CC Catalog Common Crawl test cases
+[33m662fd157[m Update README.md
+[33m74cc30fc[m Update requirements.txt
+[33m55445e89[m Update README.md
+[33maef747e3[m Add wikimedia commons to the workflow
+[33me01dd5cf[m Bug fix
+[33me22fef7d[m Add cc catalog workflow scripts
+[33mab5bf45c[m Add Wikimedia Commons using the API
+[33md7faf342[m Add NYPL using the API
+[33maef20219[m extract popularity metrics from Behance
+[33m8fd4d09e[m Add new date parameter to query images on flickr
+[33m401c4737[m Remove Brooklyn Museum from the common crawl providers
+[33md0607b61[m Add RawPixel using the API
+[33m4c6e6b36[m Remove RawPixel from the common crawl providers
+[33m5d9f9a2d[m Merge branch 'master' of github.com:creativecommons/cccatalog
+[33me6c5e75d[m Add new provider
+[33mb5695fa3[m Add function to extract the license
+[33md39b37bf[m Update CONTRIBUTING.md
+[33m94de9068[m Update .cc-metadata.yml
+[33m0dd15188[m Update and rename .github/CODEOWNERS to CODEOWNERS
+[33m0c55f62e[m Update and rename CODEOWNERS to .github/CODEOWNERS
+[33m83fc4b20[m Update common crawl and api jobs to standardize the output data
+[33m146674d2[m Sanitize strings
+[33mb55def75[m Sanitize strings
+[33m612cc846[m Bug fix
+[33m312a9d5f[m Bug fix
+[33m9c838103[m Add new provider
+[33m1483e51a[m Bug fix
+[33m384ebcfe[m Update modules
+[33m8740f0fb[m Update the output description
+[33mc9bdb3da[m Add optional parameter for http requests
+[33m25173032[m Create function to extract CC license and version from url
+[33m65994fe0[m Make repository contribution ready
+[33me4477830[m Bug fix
+[33m9cf6a058[m Update log statistics
+[33mdc15c511[m Bug fix
+[33mb884a402[m Set default mode to the start of the previous hour
+[33mdd9e0488[m Include sys module
+[33mbe04fd8c[m Escape special characters
+[33m65769114[m Add new provider
+[33m98442106[m Bug fix
+[33md2709afe[m Add new Common Crawl providers
+[33m5d854355[m Replace empty strings with null
+[33m0eac921d[m Update thumbnail source
+[33me95e9191[m Update code to parse changes in the HTML
+[33m6f32e45b[m Bug FIx
+[33me984d251[m Bug fix
+[33m72b1b714[m Add new providers
+[33m2fbbeb43[m Bug fix
+[33m0fb57d2a[m Bug fix
+[33m34a222fe[m Refactor common crawl scripts
+[33m44ed6124[m Update argument name
+[33ma752543f[m Update driver to identify 3D models by date
+[33mdd0ec1e7[m Remove redundant modules
+[33mfe6300d5[m Update imported modules
+[33me92268da[m Bug fix
+[33maa01a978[m Modularize code
+[33me4d57373[m Modularize code
+[33mf2c0b51b[m reformat the output and santitize strings
+[33m9fb964d6[m Provide optional arguments to execute the script
+[33m2368ef60[m Add Met Museum as a new content provider
+[33m5c4b476b[m Update image detection logic
+[33m9d98d82a[m Change common crawl index extraction logic
+[33mf2a04b14[m Merge branch 'master' of github.com:creativecommons/cccatalog
+[33mace5fdc2[m Add Cleveland Museum as a new provider
+[33mb2ca5b0b[m Update requirements.txt
+[33m1ad2b811[m Add new API provider
+[33m0c37ad38[m restructure common crawl providers
+[33m473490f7[m Merge branch 'master' of github.com:creativecommons/cccatalog
+[33m16196822[m Add generic exception handling for requests
+[33m62103934[m Update README.md
+[33md1efa480[m Update README.md
+[33md5901e0a[m Update ExtractCCLinks.py
+[33mc6949f15[m Add new providers
+[33md44bdc45[m Add new providers
+[33m07a8b3d6[m Create a default parameter for the common crawl ETL process
+[33ma31aa0f1[m Add new content providers and sample data
+[33m76af3781[m Add data extraction steps for the Met
+[33m00417189[m Merge branch 'master' of github.com:creativecommons/cccatalog
+[33madb2d20f[m Add the Met Museum as a content provider
+[33m125504d6[m Update README.md
+[33m9b84a269[m Add test cases
+[33mf5532c42[m Update ExtractCCLinks.py
+[33m1a813349[m Identify domains that link to creative commons
+[33ma31ee4bb[m First tests for the common crawl parsing strategy
+[33m2138ad24[m Some basic tests for working with spark and wark files and some example processing we are going to be running.
+[33mffa2b85e[m Initial commit

From 17985e8e4ce9ed3ae212ed714aa7b6a9f69ae6ae Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Wed, 26 Oct 2022 13:56:02 +1100
Subject: [PATCH 8/9] Short curcuit empty fields into `None` record

---
 .../provider_api_scripts/europeana.py         | 115 +++++++++++++-----
 .../provider_api_scripts/test_europeana.py    |  59 +++++++--
 2 files changed, 135 insertions(+), 39 deletions(-)

diff --git a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
index 8dbb19624..3e3de3504 100644
--- a/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
+++ b/openverse_catalog/dags/providers/provider_api_scripts/europeana.py
@@ -9,6 +9,7 @@
 Notes:                  https://www.europeana.eu/api/v2/search.json
 """
 import argparse
+import functools
 import logging
 from datetime import datetime, timedelta, timezone
 
@@ -23,6 +24,30 @@
 logging.getLogger(common.urls.__name__).setLevel(logging.WARNING)
 
 
+class EmptyRequiredFieldException(Exception):
+    def __init__(self, method_name: str, value):
+        super().__init__(f"`{method_name}` returned an empty value: {value}.")
+
+
+def raise_if_empty(fn):
+    """
+    Used to decorate RecordBuilder methods for "required" fields
+    to shortcut record building in the case where a record would
+    be missing some required fields and be thrown out anyway.
+    """
+
+    @functools.wraps(fn)
+    def inner(*args, **kwargs):
+        value = fn(*args, **kwargs)
+
+        if not value:
+            raise EmptyRequiredFieldException(fn.__name__, value)
+
+        return value
+
+    return inner
+
+
 class EuropeanaRecordBuilder:
     """
     A small class to contain the record building functionality
@@ -30,50 +55,76 @@ class EuropeanaRecordBuilder:
     """
 
     def get_record_data(self, data: dict) -> dict:
-        record = {
-            "foreign_landing_url": self._get_foreign_landing_url(data),
-            "image_url": data.get("edmIsShownBy")[0],
-            "foreign_identifier": data.get("id"),
-            "meta_data": self._get_meta_data_dict(data),
-            "title": data.get("title")[0],
-            "license_info": get_license_info(
-                license_url=self._get_license_url(data.get("rights"))
-            ),
-        }
+        try:
+            record = {
+                "foreign_landing_url": self._get_foreign_landing_url(data),
+                "image_url": self._get_image_url(data),
+                "foreign_identifier": self._get_foreign_identifier(data),
+                "meta_data": self._get_meta_data_dict(data),
+                "title": self._get_title(data),
+                "license_info": get_license_info(
+                    license_url=self._get_license_url(data)
+                ),
+            }
+
+            data_providers = set(record["meta_data"]["dataProvider"])
+            eligible_sub_providers = {
+                s
+                for s in EuropeanaDataIngester.sub_providers
+                if EuropeanaDataIngester.sub_providers[s] in data_providers
+            }
+            if len(eligible_sub_providers) > 1:
+                raise Exception(
+                    f"More than one sub-provider identified for the "
+                    f"image with foreign ID {record['foreign_identifier']}"
+                )
+
+            return record | {
+                "source": (
+                    eligible_sub_providers.pop()
+                    if len(eligible_sub_providers) == 1
+                    else EuropeanaDataIngester.providers["image"]
+                )
+            }
+        except EmptyRequiredFieldException as exc:
+            logger.warning("A required field was empty", exc_info=exc)
+            return None
 
-        data_providers = set(record["meta_data"]["dataProvider"])
-        eligible_sub_providers = {
-            s
-            for s in EuropeanaDataIngester.sub_providers
-            if EuropeanaDataIngester.sub_providers[s] in data_providers
-        }
-        if len(eligible_sub_providers) > 1:
-            raise Exception(
-                f"More than one sub-provider identified for the "
-                f"image with foreign ID {record['foreign_identifier']}"
-            )
-
-        return record | {
-            "source": (
-                eligible_sub_providers.pop()
-                if len(eligible_sub_providers) == 1
-                else EuropeanaDataIngester.providers["image"]
-            )
-        }
+    @raise_if_empty
+    def _get_image_url(self, data: dict) -> str | None:
+        group = data.get("edmIsShownBy")
+        return group[0] if group else None
+
+    @raise_if_empty
+    def _get_foreign_identifier(self, data: dict) -> str | None:
+        return data.get("id")
+
+    @raise_if_empty
+    def _get_title(self, data: dict) -> str | None:
+        group = data.get("title")
+        return group[0] if group else None
+
+    @raise_if_empty
+    def _get_license_url(self, data: dict) -> str | None:
+        license_field = data.get("rights")
+        if not license_field:
+            return None
 
-    def _get_license_url(self, license_field) -> str | None:
         if len(license_field) > 1:
             logger.warning("More than one license field found")
         for license_ in license_field:
             if "creativecommons" in license_:
                 return license_
+
         return None
 
+    @raise_if_empty
     def _get_foreign_landing_url(self, data: dict) -> str:
         original_url = data.get("edmIsShownAt")
-        if original_url is not None:
+        if original_url:
             return original_url[0]
         europeana_url = data.get("guid")
+
         return europeana_url
 
     def _get_meta_data_dict(self, data: dict) -> dict:
@@ -163,7 +214,7 @@ def get_should_continue(self, response_json: dict):
 
     def get_batch_data(self, response_json: dict) -> None | list[dict]:
         if response_json.get("success") != "True":
-            logger.warning('Request failed with ``success = "False"``')
+            logger.warning('Request failed with ``success != "True"``')
             # No batch data to process if the request failed.
             return None
 
diff --git a/tests/dags/providers/provider_api_scripts/test_europeana.py b/tests/dags/providers/provider_api_scripts/test_europeana.py
index 91e51e485..d1fea135e 100644
--- a/tests/dags/providers/provider_api_scripts/test_europeana.py
+++ b/tests/dags/providers/provider_api_scripts/test_europeana.py
@@ -86,17 +86,21 @@ def test_get_should_continue_updates_cursor(ingester):
 @pytest.mark.parametrize(
     ("response_json"),
     (
-        {"success": "True", "nextCursor": None},
-        {"success": "True"},
-        {"success": "False", "nextCursor": "blam"},
+        {},
+        {"nextCursor": None},
     ),
 )
 def test_get_should_continue_returns_false(ingester, response_json):
     assert ingester.get_should_continue(response_json) is False
 
 
+def test_get_batch_data_returns_None_if_success_not_True(ingester):
+    response_json = {"success": "False", "items": [1]}
+    assert ingester.get_batch_data(response_json) is None
+
+
 def test_get_batch_data_gets_items_property(ingester):
-    response_json = {"items": object()}
+    response_json = {"success": "True", "items": object()}
 
     assert ingester.get_batch_data(response_json) is response_json["items"]
 
@@ -156,9 +160,7 @@ def test_get_license_url_with_non_cc_license(record_builder):
     image_data = _get_resource_json("image_data_example.json")
     image_data["rights"] = ["http://noncc.org/"]
 
-    assert record_builder.get_record_data(image_data)["license_info"] == LicenseInfo(
-        None, None, None, None
-    )
+    assert record_builder.get_record_data(image_data) is None
 
 
 def test_get_license_url_with_multiple_license(record_builder):
@@ -304,3 +306,46 @@ def test_process_image_data_with_sub_provider(record_builder):
         "meta_data": expect_meta_data,
         "source": "wellcome_collection",
     }
+
+
+DELETE = object()
+
+
+@pytest.mark.parametrize(
+    ("field_name", "value", "extra_empty_fields"),
+    (
+        ("id", "", ()),
+        ("id", None, ()),
+        ("id", DELETE, ()),
+        ("edmIsShownAt", "", ("guid",)),
+        ("edmIsShownAt", [], ("guid",)),
+        ("edmIsShownAt", [""], ("guid",)),
+        ("edmIsShownAt", None, ("guid",)),
+        ("edmIsShownAt", DELETE, ("guid",)),
+        ("rights", [], ()),
+        ("rights", [""], ()),
+        ("rights", ["not-cc"], ()),
+        ("rights", DELETE, ()),
+        ("title", "", ()),
+        ("title", None, ()),
+        ("title", DELETE, ()),
+        ("edmIsShownBy", "", ()),
+        ("edmIsShownBy", None, ()),
+        ("edmIsShownBy", [], ()),
+        ("edmIsShownBy", [""], ()),
+        ("edmIsShownBy", DELETE, ()),
+    ),
+)
+def test_record_builder_returns_None_if_missing_required_field(
+    record_builder, field_name, value, extra_empty_fields
+):
+    image_data = _get_resource_json("image_data_example.json")
+    for empty_field in extra_empty_fields:
+        del image_data[empty_field]
+
+    if value is DELETE:
+        del image_data[field_name]
+    else:
+        image_data[field_name] = value
+
+    assert record_builder.get_record_data(image_data) is None

From f02a4741814ede69b5349b0988241a88263364f1 Mon Sep 17 00:00:00 2001
From: sarayourfriend <24264157+sarayourfriend@users.noreply.github.com>
Date: Fri, 28 Oct 2022 10:19:02 +1100
Subject: [PATCH 9/9] Remove erroneously added file

---
 qq | 1399 ------------------------------------------------------------
 1 file changed, 1399 deletions(-)
 delete mode 100644 qq

diff --git a/qq b/qq
deleted file mode 100644
index 12694a072..000000000
--- a/qq
+++ /dev/null
@@ -1,1399 +0,0 @@
-[33m1ea1a507[m[33m ([m[1;36mHEAD -> [m[1;32mrefactor/europeana-provider-base-class[m[33m)[m Add back default cursor from previous implementation
-[33mb54f8af1[m[33m ([m[1;31morigin/refactor/europeana-provider-base-class[m[33m)[m Update provider workflow config for Europeana
-[33m384380dc[m Remove unnecessary batch_limit override
-[33mdfac5064[m Fix description missing if en or def are empty
-[33m2781620c[m Refactor Europeana to use ProviderDataIngester base class
-[33mcc4b2f9f[m Add default implementation for `get_media_type` for providers with single media type
-[33m9ff501e6[m[33m ([m[1;31morigin/main[m[33m, [m[1;31morigin/HEAD[m[33m, [m[1;32mmain[m[33m)[m 🔄 Synced file(s) with WordPress/openverse (#802)
-[33m63b0fb7f[m Retire TSV loading workflow (#789)
-[33m3217ed5e[m Made improvements to `CONTRIBUTING.md` (#791)
-[33m8f92318c[m[33m ([m[1;33mtag: v1.3.5[m[33m)[m Refactor Freesound to use ProviderDataIngester (#746)
-[33m46c2c161[m Retire Walters Art Museum provider script (#786)
-[33m740cf00c[m Bump pytest-mock from 3.9.0 to 3.10.0 (#781)
-[33mdb47359a[m Refactor Jamendo to use the ProviderDataIngester (#741)
-[33md678dc7a[m Disable email on failure by default (#788)
-[33m8ee7fb72[m Add concurrency settings for workflow (#770)
-[33mfcf1d90c[m 🔄 Synced file(s) with WordPress/openverse (#787)
-[33m4fee8ce9[m Increase dependabot PR limit to 10 (#780)
-[33m337ea7ae[m 🔄 Synced file(s) with WordPress/openverse (#771)
-[33m4cb9d417[m Fix italics for duration disclosure (#769)
-[33mf6538ce2[m Bump pre-commit from 2.14.0 to 2.20.0 (#779)
-[33md378ba7b[m Bump tldextract from 3.3.1 to 3.4.0 (#777)
-[33md926e083[m Bump apache-airflow[amazon,http,postgres] from 2.4.0 to 2.4.1 (#767)
-[33m06faf94f[m Bump pytest-sugar from 0.9.4 to 0.9.5 (#751)
-[33m62ee12a0[m Bump isort from 5.9.3 to 5.10.1 (#764)
-[33me49b0c32[m Bump black from 22.3.0 to 22.10.0 (#778)
-[33mc1b970b1[m Add user agent to StockSnap header and use header in requests by default (#765)
-[33md4dbf4d0[m Improved data refresh status reporting (#744)
-[33m7bf37fc5[m Bump pytest-mock from 3.6.1 to 3.9.0 (#749)
-[33m58247f67[m Bump tldextract from 3.1.0 to 3.3.1 (#752)
-[33m600b9eea[m Remove periods after URLs in log lines. (#763)
-[33mb571d024[m Bump flake8 from 3.9.2 to 5.0.4 (#750)
-[33m516d7674[m Add dependabot config (#740)
-[33m323d07bc[m Refactor SMK script to use the `ProviderDataIngester` class (#742)
-[33m3b58e60c[m Default unfurling of links and media to False in Slack notifications (#743)
-[33mb9f29df9[m[33m ([m[1;33mtag: v1.3.4[m[33m)[m Add tags option for provider workflows & "legacy-ingestion" tag (#739)
-[33mb4ef93ce[m Bump Airflow to 2.4.0, standardize version bump process (#737)
-[33mcec68932[m Use Airflow variable to omit DAGs from any Slack notification (#644)
-[33m4a9c008a[m Update reingestion workflows to load and report data (#618)
-[33mfc627743[m 🔄 Synced file(s) with WordPress/openverse (#735)
-[33m28bfd169[m Add spellcheck to pre-commit config (#718)
-[33ma329be22[m[33m ([m[1;33mtag: v1.3.3[m[33m)[m Bump Airflow version to 2.3.4 (#731)
-[33me66bf63f[m 🔄 Synced file(s) with WordPress/openverse (#733)
-[33m5e7119c5[m[33m ([m[1;33mtag: v1.3.2[m[33m)[m 🔄 Synced file(s) with WordPress/openverse (#728)
-[33m6e9d02d6[m Add none check for Cleveland `image_data` (#709)
-[33mbcda6e0b[m Add `DEPLOYMENT.md` & deployment-related files (#711)
-[33m70312d08[m Remove error swallowing during ingestion (#713)
-[33m18decf9b[m Refactor Wikimedia Commons to use ProviderDataIngester (#614)
-[33m25feeb73[m Allow string as exceptions in `on_failure_callback` (#695)
-[33me9fe5b96[m Always use Jamendo's "streaming" audio (#706)
-[33m9be8bcec[m Refactor Brooklyn Museum to use ProviderDataIngester (#701)
-[33md828d257[m Fix dagrun conf for provider scripts (#708)
-[33m70c66f93[m Initialize iNaturalist with dagrun conf (#707)
-[33mb85df5b2[m hardcodes the test ingestion limit to 1 000 000 (#705)
-[33m8ac257cd[m Refactor Metropolitan Museum of Art to use ProviderDataIngester (#674)
-[33m2a9647ab[m Always record provider run duration (#694)
-[33m03ce84f2[m Allow DAGs to silence only errors matching predicate (#654)
-[33ma9417694[m Bump iNaturalist timeouts to 5 days (#691)
-[33m8a28f948[m Update CODEOWNERS (#677)
-[33m1c2fbe8a[m Standardize on datetime over pendulum (#678)
-[33mee474f2c[m Add iNaturalist.org metadata (#549)
-[33m2d41485f[m Add Openverse email to DAG default args (#683)
-[33m2273271f[m Update audioset_view to use most recently updated f_id/provider pair (#660)
-[33m1d407e81[m Use Python 3.10 everywhere (#656)
-[33m83c688d8[m[33m ([m[1;33mtag: v1.3.1[m[33m)[m Add configuration options to skip ingestion errors (#650)
-[33mf6e8fa01[m Upgrade Airflow to v2.3.3 (#664)
-[33m40b4306b[m Updates Handbook Link (#662)
-[33m54aee38b[m Re-ping if PR is updated and don't ping if 2 approvals exist (#642)
-[33m0072114e[m Tighten exception handling, always flush buffer (#645)
-[33m0f584754[m Automatic DAG documentation generation (#649)
-[33m704b33cb[m Only delete dag runs/task instances during testing that match pattern (#651)
-[33m9fea6554[m Omit DAGs that are known to fail from alerts (#643)
-[33md33083de[m Fix typo in README (#652)
-[33m492ae8b5[m Data refresh record difference reporting (#636)
-[33ma2e1d50f[m Use the default provider categories during ingestion (#635)
-[33m8c04155c[m Partition TSVs by date (#632)
-[33m06046dae[m Only drop load table if it exists (#634)
-[33m991162bd[m Refactor Science museum to use ProviderDataIngester (#576)
-[33mea5a7f06[m Refactor Museum Victoria to use ProviderDataIngester (#600)
-[33m78232410[m Re-raise pytest-socket errors within DelayedRequester (#629)
-[33m1882d777[m Update Finnish Museums to use base class (#579)
-[33m2f9df1bf[m Adjust load data timeout and retries (#626)
-[33m3ee97b6c[m Update data refresh DAG to account for manual go-live (#578)
-[33m8754cb63[m Generate TSV filenames in separate step (#620)
-[33m4451ee03[m Patch Stocksnap tests that called out to external API (#628)
-[33m0bd0b002[m Turn on catchup for dated DAGs to allow backfill (#602)
-[33mc294e3e2[m Ignore DS_Store files (#627)
-[33mcd7ca961[m Add date range to ingestion load reports (#613)
-[33m7bf8ec42[m Update Openverse URL in the user agent string (#612)
-[33m5e86d291[m Unify header added (#610)
-[33mea1016de[m Add test to check for import errors for all DAGs in the dags dir (#580)
-[33mcc7322b8[m Refactor StockSnap to use ProviderDataIngester (#601)
-[33ma5101162[m 🔄 Synced file(s) with WordPress/openverse (#604)
-[33m1f97c69a[m 🔄 Synced file(s) with WordPress/openverse (#603)
-[33m42ddf2bf[m Add missing `MD5` hash to foreign id comparison (#575)
-[33m1c9fd4cf[m Add base class for Provider API scripts (#555)
-[33maacab7bb[m Add `filetype` to Phylopic script (#547)
-[33mdc8a68ba[m Post comments using JSON instead of form data (#570)
-[33mae122cc7[m Add `filetype` test to Metropolitan script (#568)
-[33m49ed0dcf[m Add audio_set_foreign_identifier to the audio materialized view (#565)
-[33mfa5e97b5[m Fix module import for PR review reminder DAG (#566)
-[33mf5de3e2a[m Add PR review reminder DAG (#553)
-[33m825c5aad[m Add `filetype` and `filesize` to Cleveland Museum of Art API script (#537)
-[33m2ae1c4d4[m Add `filetype` and `filesize` to SMK script (#542)
-[33mc4ffd95d[m Add flag to strip slash in urls while validating (#556)
-[33mfec0d9d1[m Consolidate provider workflows using dynamic DAGs and dataclasses (#540)
-[33m4d6e5392[m Add a helper function to extract extension from the media URL (#545)
-[33m5f5fc7cc[m Create DAG objects at top level (#551)
-[33m90980825[m Add DAG to report reported media pending review (#513)
-[33m8ca6a230[m Correct order of None handling in Cleveland provider script (#544)
-[33mb36aac72[m Remove thumbnails from images (#526)
-[33m4cba0ced[m Unconditionally destroy buckets after testing (#516)
-[33m40a0d8a2[m Simplify WP Photo Directory script and get missing authors (#515)
-[33mbba0413a[m[33m ([m[1;33mtag: v1.3.0[m[33m)[m Ensure SMK images don't timeout on validation (#506)
-[33m7dbff464[m airflow dockerfile: set `PYTHONPATH` to DAGs folder (#514)
-[33m31f461ac[m Generate DAGs to recreate popularity calculations using a factory (#507)
-[33m9dca8963[m Upgrade Airflow to 2.3, python to 3.10 (#502)
-[33m1ef4a133[m Retry flaky request when Smithsonian provider script detects no unit codes (#508)
-[33m1fda166d[m 🔄 Synced file(s) with WordPress/openverse (#509)
-[33m3ef7138a[m Merge popularity calculations and data refresh into a single DAG (#496)
-[33m20458817[m Don't delete custom pools during test cleanup (#501)
-[33m971f3966[m 🔄 Synced local '.github/CODEOWNERS' with remote '.github/CODEOWNERS' (#505)
-[33m0bd79797[m Add human readable description for durations under 1 second (#500)
-[33m25c25d5b[m[33m ([m[1;33mtag: v1.2.2[m[33m)[m Recreate the audioset matview after full popularity recalculation (#493)
-[33m99bb7389[m Enable reporting when there is no data to load (#492)
-[33me98cf799[m Make Airflow connection variables easier to read (#480)
-[33mb44f3398[m Wikimedia: Catch bit rates that are greater than the int max (#475)
-[33m80930e9d[m Fix `alt_files` duplicates (#479)
-[33m4738e3f7[m[33m ([m[1;33mtag: v1.2.1[m[33m)[m Update Smithsonian Unit code checker DAG to alert to Slack (#452)
-[33m81952618[m Change docker-compose restart policy for local development (#474)
-[33mc928589b[m Improved load reporting (#471)
-[33m9b962860[m Rename Thingiverse.py to thingiverse.py (#472)
-[33m8c87749f[m Show duplicate record count in completion slack message (#442)
-[33mdd57690a[m Re-introduce pytest-socket (#467)
-[33m3755baeb[m Adjust timeouts for Data Refresh `wait_for_completion` step (#458)
-[33m039371e7[m Use safe_search param to restrict results from Flickr (#460)
-[33m24117f01[m Upgrade black to 22.3.0 (#463)
-[33m6e10adb6[m 🔄 Synced file(s) with WordPress/openverse (#462)
-[33med41f4e7[m 🔄 Synced file(s) with WordPress/openverse (#459)
-[33mc164382f[m Remove `apt upgrade` from PG image, upgrade to 13.6 (#455)
-[33m1d9c96d6[m Handle case where Wikimedia has no audio metadata (#443)
-[33mecaf732a[m 🔄 Synced file(s) with WordPress/openverse (#444)
-[33m962f1c5d[m Send single slack notification per provider on TSV load complete (#434)
-[33m5bce20de[m 🔄 Synced file(s) with WordPress/openverse (#441)
-[33m67609549[m 🔄 Synced file(s) with WordPress/openverse (#440)
-[33mdd347a43[m[33m ([m[1;33mtag: v1.2.0[m[33m)[m Add data refresh to Airflow (#397)
-[33m7cccf888[m Change PhyloPic date range & schedule interval (#423)
-[33me41e8d7a[m Add LRU cache to `is_valid_license_info` (#424)
-[33mc4d381fd[m Round duration for provider ingestion completion message (#422)
-[33m0e3675ca[m Enable XCom pickling in Airflow (#421)
-[33m22a8965b[m Use published Docker image in primary docker-compose.yml (#417)
-[33m5f941e6e[m Fix invalid license urls from Finnish Museum API (#418)
-[33m124d23b6[m Reduce noise in NYPL ingestion (#415)
-[33me8400cd4[m Add ConnectionError to acceptable flaky exceptions for Freesound (#413)
-[33mfd68b9ea[m Fix schedule intervals on Cleveland Museum & Wikimedia Commons (#416)
-[33m3034e31f[m Update API requests for Museum Victoria DAG (#414)
-[33m8712f325[m Add OFEO-SG subprovider (#412)
-[33mc5cad660[m Handle duplicate keys in load_data task (#395)
-[33m38ee4938[m Make 'sound' category more specific (#402)
-[33m23638152[m Group test runs by module or class (#409)
-[33me5f820ad[m 🔄 Synced file(s) with WordPress/openverse (#404)
-[33m7f19de2a[m 🔄 Synced file(s) with WordPress/openverse (#403)
-[33mf3808d85[m Update Slack messages to include environment (#382)
-[33m69b2eb7a[m[33m ([m[1;33mtag: v1.1.0[m[33m)[m Update Airflow to 2.2.4 (#372)
-[33m2b2f9636[m Reconfigure retries & timeouts for typical ingestion DAGs (#361)
-[33m5188b388[m Add slack message on TSV load complete (#369)
-[33m9538f384[m Add provider media type to DAG tags (#360)
-[33mada025d8[m Trigger TSV loading immediately after workflow (#357)
-[33mcb19f839[m Use Airflow Variables for storing API keys (#362)
-[33m9555374b[m Differentiate between slack channels (#359)
-[33m6dd5cb34[m Updated user agent for Wikimedia Commons #140 (#355)
-[33m8431b4be[m Remove buckets after testing (#344)
-[33m760eab51[m Use pytest-xdist for testing (#337)
-[33mcbb26f14[m Ensure Freesound tests are isolated (#340)
-[33ma8df91ab[m Change minio ports from 500X to 501X (#341)
-[33mcadc9d3e[m[33m ([m[1;33mtag: v1.0.0[m[33m)[m Freesound SSLError fix (#330)
-[33m8de8d703[m Set up CI/CD with ghcr.io (#332)
-[33mb07282dc[m Fix inconsistent alignment in slack message text (#328)
-[33m5a954f91[m Properly handle "None" values returned from Freesound API (#327)
-[33m0c5b43fb[m Add audioset_view to catalog DDL (#320)
-[33mc50f487c[m Set default timeout to 12 hours (#311)
-[33m738c9d88[m Change request info log to debug to prevent spam (#312)
-[33mb1f24143[m Make commoncrawl bucket configurable, change default (#318)
-[33m52c1d245[m 🔄 Synced file(s) with WordPress/openverse (#317)
-[33m8fc29a22[m 🔄 Synced file(s) with WordPress/openverse (#314)
-[33m4e965e2c[m Extend Jamendo's timeout to 24 hours (#310)
-[33mc4f3f965[m Disable TSV loader scheduling (#309)
-[33m836bbbf4[m Upgrade to Airflow 2.2.3 (#308)
-[33mab90e8ee[m Add unique indices to catalog (#306)
-[33mbb3c9436[m Add Image Categories (#302)
-[33m9d2e6a5f[m Bump lxml from 4.6.3 to 4.6.5 (#303)
-[33m12f80005[m Remove `get_*_operator` functions, simplify commoncrawl logic (#301)
-[33m6f5f598b[m Remove unnecessary logging.basicConfig calls (#299)
-[33me40b86ce[m Slack alerting for DAG failures (#297)
-[33m75469b7d[m Refactor delay tests to prevent them from being flaky (#298)
-[33m2f14bbad[m Specific error message for auth errors on request, improve tests (#295)
-[33m16fd77fa[m Retire common_api_workflows, clean up config (#296)
-[33mfb05e35b[m 🔄 Synced file(s) with WordPress/openverse (#294)
-[33mbaadc4f7[m 🔄 Synced file(s) with WordPress/openverse (#293)
-[33m89767ec9[m Add Provider API script for Freesound (#95)
-[33m7b142c78[m Reduce TSV loader complexity (#289)
-[33m14c2d6d7[m Slack alerting utilities (#279)
-[33me3cc70a2[m Add DAG tags, remove health check workflow (#277)
-[33madafb42d[m Add production deployment documentation (#271)
-[33m669067d2[m Retire legacy ingestion column fix (#287)
-[33m8f6a1cd5[m Retire cleaner_worfklow, pg_cleaner (#288)
-[33m6173fb44[m Remove tsv_to_postgres_loader_overwrite (#286)
-[33mef614b97[m Add index creation for matviews (#280)
-[33m88322d2d[m Respository restructure (#276)
-[33m6025630d[m 🔄 Synced file(s) with WordPress/openverse (#274)
-[33mdc1df6b0[m Retire update workflows, refactor operators (#266)
-[33m7ee62451[m Add docker entrypoint to ensure db migration on startup (#270)
-[33ma5c2ee98[m Replace moto server with Minio (#254)
-[33m3464826d[m OAuth2 DAGs and Machinery (#246)
-[33m74ad9bd8[m Add pip upgrade command, docker optimizations (#265)
-[33md65d4c46[m Add `justfile` deployment recipe (#267)
-[33m454e9a2c[m 🔄 Synced file(s) with WordPress/openverse (#269)
-[33mb911c69b[m 🔄 Synced file(s) with WordPress/openverse (#268)
-[33m601f7639[m Add args option to db-shell recipe (#259)
-[33m485fc34e[m 🔄 Synced file(s) with WordPress/openverse (#258)
-[33me7d7e173[m 🔄 Synced file(s) with WordPress/openverse (#256)
-[33m9367dc18[m 🔄 Synced file(s) with WordPress/openverse (#255)
-[33m4c66afb1[m Edit wikimedia_audio name in popularity sql (#253)
-[33m93255a19[m Add pgcli to postgres container, db-shell recipe (#252)
-[33md5d39f1a[m Improve `.env` documentation & structure, update values (#251)
-[33m91579b9f[m Remove prefixes from issue template titles (#250)
-[33m8ea757e0[m 🔄 Synced file(s) with WordPress/openverse (#249)
-[33m6d02802b[m Make Category a StringColumn (not an ArrayColumn) (#243)
-[33m97ef1da6[m Fix type in contributing.md (#245)
-[33mea31d810[m Add sample WordPress REST API script (#223)
-[33mc6f94b09[m Update provider template, refactor DAG parsing tests (#237)
-[33mf4b2abc1[m Remove `trackid` query parameter from set thumbnail url (#239)
-[33m2e003466[m hotfix whitespace in new issue template
-[33ma9666559[m Merge pull request #238 from WordPress/rm-get-log-operator
-[33m1992ba17[m Remove unnecessary dag from operator util test
-[33m926e6d4a[m Merge pull request #230 from lyu4321/issue-176
-[33mda7c7f0f[m Update .github/ISSUE_TEMPLATE/image_provider_api_integration_request.yml
-[33m4b70e986[m Merge pull request #240 from WordPress/update_test
-[33mc8524980[m Use `with dag` in `test_operator_util`
-[33m7608dbb4[m Update labels and desc for provider template
-[33mb1742cab[m Update labels and desc for source template
-[33m7f320c23[m remove dag argument from all the operator creation functions
-[33m463913b8[m init
-[33mc87aab0c[m Update desc in source template
-[33mc2a4afb3[m Remove extra #
-[33m7f0a3673[m Add desc and missing fields to provider template
-[33ma4123c69[m Update source issue template from md to yml
-[33ma023b9d0[m Update provider issue template from md to yml
-[33mb044229d[m Docker optimization & repository restructuring (#226)
-[33maaca3b9e[m [Audio] Add Wikimedia as an Audio source (#197)
-[33m7ef1b9b4[m Add new columns to MediaStore and database (#196)
-[33m0ade78b4[m Merge pull request #221 from WordPress/stocksnap-popularity
-[33m032ff837[m Use `just` commands in CI workflow (#218)
-[33medd0ab9c[m Move dev-specific services into compose overrides file (#217)
-[33mfb24e39d[m Implement stocksnap popularity and popularity documentation
-[33m96011a0f[m Revert accidentally-pushed previous stocksnap test commit
-[33mbbd8898b[m Fix stocksnap test to use new metadata values
-[33m3c99a17a[m Merge pull request #206 from WordPress/repo-sync/openverse/default
-[33m0f0797d4[m 🔄 Synced local '.github/workflows/new_prs.yml' with remote '.github/workflows/new_prs.yml'
-[33m7b7a3122[m Organize & document `justfile`, fix issue with recreate command (#198)
-[33m7af65647[m Move storage module up and deduplicate MediaStore tests (#192)
-[33m793d67ab[m Merge pull request #194 from WordPress/airflow-credentials
-[33mc2dad879[m Issue templates (#195)
-[33m032e6ce9[m Update README.md
-[33m008185f2[m Merge pull request #190 from WordPress/repo-sync/openverse/default
-[33m7fa22e8e[m 🔄 Synced local '.github/PULL_REQUEST_TEMPLATE.md' with remote '.github/PULL_REQUEST_TEMPLATE.md'
-[33mdd8bf859[m Merge pull request #187 from WordPress/cleaned-up-docs
-[33ma48c70fc[m Update README.md
-[33ma445771e[m Update README.md
-[33m07d3ffb0[m Update README.md
-[33m71785485[m Add missing newline
-[33mc5a1be76[m Streamline monthly + daily dag lists in README.md
-[33m8ca3ba0e[m Merge pull request #185 from WordPress/repo-sync/openverse/default
-[33ma0f304f0[m 🔄 Synced local '.github/workflows/pr_label_check.yml' with remote '.github/workflows/pr_label_check.yml'
-[33ma8061309[m Merge pull request #184 from MuhammadFaizanHaidar/patch-1
-[33mfade0eb7[m Renamed the source suggestion issue template
-[33mec7e08ad[m Merge pull request #179 from WordPress/add/recreate-recipe
-[33m48c1f0cb[m Merge pull request #180 from WordPress/repo-sync/openverse/default
-[33m18c6a10b[m 🔄 Synced local '.github/workflows/new_prs.yml' with remote '.github/workflows/new_prs.yml'
-[33m909ead95[m Allow passing flags to `test` recipe
-[33m213904c8[m Add recreate recipe
-[33m186e4aa1[m Merge pull request #174 from WordPress/repo-sync/openverse/default
-[33ma39d32a1[m 🔄 Synced local '.github/workflows/pr_label_check.yml' with remote '.github/workflows/pr_label_check.yml'
-[33mceedd6fe[m Merge pull request #173 from WordPress/repo-sync/openverse/default
-[33m8680573a[m Merge pull request #172 from WordPress/ack-update
-[33m42e64d88[m Update README.md
-[33me96f7e3f[m 🔄 Created local '.github/workflows/pr_label_check.yml' from remote '.github/workflows/pr_label_check.yml'
-[33maeee7989[m 🔄 Synced local '.github/workflows/new_prs.yml' with remote '.github/workflows/new_prs.yml'
-[33m375bd82d[m 🔄 Synced local '.github/workflows/new_issues.yml' with remote '.github/workflows/new_issues.yml'
-[33m053d85ed[m Update acknowledgements section
-[33m8ca48c86[m Use dag_factory for Provider API DAG creation (#163)
-[33mc5e6d4bf[m Merge pull request #159 from WordPress/add/formatters
-[33m9f8b50f9[m Fix requirements.txt comment location
-[33m4af80b0a[m Remove unused flake8 annotations and fix exclude pattern
-[33mac09b2f7[m Make env.template not executable
-[33m117f84d3[m Rename common lint job
-[33ma5116c82[m Use pre-commit for CI linting
-[33m277de7a8[m Add black and isort and apply to all files
-[33m17628e74[m Merge pull request #153 from WordPress/add/just-scripts
-[33mc2d63246[m Remove old recipe from readme
-[33m90461c21[m Do not load any .env files for just
-[33mfa728f40[m Ensure containers are running before running exec
-[33md30dd25b[m Use more general language for logs recipe behvaior
-[33mf7e7847e[m Complete list of running containers
-[33mcfcc19dc[m Fix justfile to use dev configuration
-[33m9cecc481[m Remove directions to switch directories from README
-[33mbb47e440[m Rename makeenv to dotenv
-[33mf657e964[m Add preliminary just scripts
-[33m1ed278ec[m Merge pull request #157 from WordPress/add/pre-commit
-[33m608fa9e2[m Merge pull request #151 from WordPress/add/simulated-dag
-[33m7898fc5c[m Merge pull request #156 from WordPress/local_s3_bucket
-[33mcc4f2569[m Organize requirements files and de-duplicate
-[33m54c4afc1[m Apply pre-commit to all files
-[33m92ad9f0c[m Add general pre-commit hook
-[33m58861903[m Add pre-commit
-[33mfa3c191c[m Merge pull request #154 from WordPress/update/switch-to-volumes
-[33mdad98228[m Add note about volume prune
-[33mc35effa7[m Update example value for `AIRFLOW_CONN_AWS_DEFAULT` envvar
-[33m9e25193a[m Add openverse-airflow-logs to BUCKET_LIST
-[33m25d16127[m Use `tries` param instead of `TRIES` constant
-[33m8a0e75e5[m Update README to remove volumes on cleanup
-[33m9e93f527[m Switch local postgres to use volumes
-[33m7c9158ca[m Replace os.path with pathlib in provider API script template (#149)
-[33m28df4bf3[m Update Apache Airflow version (#148)
-[33ma2d16cef[m Add manually run healthcheck DAG
-[33m04eaeeed[m Merge pull request #147 from WordPress/fix/provider-template-path
-[33m4f9e7341[m Log cleanup DAG (#139)
-[33mc7310513[m Fix resource path string
-[33m6c172033[m Simplify catalog folder structure (#133)
-[33mea3b2b8f[m Merge pull request #145 from WordPress/fix/make-harmonious-with-api
-[33m697b406a[m Allow running the catalog and the API at the same time
-[33mb12ba815[m Merge pull request #114 from WordPress/stocksnap
-[33m5bf81223[m Update StockSnap tests and example files
-[33mbfc9d0d8[m Get creator data from StockSnap API
-[33m925272e2[m Format with black & flake8
-[33ma7d562a3[m Make image's `title` from tags/keywords
-[33m8dca7f98[m Get `foreign_landing_url` from StockSnap API
-[33m2d099915[m Merge branch 'main' into stocksnap
-[33m3410f7e3[m Merge pull request #136 from WordPress/airflow-remote-logging-example
-[33m7fc4fdbd[m Merge branch 'airflow-remote-logging-example' of github.com:WordPress/openverse-catalog into airflow-remote-logging-example
-[33m0ad6cfee[m Improve remote logging docs
-[33ma3269dd8[m Merge branch 'main' into airflow-remote-logging-example
-[33mc739c24d[m Replace `genre` property with `genres` in tests (#137)
-[33m3818b201[m Update to new values in Airflow 2 (logging namespace moved in airflow config)
-[33m5f0b2ca0[m Add example vars for airflow remote logging
-[33m06fb4991[m [API integration] Add Jamendo provider API script (#113)
-[33mf54ad987[m Merge pull request #135 from WordPress/mv_docs
-[33m73e35915[m Merge pull request #134 from WordPress/repo-sync/openverse/default
-[33mca8dd1d1[m 🔄 Synced local '.github/ISSUE_TEMPLATE/' with remote '.github/ISSUE_TEMPLATE/'
-[33m4ec2d707[m 🔄 Created local '.github/workflows/new_prs.yml' from remote '.github/workflows/new_prs.yml'
-[33mbc69ec84[m 🔄 Created local '.github/workflows/new_issues.yml' from remote '.github/workflows/new_issues.yml'
-[33m19ed1373[m Add handbook link to README file
-[33m66df8b18[m Delete docs folder
-[33m6724b148[m Update stocksnap tests and example `full_item.json`
-[33med77e0e2[m Get image title from API response instead of the scraped page
-[33m8764118f[m Merge pull request #131 from WordPress/pr_template
-[33m73f50dd7[m Add a PR template to the repository
-[33md1dde6fc[m Merge pull request #130 from WordPress/modify_audio_columns
-[33m924b2b1b[m Add stocksnap tests
-[33mbb31eb93[m Pass license_info instead of license_ and license_version
-[33m182e1592[m Rename `alt_audio_files` column to `alt_files`
-[33mdd4bcff0[m Add funtion to merge arrays in sql
-[33m8ac0298b[m Change `genres` column to ArrayColumn type
-[33m8e2186ef[m Add new `ArrayColumn` type
-[33m9895bf2d[m Modify columns in test_audio.py
-[33m6b4fe9ff[m Rename `standardized_<media_type>_popularity` column in view tables
-[33m621765b1[m Make field for audio genres plural
-[33m3a816554[m Add watermarked column to sql files
-[33meaaba615[m Merge branch 'main' into stocksnap solving conflicts
-[33m20772bb4[m Make wikimedia script pass license_info, not license_url (#129)
-[33mbf5ebd21[m Add a script to create provider API script template (#128)
-[33m0f82371f[m Merge pull request #126 from WordPress/rm_duplicate_providers
-[33m546fade1[m Delete duplicated CommonCrawl providers
-[33md3db16d7[m [Quality] Make provider scripts pass validated license_info to the storage module (#66)
-[33m9446c7f9[m Add support for other media types to popularity calculations (#112) (#124)
-[33m8bac45a0[m Add missing `watermarked` column to audio loading table (#125)
-[33m5a4c5871[m Ingest wikimedia images marked with CC0 and PDM (#119)
-[33m073c1215[m Clean Wikimedia item titles (#120)
-[33m5d1ecb2b[m Add Audio to the database (#111)
-[33mab8fa907[m Refactor to make only one extra request per image
-[33m93415d90[m Add samples files of an image and a api response for tests
-[33m127fa29c[m Add instruction to write tsv file with image data
-[33m9519967c[m Fix filling of tags field
-[33m7a14f6a6[m Complete image's title, creator and creator_url
-[33mb601984e[m Set default output dir for commoncrawl (#118)
-[33m2bf469ec[m Merge pull request #116 from WordPress/issue_templates
-[33m870cbc2c[m Add the link to the Make site
-[33m6dfbfb01[m Update labels to the new format
-[33me7aeda8b[m Add volunteering section to all templates
-[33mccd23f7e[m Align bug and feature templates with other repos
-[33mb1cc1fee[m Program stocksnap script with minimum required fields
-[33ma42476a9[m Add StockSnap to `dags/util/loader/provider_details.py`
-[33m14452b21[m Create base provider files for stocksnap
-[33m264306c1[m Improve DAG creation template Signed-off-by: Olga Bulat <obulat@gmail.com>
-[33m2c98e242[m Extract media type from staged tsv file name for loader (#110)
-[33m38b90981[m Add AudioStorage entity (#85)
-[33m25e18fa7[m Extract MediaStorage entity as parent to ImageStore (#83)
-[33mab8d3ccc[m Merge remote-tracking branch 'origin/template' into template
-[33m67b9b303[m Merge branch 'main' into template
-[33m13e607b8[m Fix typo in provider template script
-[33m5efdd322[m Add ingestion column to MediaStore when using provider API (#72)
-[33m5351b5e8[m Remove mutable parameters in provider api scripts (#100)
-[33mcd159ccd[m Remove logging of url rewriting when not rewritten (#108)
-[33m0c7a5073[m Fix pep8 violations (#103)
-[33m88a777ce[m Make the script output clearer
-[33m41714d25[m Merge branch 'template' of github.com:WordPress/openverse-catalog into template
-[33m4a03768e[m Make image the default media type
-[33m5efe43a8[m Replace relative path with absolute to fix file not found errors
-[33m1331d460[m Better wording for script date parameter
-[33m85affa35[m Merge pull request #104 from WordPress/release_drafter_on_main
-[33m3eb439d8[m Run release drafter action on push to main branch
-[33m01e76a72[m Merge pull request #90 from WordPress/local_sql_order
-[33m5e456603[m Update src/cc_catalog_airflow/templates/template_provider.py_template
-[33m7181cd35[m Shorten lines
-[33mb194efb8[m Merge branch 'main' into local_sql_order
-[33mb343d84d[m Merge branch 'main' into template
-[33m99a6f0e7[m Add more trailing zeros
-[33m9942d241[m Merge pull request #98 from WordPress/run_ci_on_main_push_only
-[33m68172b94[m Run CI on push only on main
-[33me6a64c6f[m Run CI on push only on master
-[33m6f605316[m Merge pull request #71 from WordPress/improve_url_logging
-[33m387c973a[m Fix linting errors
-[33mcb6d2647[m Merge pull request #91 from WordPress/fix_dep_version_conflict
-[33m012df2db[m Make URL logging less verbose on success, more verbose on failure
-[33mf4d9ebb0[m Merge branch 'main' into improve_url_logging
-[33m7ca3fea5[m Create a Provider API script template
-[33m408cb8a4[m Fix the dependency version conflict
-[33ma22d1931[m Ensure Docker loads local_postgres sql scripts in correct order
-[33m6199d4b3[m Merge pull request #76 from WordPress/add_testing_workflow
-[33mfc9a7a34[m Merge pull request #86 from WordPress/dependabot/pip/src/cc_catalog_airflow/urllib3-1.26.5
-[33m66b5e693[m Add trailing new line to lint workflow
-[33m51290e41[m Remove workflows from workflow-disabled folder
-[33m06e64b91[m Merge pull request #81 from WordPress/fix_test_failures
-[33m70515f27[m Bump urllib3 from 1.25.11 to 1.26.5 in /src/cc_catalog_airflow
-[33md9e77234[m Merge pull request #80 from WordPress/codeowners
-[33m20940a9f[m Merge pull request #68 from WordPress/update-readme
-[33mc6726a53[m Fix failing text, improve import readability
-[33mdc7ebe29[m Add blank lines for readability
-[33m14f0f0bc[m Merge pull request #78 from WordPress/extract_common_package
-[33m0cd97686[m Create a CODEOWNERS file
-[33m86a67a4f[m Move the common package to a higher level to simplify testing
-[33ma61a6649[m Add missing new lines at the end of files
-[33m400bd8f0[m Re-add the lint and test workflows from the original repo
-[33m10b31ed7[m Merge pull request #75 from WordPress/dependabot/pip/src/cc_catalog_airflow/flask-appbuilder-3.3.0
-[33m9a9550c2[m Bump flask-appbuilder from 3.2.3 to 3.3.0 in /src/cc_catalog_airflow
-[33m724031fb[m Merge pull request #70 from WordPress/dependabot/pip/src/cc_catalog_airflow/lxml-4.6.3
-[33m1886fb09[m Merge pull request #73 from WordPress/release_drafter
-[33mb4780b25[m Update release-drafter.yml
-[33m3426884a[m Add configuration and workflow for Release Drafter
-[33m900ad221[m Log the actual URL requested
-[33m94b49799[m Bump lxml from 4.4.2 to 4.6.3 in /src/cc_catalog_airflow
-[33ma860168d[m Merge pull request #63 from WordPress/airflow_update
-[33m4ab4e6ee[m Update README.md
-[33mc011f4bf[m Fix imports
-[33m46c20851[m Fix `test_operator_util`
-[33mecd5e7a0[m Replace deprecated provider imports
-[33m92fcc81a[m Update python, airflow, dependency versions
-[33m49539a56[m Merge pull request #62 from WordPress/readme-updates
-[33m68691f6b[m Update openverse-catalog.md
-[33m17dffa56[m Remove Openverse Search
-[33m66063f30[m Add a space
-[33mfe1cdabc[m Update links
-[33m461e8f85[m CC Catalog to Openverse Catalog
-[33mb68aa7ef[m Replace CC Catalog with Openverse Catalog
-[33m3e08e9e6[m path fixes
-[33md316be4a[m More typos and formatting for markdown files
-[33m02d831c7[m Use WordPress CoC
-[33maefd1e3c[m Merge pull request #54 from obulat/update_dependencies
-[33mea1f34bd[m Merge pull request #56 from Automattic/flickr-improve-docs
-[33m165e5ae3[m Add documetation on generating a Flickr API token
-[33m9760ce18[m Fix airflow db initialization
-[33m68ef4162[m Fix production dependencies compatability with upgraded airflow
-[33m9012a249[m Pin pandas version
-[33m84613a9b[m Update to postgres 13, apache-airflow 1.10.15
-[33mf2826460[m Update README.md
-[33me0acf60a[m Merge pull request #1 from Automattic/cc-a8c-migration
-[33mc9729f88[m Switch to renamed workflow dir to disable actions
-[33mefb34327[m Comment out and disable GitHub actions
-[33m25f226ab[m Remove CC meta files
-[33mcd789c26[m Update README with migration notice
-[33m67b4a8c7[m Merge pull request #544 from creativecommons/discontinued-notice
-[33meb71f203[m Update README.md
-[33mb9955ff3[m Update README.md
-[33m98348de6[m Update README.md with discontinued status
-[33m0ab8a380[m Merge pull request #539 from creativecommons/ct_codeowners_1608054710
-[33m68b7aa47[m Sync Community Team to CODEOWNERS
-[33mb1bf826f[m Merge pull request #537 from ariessa/master
-[33m54efa946[m Merge pull request #536 from dravadhis/iss463_mockimgstore
-[33m70bae81d[m Removed links
-[33m5391467d[m Create MockImageStore class for testing
-[33m709792a9[m Merge remote-tracking branch 'upstream/master'
-[33m0609aef9[m Fixed broken links
-[33mc045c7ff[m Merge pull request #535 from tushar912/fm-airflowdag
-[33m488ce9c9[m Updated flickr.md
-[33m35aa2a94[m Improved doc and its formatting
-[33mf0915891[m Fixed broken links and formatting
-[33mea9f45ea[m change start date
-[33m0a04a9f4[m add tests for finnish_museums_workflow
-[33m04ef1ace[m add finnish_museums_workflow
-[33mabbe9eb8[m Merge pull request #532 from tushar912/finnish-museums
-[33me928abde[m process object list page by page
-[33ma64dd2b1[m made total_images global
-[33mb1e9f311[m fix line too long
-[33md1ca7ced[m change provider details
-[33m8b528bd0[m handle image_rights none
-[33ma092756d[m fix raw_tags to be array of str
-[33m7efd39e3[m Merge pull request #533 from creativecommons/use_execution_date_for_commoncrawl
-[33m7eed044b[m Add files via upload
-[33m2da4f374[m Create cc-catalog.md
-[33m6667b81a[m remove unused imports
-[33me534f04f[m format local s3 init script with black
-[33m45b193db[m use execution date to calculate cc_index, rather than pulling it from S3
-[33mb5f0a720[m add additional cond for none
-[33m67c2c7fe[m remove unused import
-[33m29e05195[m format test ac to pep8
-[33m103653d8[m fix line too long
-[33ma14f3ba3[m format ac to pep8
-[33m971f9c79[m finnish museums provider and tests
-[33m3347889e[m Merge pull request #530 from creativecommons/common_crawl_etl_airflow_dag
-[33m6672f742[m add new variables to environment template
-[33m50d386f1[m fix linting error
-[33mdaca6cec[m add test for new CommonCrawl ETL DAG
-[33m7651e2d5[m add tests for operator functions
-[33m3884bc53[m make s3 file loading function private
-[33mac9c15cd[m format python files with black
-[33m17a10c09[m remove unused import
-[33m23602f59[m extract operator definitions to separate file
-[33m2eb201b1[m increase number of core instances for run with real data
-[33mf7de1c11[m add new Airflow DAG to run first pipeline
-[33mdc90a220[m add airflowignore so that python files don't set off warnings
-[33mf8af3f32[m Merge pull request #523 from creativecommons/cleaner_workflow_parallelism
-[33m9bdb9068[m Merge pull request #524 from creativecommons/dependabot/pip/src/cc_catalog_airflow/cryptography-3.2
-[33m8ef22b4f[m Bump cryptography from 3.1.1 to 3.2 in /src/cc_catalog_airflow
-[33mc2012f59[m lower logging level for urls import
-[33m6a46f51f[m fix numerous bugs, turn down ImageStore logging
-[33m627efb4e[m add logic to handle defective dictionary when getting license_url
-[33m26782163[m fix missing fields bugs, add tests for them
-[33m0bedecff[m add functionality to output defective identifiers to file
-[33m4c83734b[m fix bugs, lower DAG parallelism to avoid locking up scheduler
-[33m727e3557[m[33m ([m[1;33mtag: v0.9.0[m[33m)[m Merge pull request #517 from creativecommons/clean_preexisting_data_with_disk_write
-[33mca3cdecb[m fix flake8 errors introduced by black
-[33mcd042bd0[m remove unused MagicMock import
-[33mb56105a2[m fix broken test to avoid enironment assumptions
-[33m62246613[m reformat code with black
-[33mb428c200[m add test for new cleaner DAG
-[33mcc21272c[m add DAG to run new cleaner logic
-[33m2a968ffe[m add remaining tests for pg_cleaning functionality
-[33m9cb650b2[m refactor ImageStoreDict for better testability
-[33m4ec6f49a[m improve error handling in pg_cleaner
-[33m488f4e4c[m refactor for testability, add tests to pg_cleaner
-[33m664d6599[m add test for pg_cleaner
-[33md1a93c98[m use non-deprecated logger.warning instead of logger.warn
-[33m19546ee2[m add row-cleaning logic that saves to disk
-[33m61fac227[m fix loader_workflow test with new number of DAGs
-[33m42b49f46[m add DAG to run new overwriting logic
-[33m05e27379[m fix updating logic so that it handles missing matches
-[33m3d548d79[m add function to overwrite instead of upsert into image table
-[33mcabfa11c[m Merge pull request #516 from tushar912/ascii-false
-[33m348054e9[m added test to save unicode string
-[33m51bb32fb[m  Shorten line acc to pep8
-[33ma9fe50a0[m ensure ascii false in json.dumps
-[33mcb81077c[m Merge pull request #512 from dravadhis/iss366_requirements
-[33md951bdbc[m Split dependencies into prod and dev
-[33mf4bfcb56[m Split dependencies into prod and dev Add requirements_dev.txt and requirements_prod.txt. Modify Dockerfile, docker-compose.yml and docker-compose.override.yml to work with new requirement files.
-[33me392b49d[m Merge pull request #511 from dravadhis/iss211_rawpixel
-[33m1cc98a4b[m Merge pull request #508 from dravadhis/iss507_DAGwalters
-[33mf5b015af[m Make `meta_data.Description` field in RawPixel.py
-[33m0739afc1[m Make `meta_data.Description` field in RawPixel.py Make `meta_data.Description` field using `pinterest_description` in `raw_pixel.py`.
-[33me97ae8d2[m Merge pull request #506 from dravadhis/iss274walter
-[33mce88ff0f[m Integrate Walters Art Museum API with CC Search Remove 'Paper & Paper-Mache' from list of classifications.
-[33mbdb9c0da[m Merge pull request #510 from creativecommons/clean_common_crawl_using_imagestore
-[33ma3fe3bd0[m Integrate Walters Art Museum API with CC Search
-[33m23f6af84[m Integrate Walters Art Museum API with CC Search
-[33m6d9893f7[m Integrate Walters Art Museum API with CC Search Implement page increment logic in walters_art_museum.py
-[33m0495d4c0[m extend syncer DAG to use new cleaning function
-[33m63d2c0ed[m add directory looping logic to tsv_cleaner,
-[33m9923e376[m fix path joining to give trailing slash
-[33m90dd33d3[m format file with black
-[33m49511d89[m add test for new functionality
-[33m66c7e415[m Merge branch 'master' into clean_common_crawl_using_imagestore
-[33me824407b[m Integrate Walters Art Museum API with CC Search Modify _get_image_list to work with _get_response_json method of the DelayedRequester class. Replace get functions with bare dict.get calls.
-[33me57ba18a[m Merge pull request #504 from avats-dev/fix-readme-broken-links
-[33m4dd2695b[m Add Walters Art Museum Workflow
-[33m75bfa891[m Integrate Walters Art Museum API with CC Search Set API KEY in env.template as not_set
-[33m1190300f[m Integrate Walters Art Museum API
-[33ma0294269[m Integrate Walters Art Museum API with CC Search
-[33mdd572712[m Fix broken links
-[33mcd7ae0d1[m Merge pull request #1 from creativecommons/master
-[33m75b37f8f[m Merge pull request #499 from dravadhis/issue_fstring
-[33m99a84eeb[m Update europeana.py and wikimedia_commons.py
-[33m8fdabad4[m Change style to comply with style of the repository
-[33m14c5e555[m Update test_brooklyn_museum.py
-[33ma414ec3d[m Restore untested files to original state.
-[33mc7a59f3f[m pass environment variables in through bash operator for modification
-[33mf48fc1ce[m move tsv cleaning logic to correct location
-[33m752deb26[m move commit step so it only happens once per ImageStore
-[33m8a35a166[m Replace all occurences of str.format() with f-strings
-[33md0426de5[m Replace all occurences of str.format() with f-strings
-[33m61c9b7e1[m Replace all occurences of str.format() with f-strings
-[33m36f2c774[m Replace all occurences of str.format() with f-strings
-[33mf69827f5[m Merge pull request #498 from dhruvkb/patch-1
-[33m5bfe7323[m Replace all occurences of str.format() with f-strings, keeping the formatting same throughout the codebase.
-[33m3c032153[m Replace ORG_GITHUB_TOKEN with ADMIN_GITHUB_TOKEN
-[33me7d14d6f[m undo a string sanitization to make sure cleaning is idempotent
-[33mcaf9e619[m add script using ImageStore class to clean a TSV of image rows
-[33mdeb1a145[m make Image row namedtuple public
-[33m836aa60a[m Merge pull request #464 from creativecommons/verify_urls_in_imagestore
-[33ma914114d[m fix flake8 error
-[33ma776acdd[m handle reverse 2.1 license mapping and save raw license_urls
-[33mcd8828c7[m Merge branch 'master' into verify_urls_in_imagestore
-[33mc4ac873c[m[33m ([m[1;33mtag: v0.8.0[m[33m)[m Merge pull request #483 from creativecommons/image_expiration
-[33mde659eb0[m Merge pull request #478 from creativecommons/common_crawl_tags_merge
-[33m6cc2ae6b[m Merge pull request #488 from avats-dev/cat_img_wikimedia
-[33m31d5a590[m Merge pull request #491 from creativecommons/kgodey-patch-1
-[33m5e0e7135[m Rename new-source-suggestion to new-source-suggestion.md
-[33m7a1f0317[m Merge pull request #490 from akshgpt7/automate-linting
-[33m6b06b72c[m Add pull_request event to lint.yml
-[33m67bd9ce3[m edit test to check for meta_data.categories
-[33m994a8542[m List comprehension for dag workflow
-[33m335f6258[m api table given as argument
-[33m509daa8d[m Merge pull request #485 from creativecommons/europeana_reingestion_timeout_fix
-[33m434d45b1[m add categories to metadata dict and extract them
-[33mb8bde687[m Merge pull request #487 from avats-dev/minor-readme-typo
-[33mf6e0a206[m Merge pull request #475 from akshgpt7/automate-linting
-[33m75775fc6[m Removed a minor typo
-[33ma78c98f4[m createad scripts folder
-[33m31b872b5[m Update image expiration workflow to execute in parallel
-[33m2c0d87ee[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into image_expiration
-[33m008890cb[m increased timeout to 12
-[33mae0059d1[m Add .flake8 for configuration on test files
-[33m75ea7834[m Remove pull_request event
-[33m5d073aef[m Add test files linting workflow
-[33mbb628229[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into automate-linting
-[33mec8a1d25[m Merge pull request #476 from creativecommons/smithsonian_discrepancy_fix
-[33m4238c2fc[m Merge pull request #474 from creativecommons/si_nmnh_improvements
-[33m984bde4c[m Test image expiration
-[33m16a1438a[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into image_expiration
-[33m8769820f[m Merge pull request #479 from creativecommons/annatuma-source-issue-template
-[33m53e80b2c[m Create new-source-suggestion
-[33mdd06686c[m[33m ([m[1;33mtag: v0.7.0[m[33m)[m Merge pull request #477 from creativecommons/popularity_calculations_sql
-[33m2a8342f8[m query to update added
-[33m93ba67f8[m Merge branch 'master' into verify_urls_in_imagestore
-[33m96562359[m Update image expiration workflow to run sequentially
-[33mb3fa922f[m add tests for function to calculate standardized popularity
-[33m15edb59d[m add logic to avoid zero, but record raw value
-[33m9965948a[m Initial implementation of the image expiration workflow
-[33mb4b2d0ac[m Fix error in the OLDEST_PER_PROVIDER dictionary
-[33m8927ba6a[m Initial implementation of the expiration logic
-[33mb451473b[m Get all provider names into one location
-[33ma7276a05[m add tests for SQL module; reformat with black
-[33ma434fcfe[m reformat operators module with black
-[33m9b97545f[m added science and met museum logic (testing)
-[33m58e64182[m add tests for popularity SQL DAGs
-[33m7d5f45f8[m add Airflow DAGs to create and refresh image popularity data
-[33ma1f56eaf[m fix SQL bugs, add index so constants view can be updated concurrently
-[33m5b721667[m Expand the creator and description types considered in Smithsonain
-[33m80bec5e2[m add operators to allow Airflow to use new view updating functions
-[33ma8c3189a[m add and reorganize SQL-via-python to burn down popularity data
-[33mc7b4b97b[m add new SQL-via-python functions to build and refresh popularity data
-[33m9e688d95[m minor changes (testing)
-[33mcdf089c9[m merge CC tags script (testing)
-[33mb7f6f293[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into si_nmnh_improvements
-[33mccd228ca[m Variable name update
-[33md45848cf[m Merge pull request #465 from creativecommons/smithsonian_unit_code_check
-[33m8c2cb4d0[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
-[33mcfa8246e[m Raise exception when unit code table needs to be checked and update code for consistency
-[33m77bfcebd[m Merge pull request #473 from creativecommons/europeana_reingestion
-[33mf89b15a8[m Merge pull request #355 from kss682/issue-348
-[33m969bee47[m Concatenate creators with semicolons and "and" at the end
-[33m7eeb5429[m fix linting workflow syntax
-[33m6317bb4d[m Fix linting workflow
-[33m8926d817[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into si_nmnh_improvements
-[33mee020e42[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
-[33m6a7b5870[m[33m ([m[1;33mtag: v0.6.0[m[33m)[m Merge pull request #462 from creativecommons/nypl_implementation
-[33m4d33aacc[m Merge pull request #455 from creativecommons/smithsonian_sub_providers
-[33mb12f2626[m Improve creator and description metadata in Smithsonian
-[33m1893349c[m dag script
-[33m48032026[m code and test suite refactored
-[33ma3da7a73[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
-[33mcef091ee[m bug fix.
-[33m497e0301[m ingestion workflow
-[33m9fafd45a[m code refactored to make it more readable and pythonic
-[33m0a99cb75[m api key set to NYPL_API_KEY
-[33mc379320b[m implement new SQL-based popularity calculation
-[33m401d5997[m add SQL files to create tables and views on upstream DB
-[33m9d5b18a7[m set up local postgres with new tables and views
-[33mb70799e4[m Check for outdates unit codes as well as new additions
-[33m80692c9c[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
-[33me6e838c5[m single creator name retrieved from API
-[33mdacb48d2[m Merge pull request #467 from creativecommons/museum_victoria
-[33m7439b88f[m Provider name bug fixed
-[33m0294a269[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_unit_code_check
-[33me022048e[m Update the unit code workflow
-[33me3a8439a[m Merge pull request #461 from creativecommons/flickr_new_subproviders
-[33md6cbb9b2[m Change Smithsonian unit code check to store values in table
-[33m94f2840c[m Initial implementation of Smithsonian new unit code check
-[33m7b244eea[m disable all calls to socket.socket, ensure tests pass
-[33mab65fc0f[m Change logging levels and messages to emphasize actual issues
-[33m7e5435e2[m add tests for upgrading/verifying schemes of IP addresses
-[33mce2c4f8d[m add test for url scheme adding logic, fix bug in same logic
-[33m2516267a[m add documentation to license methods
-[33ma80e0336[m added logger info , removed extra print statement
-[33m3ea22ec4[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into nypl_implementation
-[33m8fce51ad[m dag script
-[33m67050758[m removed old NYPL script
-[33m5cab507f[m remove unused exception type
-[33mabc533d0[m Add WOCinTech as a sub provider of Flickr
-[33mabc03825[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smithsonian_sub_providers
-[33m57df7e0c[m stronger conditions in metadata method
-[33m27531216[m added metadata  and remaining test_suite
-[33m81ef9741[m[33m ([m[1;33mtag: v0.5.0[m[33m)[m Merge pull request #447 from creativecommons/museum_victoria
-[33m67b670a6[m unused import removed
-[33md8584b5b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
-[33m11977cc6[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into nypl_implementation
-[33m1380f7ed[m tested image , title and creator methods
-[33m9ddc9855[m title and creator methods added
-[33m2ed12b5f[m Merge pull request #442 from creativecommons/europeana_sub_providers
-[33m6e2e2b6f[m add logic to recover license URLs from pairs; cleanup/refactor
-[33ma0cab049[m use f-strings consistently for logging in licenses module
-[33m5d6f895b[m refactor licenses module using new license_path_map data structure
-[33m1f4fd885[m add logic to create map for recovering license paths from license pairs
-[33m116db6c3[m move Japanese 2.0 licenses to recoverable lists
-[33m295fe295[m clean up unused LICENSE_PATH_MAP constant
-[33m6ad2b0cc[m set up path map constants for reversal
-[33m355dfbc1[m add a number of known license paths to constants file
-[33m7cbb9c61[m fix broken constants tests
-[33m46f718d5[m[33m ([m[1;33mtag: v0.4.2[m[33m)[m Merge pull request #453 from creativecommons/wmc_mediatype_bugfix
-[33mfb65a179[m Merge pull request #452 from creativecommons/wmc_limit_bug
-[33m41c4e457[m update license tests, split path correctly in constants
-[33m5c728576[m add more constraint to license path definitions
-[33m2e6f6fd6[m add logic to check response code to URL rewriter
-[33m55ca7718[m tidy up docstring
-[33mc78a5525[m test and document CC URL validation logic
-[33m88914f30[m Add workflow for updating Smithsonian sub-providers
-[33m9e9ba965[m Add test case for checking Smithsonian sub-provider retrieval at DB level
-[33m00e02de7[m reduce line length for PEP8 compliance
-[33m2fac6e9f[m add docstrings to public URL methods
-[33m32afddd7[m rearrange methods in licenses for clearer logical flow
-[33m235e5d59[m give redirection handling logic meaningful name
-[33mf56fc508[m update image tests to avoid trying to use socket.socket
-[33m6c748751[m test suite till request handler
-[33m2999ad18[m image url retrieval method with new logic
-[33m1341dd03[m Initial implementation of Smithsonian sub-provider retrieval at DB level
-[33m17a18090[m make scheme-adding function private; reorder urls module
-[33m52033994[m use urls.rewrite_url_string in licenses module
-[33m83c08809[m Add test for sub-provider retrieval from Smithsonian at API level
-[33mf9b8acfc[m move logging init to let importer set level easily
-[33md269685f[m add check to determine if object is an image mediatype
-[33m989e7f52[m update script to use ImageStore.total_images property
-[33m2107bb62[m image_id points to new id field in api
-[33m04316eb8[m turn up parallelism to 8
-[33m62f710dc[m Initial implementation of sub provider retrieval from Smithsonian at API level
-[33mcffa5b40[m Drop the temporary table after sub-provider update
-[33m40e05abd[m turn down LIMIT, and turn up parallelism
-[33mba1a84a0[m add support for 'URLs' that are IP Addresses
-[33m03ff5086[m split common.storage.util into smaller pieces
-[33mbc420729[m remove unused import
-[33m7cef6344[m add logic to check license URLs for correctness, refactor utils
-[33m1d4502e6[m changing image id to single number
-[33mdb532afd[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
-[33mbca70817[m update tests to avoid tldextract calling internet
-[33ma3ebd2f8[m add URL validation and scheme upgrading logic
-[33m2ed77c65[m Apply consistent temporary table structure for Flickr and Europeana sub-provider update
-[33meaf76e48[m Improve Europeana sub-provider retrieval logic to reduce memory consumption
-[33m7be2fe58[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into europeana_sub_providers
-[33m0e6faea7[m[33m ([m[1;33mtag: 0.4.1[m[33m)[m Merge pull request #446 from akshgpt7/total_images
-[33m713f871c[m Merge pull request #444 from creativecommons/met_museum_bugfix
-[33m1b38f727[m tidy up quotes and spaces
-[33m0c8f44b6[m Merge pull request #448 from creativecommons/index_fix
-[33m3b23ca72[m Add an index to temporary popularity table identifier
-[33ma5835beb[m dag for museum victoria
-[33mbdb536cc[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
-[33m3bb24113[m pep8 styling
-[33m625c6707[m test suite
-[33m1d2fe409[m image id changed to pair numbers
-[33mbee74694[m PEP-8 fixes
-[33m90761309[m add total_images property
-[33mf47a0581[m Merge pull request #440 from creativecommons/kgodey-patch-1
-[33ma8b62bc5[m use image name from URL for foreign_id instead of generated index
-[33m6672be4a[m Add workflow for europeana sub-provider update
-[33mafe2c293[m Throw exception if more than one sub-provider encountered
-[33mb7d25c32[m Added collaborators to CODEOWNERS now that we have one!
-[33m9f8d035f[m Add test case for europeana sub-provider update
-[33m96badcd2[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into europeana_sub_providers
-[33meba1a115[m tested get_batch objects
-[33m6f3aec15[m implementation of provider
-[33me25369ac[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into museum_victoria
-[33m2135a0cf[m[33m ([m[1;33mtag: v0.4.0[m[33m)[m Merge pull request #439 from creativecommons/output_dir_bug
-[33m10bb83fc[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into europeana_sub_providers
-[33m7eb308b0[m Merge pull request #420 from creativecommons/retrieve_subprovider
-[33m8b86f1c5[m add logging statement to see how many rows we're updating
-[33m41c4e8f3[m configure DAG for manual triggering
-[33m2645f6bf[m modify output path of popularity_workflow
-[33m8097c36d[m Clean the Flickr sub-provider update code
-[33me350f4a3[m bug fix : escape character
-[33m3741d15c[m Initial implementation of europeana sub provider retrieval
-[33mdfdf125c[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33m4d599de2[m Add test cases for checking alternative sub-provider update methods
-[33m86f6db87[m Add changes to the alternative sub-provider update methods
-[33mc1331035[m Pass provider/ sub-provider information as parameters
-[33ma71ccc83[m Merge pull request #428 from creativecommons/smk_provider
-[33m01c8a72f[m Merge pull request #427 from jhutchings1/codeql
-[33m86aa2fee[m Merge pull request #434 from creativecommons/swap_tablenames
-[33me726aa15[m rename local postgres building SQL files
-[33mea5ad96c[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33m640c22aa[m Alternative methods of sub-provider retrieval
-[33mb76403e7[m change table names in code that uses SQL
-[33mcf26c524[m Merge pull request #432 from creativecommons/s3_creds
-[33m9f4aa673[m Update sub-provider test to match the new image table schema
-[33m4e8d4051[m testing the api contents
-[33mbaefadca[m Read non-standard environment variables into boto3 client
-[33m35b95d3e[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33meb2dbda0[m Set spacex as separate sub provider and remove redundant source value setting
-[33mdabe1722[m dag for statens museum
-[33me1e54305[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into smk_provider
-[33m8ee9909c[m[33m ([m[1;33mtag: v0.3.0[m[33m)[m Merge pull request #426 from creativecommons/popularity_calc
-[33mfb990034[m Merge pull request #429 from creativecommons/deduplication
-[33me35f6bfe[m remove unused SQL files
-[33maf93046e[m smk implementation and test suite
-[33m6306448c[m progress -
-[33m2bfb4c9f[m Consistent usage of single and double quotes
-[33mc8dd0bdf[m add newline
-[33m52fbc639[m Merge branch 'popularity_calc' of github.com:creativecommons/cccatalog into popularity_calc
-[33m85251197[m Don't use the source as a factor in the calculation of each metric
-[33m9ba46f1b[m Update src/cc_catalog_airflow/dags/util/popularity/math.py
-[33mb6c809c6[m Update src/cc_catalog_airflow/dags/util/popularity/math.py
-[33m6bb8f3b1[m Merge pull request #418 from creativecommons/science_museum-bug-fix
-[33m6a398b67[m update paths operator to remove all files from staging directory
-[33mdd9c924d[m change sql operators to use new_image table during transition
-[33me0230593[m add new_image table to local testing setup
-[33m1ccf8e06[m use new table schema in loader and SQL modules.
-[33ma4068bed[m Add CodeQL security scanning
-[33m5351d24c[m Better name for a test
-[33m5d840e57[m fix naming of column, reshuffle columns for commoncrawl TSVs
-[33m7ddcceaf[m add utility functions to migrate TSVs to new form
-[33m6ee1aa30[m add SQL file for different strategy to avoid updating image
-[33mf273a730[m Missing paren in docstring
-[33m52554534[m Decode S3 cache properly
-[33mf91a36ff[m Write the percentiles cache to s3
-[33madd82b65[m Define main before setting up DAG
-[33ma18163be[m Add DAG for popularity workflow
-[33mcf0c0b4b[m Document popularity score calculation
-[33m07081467[m Refactor percentile calculation and test cache validation
-[33maa29b18e[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33m137d0898[m Changes to make sub provider information available from a common file
-[33mdbc13bb9[m add looping behavior to migration SQL
-[33mcb8aa9c3[m add duplication column before putting data into it.
-[33m28df08e9[m Initial implementation of DB update for sub providers related to Flickr
-[33m250aa24b[m tidy up SQL formatting for legibility; remove extraneous columns
-[33mad117bb3[m Add test for pullingresults from psql
-[33m2f424d05[m Start testing popularity workflow
-[33m3a0654ff[m Log progress of popularity calculation
-[33ma2835e73[m Use more appropriate RuntimeError exception instead of SystemError
-[33mc8d9aeaa[m Modularize popularity job
-[33m2020cec1[m add SQL files to implement the deduplication process
-[33m58d8590d[m Upload normalized popularity scores back to the metadata column
-[33m6b8ea4c3[m repair error in new test table definition SQL
-[33m59d87b98[m Merge pull request #425 from creativecommons/kgodey-patch-1
-[33m37f172fa[m update local testing image table with new uniqueness constraints
-[33m866ce6c0[m Added Catalog core committers to codeowners.
-[33m7d19f33e[m modify sql operators to use new uniqueness constraint
-[33ma9698d8c[m add test data for common changes in URL we'd like to detect
-[33m7526e573[m Fix some issues preventing popularity cache from being computed; make sure output tsv is open before calling copy_expert
-[33meb4c4204[m Remove popularity logic from sql.py; that's specifically for the loader workflow and doens't belong there. Implement recomputation of percentiles from expired file cache.
-[33me87818a3[m Update sub provider retrieval logic by setting the provider value in source
-[33mf6795184[m foreign id reference image uid
-[33md3e5ee15[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33m7059538f[m Merge pull request #368 from allen505/europeana
-[33m2b35e3a5[m Add workload for producing normalized popularity TSV and queries for generating the popularity dump
-[33m69738bf3[m Fix error in test case with setting source
-[33m923a67b8[m Update sub-provider retrieval test case
-[33m30eb7cb1[m Update sub-provider retrieval to consider user ID
-[33m63186bae[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33mdbca4d85[m Merge pull request #410 from creativecommons/wmc_empty_response_bug
-[33m47310ad5[m Merge branch 'master' into europeana
-[33m1bc9e199[m Added european key to env.template  Changes to be committed: 	modified:   env.template
-[33m1a757ab4[m Code refactoring as per Code review
-[33m782ee086[m Merge pull request #411 from creativecommons/science_museum_workflow
-[33mc820b243[m science museum workflow
-[33mbbdb8677[m improve logging when the image_batch has no pages
-[33m088da3cc[m Merge branch 'science_museum_workflow' of https://github.com/creativecommons/cccatalog into science_museum_workflow
-[33m0e511e41[m science museum workflow
-[33m1fe6f583[m update _get_image_pages to handle non-empty response with no pages
-[33mf237aba6[m removed comment unrelated to science museum
-[33m2f9d72fb[m science museum workflow
-[33m5c743502[m Merge pull request #407 from creativecommons/env_template_bugfix
-[33mb6d29a6f[m Change schedule_interval to daily
-[33m10a17de7[m Removed return from pagewise and refactored code Changes were made as per Code Review Minor changes to fit PEP8  Changes to be committed: 	modified:   dags/provider_api_scripts/europeana.py
-[33m2adccac3[m Merge pull request #354 from ChariniNana/master
-[33mfd90b54c[m Merge pull request #400 from creativecommons/science_museum
-[33m12dcae0c[m Refactored code as per Code review
-[33m708431a6[m add LOADER_FILE_AGE and DATA_GOV_API_KEY to env.template
-[33m52eb5dad[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33m9f778a96[m[33m ([m[1;33mtag: v0.2.0[m[33m)[m Merge pull request #404 from creativecommons/loader_file_age_bugfix
-[33mc9ec3aed[m change loader_workflow file waiting time to 15 minutes
-[33m52952569[m Merge pull request #402 from creativecommons/wikimedia_reingestion
-[33m8421ac92[m Merge pull request #401 from creativecommons/smithsonian_integration
-[33mf2ef7a1a[m improve logging formatting strings as per Timid Robot's comment
-[33m19bcc3d6[m paritioned using custom year range.
-[33md5ba7b8a[m change docstring to reference correct module
-[33mfd098163[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into science_museum
-[33mcb193402[m change DAG name to align with Flickr ingestion DAG
-[33m12441607[m Add source as Flickr when the provider is a sub-provider
-[33m67ed6353[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into retrieve_subprovider
-[33m9f0a9ffb[m add workflow DAG to run smithsonian ingestion weekly
-[33me77dea5a[m fix bug in dag factory so that it uses correct operator
-[33m1d9e7bb7[m Merge branch 'master' into smithsonian_integration
-[33m2f7c36d9[m Merge branch 'master' into smithsonian_integration
-[33m197064cf[m add explicit tests for _check_type function
-[33ma574682f[m add docstrings for main functions, improve logging of type checker
-[33mfc91f163[m change log statement level to reduce output
-[33m52eb85f6[m add tests for remaining functions
-[33mac08f537[m modify _extract_tags so that it always returns a list
-[33m6a489621[m Merge pull request #394 from creativecommons/flickr_reingestion
-[33mab0b3e16[m fix problems found in testing
-[33mb5552486[m refactor to avoid single-use variables, add tests
-[33m4151e473[m add basic tests for processing response_json
-[33m7485e7d2[m use type checker function for row getter
-[33m7a369870[m improve logging calls, remove unnecessary f-strings
-[33m0640d0a5[m add rudimentary type verification to handle unexpected JSON values
-[33m9f5fbe34[m license method and other utilities tested
-[33m2c394c29[m Add test for sub provider retrieval
-[33m43010cb1[m Remove independent image store creation for default provider
-[33m98e5a6c8[m Apply suggested changes in error string parsing
-[33md3f04aa0[m Merge remote-tracking branch 'upstream/master'
-[33m0e5fdc66[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into science_museum
-[33mc0b294fa[m image methods created and tested
-[33m787cdfee[m improve creator-finding logic, add many creator type options
-[33m6f410216[m Initial implementation of sub provider retrieval
-[33m48f06049[m Merge pull request #398 from sp35/patch-1
-[33m6ae9a8f3[m _get_batch_object and param method tested
-[33m21817630[m add large sample JSONs from SI to .gitignore
-[33m1c992ab9[m remove large sample data JSON files
-[33m1749ba2d[m add tests for smithsonian.py; add sample responses
-[33m3aaa1742[m change to hash partitioning to control response size
-[33mb1db1ef3[m Add slack channel for the repo in metadata
-[33m10788071[m changes in _get_object_json and _get_license_url
-[33m416a8ef4[m Set the max allowed defective rows to 10
-[33m9fcc0494[m Merge remote-tracking branch 'upstream/master'
-[33m80be33fc[m Skip defective rows only at local loading excluding the logic from S3 loading
-[33m48ed4b79[m Trimmed a line europeana.py to fit 79 chars  Changes to be committed: 	modified:   dags/provider_api_scripts/europeana.py
-[33md70a10fa[m Removed unnecessary conditions  as per code review Removed empty license condtions Trimmed lines to 79 chars per line Removed import of re
-[33m6dfc6bf9[m Suggestions from code review
-[33mfd0d7e80[m add workflow implementing scheduled WMC reingestion
-[33mc9dc9cbc[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
-[33m006ecb1e[m Merge pull request #359 from kss682/issue358
-[33mc490ed95[m add sleep to test workflow
-[33m1222e012[m Update push_pull_request_test.yml
-[33m5e50e50a[m tune ingestion strategy configuration to prefer newer data
-[33m7764ff80[m add tests for new functionality
-[33m641bfb83[m add tests for get_dated_main_runner to check day-shifting logic
-[33m02b9a8cd[m update operator getter methods to use f-strings
-[33m734db84d[m change default start_date to a datetime.datetime type
-[33m4f380cd1[m Remove unused import
-[33m70847b93[m Attempt skipping defective rows in s3 load
-[33m510fc725[m clean up unused imports in test_operator_util.py
-[33m9be5e788[m document ingestion workflow and reingestion day list calculator
-[33md7374670[m remove subdag operator usage for simplicity,
-[33mf3fe8e00[m rename wait operator getter to conform with others
-[33m8e64af58[m extract meta-DAG factory method,
-[33m024a477d[m add reingestion meta-DAG
-[33mfa8f7eed[m refactor Flickr workflow in preparation for meta-DAG
-[33mb5aaafc8[m Merge pull request #390 from creativecommons/merging_strategies
-[33m6228731b[m add newlines at end of TSVs
-[33mc5285a31[m add truncated flickr example TSV files
-[33mb720f32a[m add merge_jsonb_objects function, reorganize/refactor
-[33m723aa8bf[m lxml used to get license and other minor fixes
-[33m68e22614[m add newest_non_null and merge_jsonb_objects strategies
-[33made00f44[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
-[33m3a4ab37c[m Merge pull request #389 from creativecommons/refactor_sql_module
-[33m64c2fdf2[m Use triple-quoted f-strings
-[33mc437c36f[m use string constants in extracted function arguments
-[33m39b2f705[m rename extracted function to match its current behavior,
-[33m08f07d30[m factor out string constants,
-[33m22842a72[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
-[33mc3501add[m Merge pull request #374 from creativecommons/load_s3_to_postgres_workflow
-[33mec6d0e23[m Merge pull request #380 from amartya-dev/master
-[33mab339292[m Merge pull request #381 from kss682/issue371
-[33m80fcac41[m reverts formatting changes
-[33mc4148e37[m check for name in enriched tags formatting changes modified test to include case for tag being dict
-[33ma60e7605[m add fields to gather and looping through unit codes to script.
-[33mff7b5792[m edited image.py ti comply with pep8
-[33m1383744a[m calls rewritten raw_pixel and removed RawPixel
-[33m2e2123b2[m check tags against a blacklist in ImageStore
-[33mee1e61b9[m enable pulling from Smithsonian API endpoint.
-[33me2afe96d[m Merge branch 'master' into smithsonian_integration
-[33m1bfd622c[m set up local S3 -using tests to run with --disable-socket
-[33mbe39ebe4[m update env.template with new environment variables
-[33mb8209e9e[m add final (for now) tests for s3 functions
-[33m624055b1[m Merge pull request #321 from sp35/rawpixel
-[33ma674567f[m Remove unused import
-[33ma51fc569[m incorporate function to load data from S3 into Postgres into DAG
-[33md6539025[m Merge pull request #369 from creativecommons/sweep_to_s3_workflow
-[33m7644cfac[m add function to load data from s3 into postgres
-[33m5e7d1363[m refactor loader sql module in preparation for adding s3 loading
-[33mc1b7d286[m reorganize DAG to hold new s3 loading to postgres logic
-[33m0cedb6ac[m Added DAG and corresponding test file New file to create DAG to execute Europeana's script Test suite to check for any import errors and the number of DAGs created  Changes to be committed: 	new file:   dags/europeana_workflow.py 	new file:   dags/test_europeana_workflow.py
-[33me50270c4[m set up local postgres with mock aws_s3 functionality
-[33m935e2e2c[m change f-string to plain string, as per Timid Robot's comment
-[33m71c8e8ec[m freeze more requirements to let building happen without errors
-[33m25d4192a[m add error exit if local S3 isn't working
-[33m68e4be2e[m add basic tests for s3 copying method
-[33ma7a0d670[m Refactor and test function for metadata functions Test functions for metadata and description functions Code Reafactoring New test for get_image_list for last page
-[33mbd4d0130[m LangAware Description, tests to extract_data Description of images is taken in the following priority: -English -Default -dcDesption if neither of the above were available
-[33me92fc0d1[m [fix] Use logger for all logs and tags directly
-[33m2b586e77[m set up local s3 for local running and testing
-[33m2c8bf9d6[m add loading data to s3 as a dependency of local loading
-[33m44e79188[m modify s3 loader trigger rule to avoid race with local loader
-[33m62f80b8f[m add s3 loading logic to database loader workflow
-[33m15b5811d[m date changes and removed old config
-[33m8759b1f9[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue358
-[33mb2f57ef1[m patch object used to handle response
-[33mab6e5d80[m handling objects as batch and its tests
-[33mcab3afcd[m [Fix] Change test case for list of tags in test_raw_pixel.py
-[33mdf0efb38[m [fix] Faulty list of tags and logger instead of logging
-[33mf1a480d0[m Added new test functions and response.json file Test function for empty list and error in response. Minor bugs fixes. This commit also adds a sample success response to be used for testing  Changes to be committed: 	modified:   dags/provider_api_scripts/europeana.py 	modified:   dags/provider_api_scripts/test_europeana.py 	new file:   dags/provider_api_scripts/tests/resources/europeana/europeana_example.json
-[33m901d66d3[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue-348
-[33mc3e347df[m Merge pull request #357 from akshgpt7/automate-linting
-[33m838132d4[m Merge pull request #361 from creativecommons/freeze_requirements
-[33m0bbe4b76[m Freeze SQLAlchemy version due to upstream bug
-[33m3c73a0d5[m Remove branch restriction from push
-[33m5c18e6d1[m metropolitan museum workflow
-[33mef41f845[m Merge pull request #278 from AyanChoudhary/rewrite_met_museum
-[33m8d48efbf[m Add workflow for linting, annotations for pull requests and push
-[33me44acf2d[m Fixed timestamp and cusor bug Changed the Timestamp to ISO 8601 format Added code that caused error with last page of the results.
-[33mf9a83211[m Added test file for Europeana API
-[33m7c4a1073[m fix:styling issues
-[33ma3e41797[m use getenv to get API key
-[33m9ea85543[m proper use of image count
-[33m2bab62cf[m Refactor raw_pixel and test_raw_pixel - improvements
-[33meee72263[m Added code to get number of images stored 	modified:   src/cc_catalog_airflow/dags/provider_api_scripts/europeana.py
-[33m90cdc32e[m Stored image & metadata using the ImageStore class
-[33m3520b9eb[m brooklyn museum rewritten
-[33m2e91a188[m Merge remote-tracking branch 'upstream/master'
-[33m8f6e5dce[m Test skipping of defective rows upto a maximum number and throw error if max exceeded
-[33mcc9c4568[m Update the data import from tsv to table to support skipping upto a maximum number of defective rows
-[33m1262a97c[m Merge pull request #344 from amartya-dev/automated_testing
-[33m50e3a6eb[m Merge pull request #349 from creativecommons/prod_deployment
-[33m670ab637[m reorder commands in deployment bash script
-[33m4f13369b[m Tidy up bash script; improve Dockerfile directory handling
-[33m2f1d58d3[m fix: patch test API calls with monkeypatch
-[33mab24b4c2[m Pagewise function implemented Images are retrieved pagewise till all images are retrieved
-[33m97fb972d[m Merge branch 'master' into prod_deployment
-[33m5fbad057[m add deployment bash script to avoid remembering commands
-[33m45ade1a0[m Merge pull request #330 from akshgpt7/phylopic
-[33m6abb65ce[m Merge branch 'master' into prod_deployment
-[33m2c7f7ce9[m Merge pull request #346 from kss682/issue241
-[33m955caef0[m BashOperator used
-[33m1a7bd4d7[m reconfigure wmc workflow file to match production
-[33m77d4f6dc[m fix bug where flickr script fails when reponse has no images
-[33m3591ff69[m add testing plugins to requirements.txt,
-[33m60da0c71[m test on both push and pull request
-[33mb863af74[m Merge branch 'master' into prod_deployment
-[33m9656653c[m Add test resource for test_raw_pixel.py
-[33mb6c503a8[m Add tests for raw_pixel.py
-[33m503bce53[m monthly workflow indiviual scripts
-[33m0cf48025[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue241
-[33m64696eee[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
-[33mf972a59d[m Remove old Phylopic workflow
-[33m9f97e582[m Merge pull request #328 from kss682/issue255
-[33m5f49b694[m Merge pull request #347 from creativecommons/flickr_bugfix
-[33mdcb8c33f[m add tests, clean up temporary bug fix
-[33m55f721d7[m Merge branch 'master' into flickr_bugfix
-[33mbe0da184[m Added code to fetch details from the first page using Cursor based pagination.
-[33m84980d31[m Monthly workflow and testsuit added
-[33m5908f5b9[m monthly workflow
-[33mc6a4b64f[m Added command to copy env template
-[33me7244c12[m Added command to copy env template
-[33m389dde15[m Changed directory before docker compose
-[33md3fba27c[m Corrected the working directory specification
-[33m3fc9c045[m modified commit accordinf to latest docs
-[33m3842c449[m modified commit accordinf to latest docs
-[33mc6446844[m Automated testing on pull request
-[33m23dabab3[m Merge branch 'master' into prod_deployment
-[33m14419b32[m change environment and docker compose configuration for prod use
-[33mfb9994f9[m Merge pull request #342 from kss682/issue336
-[33m79e20bad[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
-[33m58fe6d5f[m changes made as per review
-[33m9cf6251a[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into issue255
-[33m1d25cef6[m method filter moved to query parameter
-[33m5d656238[m Merge pull request #341 from SaurabhAgarwala/pr-moving-workflow
-[33m73836ecf[m Add the continue-on-error configuration to the PR moving workflow
-[33m0f250a13[m Merge pull request #331 from creativecommons/dag_specific_loader
-[33mbe04e432[m feat: added tests for additional images
-[33m4a0ee314[m Merge pull request #320 from mjprince/master
-[33mf51d7b4b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
-[33m2b5f16dd[m Merge pull request #314 from ChariniNana/master
-[33m9bd3c2c1[m test suite for cleveland script.
-[33m82ba4d40[m get_response retry logic changed
-[33ma657f9d7[m Merge pull request #332 from akmadian/master
-[33m956c19c7[m Write test for phylopic workflow
-[33m3a7c507b[m Swap "not ready for work" and "awaiting triage" in issue templates
-[33m26f6c45d[m add python script to wait until Airflow metadata DB becomes ready
-[33m30f66eeb[m Update : review and pep8 guide changes made
-[33m1503f364[m remove old env.sh.template
-[33m17419719[m update README.md with new docker-compose dev setup
-[33mfb2d7603[m Remove non-essential parameter from get_response_json test
-[33m2d058d3a[m Code formatting
-[33m229b67a7[m Add generic tests for checking the get_response_json method and remove them from provider scripts
-[33mc428a490[m add env.template to give the format of the .env file
-[33mb7583dfc[m Rename test_phylo_pic.py to test_phylopic.py
-[33md994bdcb[m Remove duplicate file phylo_pic.py, created for case insensitive systems
-[33m3d3fb4aa[m Remove deprecated PhyloPic.py
-[33mad5d183c[m Revert "Remove old phylopic.py and test_phylopic.py"
-[33m8252aa03[m Remove old phylopic.py and test_phylopic.py
-[33m294f22c6[m Create Apache Airflow DAG to run new phylopic.py script.
-[33m1dd89444[m Update main.yml
-[33m6c44f90f[m rewriten clevelend provider script with  ImageStore.
-[33m2117b176[m Improve rawpixel.py - rename, private non-main functions, reduce main()
-[33mbd265c0a[m initial fix;  This needs to be checked more in depth
-[33me4c8d930[m Further stylistic changes to support future signature changes
-[33mfb4b1ca0[m Add stylistic edits to support signature changes in future
-[33m677bc0f8[m Merge remote-tracking branch 'upstream/master'
-[33m2837027d[m Merge branch 'master' into dag_specific_loader
-[33m63bf5f07[m feat: write unhappy path tests for _get_image_data
-[33m676b6bff[m Merge branch 'master' into dag_specific_loader
-[33m6c220b95[m fix: remove unused imports and fixed new function call
-[33mf8accb48[m Split process_image_data method into smaller methods in rawpixel.py
-[33m410335f4[m add drop table test, rename table creator
-[33ma6e6dbd0[m add more sql function tests for loading and upserting logic
-[33m47447368[m Update main.yml
-[33m0f5ae13b[m Rewrite RawPixel.py using new ImageStore class - rawpixel.py
-[33m6938cefd[m Create main.yml
-[33mf6aed3d7[m add more sql function unit tests
-[33m0005fb81[m Merge pull request #313 from creativecommons/rename_old_scripts
-[33m528e5810[m Format code
-[33m13f5f9a2[m Use the get_response_json function provided in requester class with phylopic script and related tests
-[33m845802ef[m rename phylopic.py to phylo_pic.py
-[33maf28c7c1[m add initial sql function tests
-[33m883708df[m modify loading table creation query to fail if it already exists
-[33mff5d1f47[m add tests for util.paths submodule
-[33me267c2cf[m change funciton name in paths.py to match new operator definition
-[33md86e2b8e[m rename DAG tasks (nodes) for clarity
-[33me5539765[m reorganize loading operators and logic into a package
-[33m218c24ad[m Fix test which mocks the get_response_json method
-[33m8cad5316[m increase testability of loader_workflow.py
-[33m8e0bad68[m change to official python base Docker image
-[33md1cc3db5[m Use the get_response_json function provided in requester class with wikimedia commons script and related tests
-[33m98de9d1a[m Add get_response_json function to requester class to minimise repetition of code
-[33mfb41ae58[m Merge pull request #276 from akshgpt7/phylopic
-[33m89034dfc[m Merge pull request #285 from ChariniNana/master
-[33m2b868f7e[m Merge pull request #309 from creativecommons/kgodey-patch-2
-[33m09f3c924[m Merge pull request #306 from creativecommons/issue_template_fixes
-[33me91381ea[m Code formatting in the test file
-[33m63a9b846[m Merge pull request #308 from creativecommons/kgodey-patch-1
-[33m453165dc[m Code formatting to comply with PEP8
-[33m304a0f84[m Delete older CODEOWNERS file
-[33m62fa4034[m Added CODEOWNERS file
-[33m217278f7[m Add foreign_identifier arg to add_item in phylopic.py, write test for it and add default 'all' value to date
-[33mfdaaaa39[m modify issue templates as per comments by Timid Robot and Kriti
-[33m3ea544fd[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
-[33m15009eb4[m Modify date keys to reflect the information they provide
-[33m12c55130[m Merge remote-tracking branch 'upstream/master'
-[33m6f99b434[m Simplify parameters and minor fixes in phylopic.py
-[33mc61a76e9[m Merge pull request #303 from mariuszskon/fix/etlmods-deprecation-warning
-[33m655be1dc[m increase wait for file to finish updating
-[33m9475bd68[m Merge pull request #290 from qubit99/master
-[33md4ed42b6[m parallelize DB loading somewhat,
-[33ma9b250b1[m Updated test to verify date uploaded/taken are stored in meta data
-[33mafea1e98[m Merge remote-tracking branch 'upstream/master'
-[33m3820596f[m Fix etlMods.py DeprecationWarning for invalid escape sequence
-[33me523687b[m fix:handle foreign_landing_url value from the API and rename _get_data_for_each_image to _get_data_for_image
-[33ma1b6d9e4[m fix:made requested changes and chnged foreign url according to new API
-[33m350f87ea[m Merge pull request #292 from creativecommons/new_issue_templates
-[33mba67f961[m add numerous new templates for issues
-[33m6904102d[m Updated Docstring
-[33m21e4f6c8[m Merge pull request #288 from Milind712000/fix-readme-file-links
-[33mf6502b0b[m Merge branch 'master' into dag_specific_loader
-[33m57566942[m increase wait time for production, change name for descriptiveness
-[33m6fd9210a[m Write tests for phylopic provider API script
-[33m663f23f3[m Add example files for phylopic tests
-[33m3d6a0442[m Fix README.md file links
-[33mdcc44ef6[m extract sql.py from main DAG file for clarity
-[33mfe1bf147[m finish basic version of loader DAG, add a smoke test
-[33m79eb62d8[m fix:write tests for _get_data_for_each_image through _process_image_data, used new api response as sample response and enforced PEP8 standards in test
-[33m3d2766a4[m [Issue 222] date info added to metadata
-[33m412a2e74[m fix:removed unused vars and imports, fixed fatal bug in get_data_for_each_image by using keyword arguments, removed default mode from arg parse and left only date as the sole parameter and refactored code to confirm with PEP8
-[33mfb58d77d[m add branching logic to loader dag
-[33m7161426a[m Break down larger functions
-[33m7962b201[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
-[33ma0bf4e3d[m Refactor phylopic.py according to make requested changes
-[33m6f38793f[m fix:changes test for met..museum.py to function with mockpatches
-[33m0350bd7d[m fix:requested changes in metropolitan_museum_of_art.py
-[33m34a2fc55[m add new loader_workflow.py, refactored a bit
-[33m7ba0a4e5[m add initial Smithsonian Institution Provider API script
-[33mfc8f003e[m Merge pull request #272 from akshgpt7/flickr
-[33me5aa677a[m Fix break logic in flickr.py and write test for it
-[33m373f4a66[m refactor:change class names to follow convention
-[33m70140556[m refactor:logger format to the new syntax
-[33mfa27f6a5[m feat: completed test for create_meta_data
-[33m2691d079[m feat: completed test for get_response_json
-[33m0b5d1e73[m feat: completed test for get_object_ids
-[33m0a6bcf67[m feat: refactored code with new classes
-[33m1578db9a[m feat:changed file to new name and updated imports from the new classes
-[33m17d8b8b9[m Add _get_response_json() method
-[33ma000160b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into phylopic
-[33m668872d9[m Refactor the new phylopic API script
-[33m15183839[m Rewrite phylopic API script using new model.
-[33m00d4969b[m Merge branch 'master' of https://github.com/creativecommons/cccatalog into flickr
-[33mc6acda37[m Fix requested changes
-[33m7ac75321[m Merge pull request #269 from creativecommons/provider-api-issue-template
-[33m0b1c0299[m Logical fix in returning Nonetypes
-[33m08da7324[m Change 'tries' to 'max_tries' in flickr's provider api script's _get_image_list method for more clarity
-[33m44e6c0b9[m Refactor flickr API script's _get_image_list method to use 'tries' instead of 'retries'
-[33me2be5c4d[m remove unnecessary comment in cleveland museum
-[33mc309dcf0[m Merge pull request #270 from akshgpt7/cleveland
-[33mf864e891[m use has_image parameter in Cleveland Museum script
-[33m807cb5e8[m Add Provider API issue template
-[33mebf8582a[m add docker-compose to test Apache Airflow operations on PostgreSQL
-[33mf00d1576[m Merge pull request #266 from creativecommons/flickr_dag
-[33me40669f3[m remove deprecated Flickr script and associated cruft
-[33mcdf90758[m add new flickr dag, and a basic smoke test
-[33mb4c9c70b[m Merge pull request #263 from creativecommons/flickr_rewrite
-[33m849aaad9[m add whitespace around equals sign
-[33m1080186a[m add more tests, most at a higher level
-[33m7a3518de[m extract json checking to its own function
-[33m20f81d49[m add more tests for new flickr.py script
-[33m87b8ae1c[m Merge pull request #261 from creativecommons/wikimedia_timeout_increase
-[33m8d226e11[m raise exception if retries are exceeded
-[33m2a2c48ab[m increase timeout to help wikimedia commons script succeed
-[33m1c1fc52b[m Merge pull request #259 from creativecommons/requester_bugfix
-[33m283c4c8c[m delete extraneous requests.get outside of try/except block
-[33m752676cb[m add resource jsons to avoid large test functions
-[33mbb04b7b5[m add more tests for Flickr script
-[33mc99b09e9[m default to empty string for description so we can strip it
-[33m97f853dd[m rewrite Flickr.py to flickr.py, add basic tests
-[33mf373ed35[m add logging message for missing columns in ImageStore
-[33me3d1b407[m Merge pull request #250 from creativecommons/wikimedia_commons_dag
-[33m56eda8b8[m expand ts to timestamp for clarity in wikimedia_commons.py
-[33ma520362d[m change itereator variable from i to _
-[33mb5a68a6e[m modify wikimedia_workflow DAG test to work from other directories
-[33m3ad1c3dd[m add DAG for new Wikimedia Commons script
-[33mfbfcb8d4[m change image_batch recursion into loop for safety
-[33ma99c39f4[m remove old WikimediaCommons script and tests
-[33m98a31aa6[m update Dockerfile to avoid permissions problems with env.sh
-[33mc36f3d28[m Merge pull request #248 from creativecommons/wikimedia_rewrite
-[33me6b1334a[m conform to PEP8 numbers of lines between test functions
-[33m232588b1[m add docstring for initializing DelayedRequester
-[33m8ea121b8[m Add globalusage tallying logic to wikimedia_commons.py
-[33m1f3d1fa1[m port and add tests for new wikimedia_commons.py script
-[33m066ccf4a[m Merge pull request #246 from creativecommons/image_repository_class
-[33m752e85c3[m add initial version of new wikimedia_commons.py script
-[33mab0cabf8[m add DelayedRequest class to handle rate limited requests
-[33mb314e9d0[m reorganize image store class
-[33m1f9e7e8f[m add early exit when there is no license or version available
-[33m6b7c3088[m reorganize directory structure for delayed_request module
-[33m5049b57b[m add logic to enrich meta_data with license_url by default
-[33mde23bd56[m change pairs from generator to list comprehension for logging
-[33m796f6c5b[m move unused filesize column one layer to DB
-[33m2ad78259[m add docstrings to public ImageStore methods
-[33m640da118[m add docstrings to public functions in storage.util
-[33mf2a5c010[m remove unused enforce_all_arguments_truthy function
-[33mb5b204b8[m try harder to cast booleans, add docstrings for column classes
-[33m4dd8b15c[m finish ImageStore.commit logic
-[33m852757f9[m add writing to disk and more verification logic to ImageStore
-[33m74c29f33[m add image.py with ImageStore class
-[33m4b7f8752[m add columns.py, creating column types
-[33mafddfa0b[m add sanitization of strings and json to storage utilities
-[33md56d79ae[m add methods to enforce truthiness and merge provider/source
-[33mc4b80600[m Merge pull request #245 from creativecommons/turn_on_separate_dags
-[33m41d04dfb[m add character limit enforcer to avoid DB import failures,
-[33m781435ed[m add basic utilities to be used by ImageStore class,
-[33m0ae98f94[m schedule separate DAGs to run in place of dailyWorkflow.py
-[33m993c74d2[m Merge pull request #235 from creativecommons/json_string_bugfix
-[33m329b2c1c[m rewrap function arguments
-[33m24e95792[m add function to sanitize json values before dumping to json string
-[33m42b65e91[m Merge pull request #230 from creativecommons/airflow_daily_dag_split
-[33mbd19070d[m capitalize all letters in constants from `config.py`
-[33mad2b3411[m wrap long line
-[33m133851be[m add comment to Dockerfile explaining 'hash' style image tag
-[33mc2fb113d[m Change links to reference style, where appropriate
-[33mcdaa0a77[m specify Amazon EMR to avoid acronym-knowledge overhead
-[33m80acb00f[m make minor changes to conform to PEP8
-[33mc0a67a4a[m update README with new filepaths, and clean up cruft
-[33m0051db98[m remove old dailyWorkflow.py DAG file
-[33m6c69a400[m Add newlines to ends of files to please git
-[33m939b0922[m Fix crontab bug in WikimediaCommons DAG; add DAG config validation
-[33ma307b323[m split dailyWorkflow.py into separate DAGs.
-[33m9676210a[m use env.sh in Dockerfile
-[33m1ad3cfc7[m add airflow testing detritus to .gitignore
-[33mbd5c05e3[m move dag files to synchronize with Docker Container
-[33m08d37f63[m move Dockerfile and requirements.txt to DAG directory
-[33m35697bb5[m Move example output files to testing resource location
-[33m33c53961[m move api provider scripts to make deployment simpler
-[33mcf7d68a8[m Merge pull request #226 from creativecommons/wikimedia_commons_creator_fix
-[33m0e8d9818[m Use single quote for all strings in `test_WikimediaCommons.py`
-[33m0c28c78f[m Extract json examples from test file
-[33m37959914[m use parentheses instead of backslashes for line continuation
-[33mcd765de2[m extract row_generator from list comprehension for readability
-[33mb1a6eb06[m change docstring to correct endpoint for documentation
-[33mb07de227[m add functionality to scrape text from description field
-[33mdb7fc30a[m refactor WikimediaCommons.py with snake_case, change endpoint
-[33mcee194dc[m Merge branch 'flickr_test_speed' into wikimedia_commons_creator_fix
-[33m4027b911[m bring WikimediaCommons.py into pep8 compliance, remove star import
-[33md3f8aa50[m monkeypatch delay function to speed up testing
-[33m897a808a[m refactor create_tsv_list_row, add logging functionality
-[33m9dfa77e5[m Refactor getMetaData into process_image_data
-[33m906d64b5[m change Wikimedia Commons script to use artist info for creator
-[33mcf8c0d85[m[33m ([m[1;33mtag: v0.1.0[m[33m)[m Merge pull request #218 from creativecommons/extract_row_formatter
-[33m1392dadf[m change name of etlMods import to be more meaningful
-[33m574a3684[m align more variables with pep8, remove star import from Flickr.py
-[33m08c608e1[m extract row-writing function from Flickr.py
-[33mb76dc709[m Merge pull request #213 from creativecommons/test_env_setup
-[33m8ed02300[m add Dockerfile to set up local testing/development environment; add test for Flickr.py
-[33mfd9d71e0[m Merge pull request #198 from creativecommons/string_sanitizer_bugfix
-[33mbd75338c[m add casting to string as first step of sanitizeString method
-[33mece000fe[m Merge pull request #190 from paulofilip3/master
-[33m3a66c105[m Fix requirements.txt
-[33m9cbf0f76[m Add gitignore
-[33m2c0fb06b[m Update README.md
-[33m4dd2b8ba[m Update README.md
-[33mce9c808e[m Update README.md
-[33m3d787d11[m Update README.md
-[33md58c7a4a[m Update CC Catalog Common Crawl test cases
-[33m662fd157[m Update README.md
-[33m74cc30fc[m Update requirements.txt
-[33m55445e89[m Update README.md
-[33maef747e3[m Add wikimedia commons to the workflow
-[33me01dd5cf[m Bug fix
-[33me22fef7d[m Add cc catalog workflow scripts
-[33mab5bf45c[m Add Wikimedia Commons using the API
-[33md7faf342[m Add NYPL using the API
-[33maef20219[m extract popularity metrics from Behance
-[33m8fd4d09e[m Add new date parameter to query images on flickr
-[33m401c4737[m Remove Brooklyn Museum from the common crawl providers
-[33md0607b61[m Add RawPixel using the API
-[33m4c6e6b36[m Remove RawPixel from the common crawl providers
-[33m5d9f9a2d[m Merge branch 'master' of github.com:creativecommons/cccatalog
-[33me6c5e75d[m Add new provider
-[33mb5695fa3[m Add function to extract the license
-[33md39b37bf[m Update CONTRIBUTING.md
-[33m94de9068[m Update .cc-metadata.yml
-[33m0dd15188[m Update and rename .github/CODEOWNERS to CODEOWNERS
-[33m0c55f62e[m Update and rename CODEOWNERS to .github/CODEOWNERS
-[33m83fc4b20[m Update common crawl and api jobs to standardize the output data
-[33m146674d2[m Sanitize strings
-[33mb55def75[m Sanitize strings
-[33m612cc846[m Bug fix
-[33m312a9d5f[m Bug fix
-[33m9c838103[m Add new provider
-[33m1483e51a[m Bug fix
-[33m384ebcfe[m Update modules
-[33m8740f0fb[m Update the output description
-[33mc9bdb3da[m Add optional parameter for http requests
-[33m25173032[m Create function to extract CC license and version from url
-[33m65994fe0[m Make repository contribution ready
-[33me4477830[m Bug fix
-[33m9cf6a058[m Update log statistics
-[33mdc15c511[m Bug fix
-[33mb884a402[m Set default mode to the start of the previous hour
-[33mdd9e0488[m Include sys module
-[33mbe04fd8c[m Escape special characters
-[33m65769114[m Add new provider
-[33m98442106[m Bug fix
-[33md2709afe[m Add new Common Crawl providers
-[33m5d854355[m Replace empty strings with null
-[33m0eac921d[m Update thumbnail source
-[33me95e9191[m Update code to parse changes in the HTML
-[33m6f32e45b[m Bug FIx
-[33me984d251[m Bug fix
-[33m72b1b714[m Add new providers
-[33m2fbbeb43[m Bug fix
-[33m0fb57d2a[m Bug fix
-[33m34a222fe[m Refactor common crawl scripts
-[33m44ed6124[m Update argument name
-[33ma752543f[m Update driver to identify 3D models by date
-[33mdd0ec1e7[m Remove redundant modules
-[33mfe6300d5[m Update imported modules
-[33me92268da[m Bug fix
-[33maa01a978[m Modularize code
-[33me4d57373[m Modularize code
-[33mf2c0b51b[m reformat the output and santitize strings
-[33m9fb964d6[m Provide optional arguments to execute the script
-[33m2368ef60[m Add Met Museum as a new content provider
-[33m5c4b476b[m Update image detection logic
-[33m9d98d82a[m Change common crawl index extraction logic
-[33mf2a04b14[m Merge branch 'master' of github.com:creativecommons/cccatalog
-[33mace5fdc2[m Add Cleveland Museum as a new provider
-[33mb2ca5b0b[m Update requirements.txt
-[33m1ad2b811[m Add new API provider
-[33m0c37ad38[m restructure common crawl providers
-[33m473490f7[m Merge branch 'master' of github.com:creativecommons/cccatalog
-[33m16196822[m Add generic exception handling for requests
-[33m62103934[m Update README.md
-[33md1efa480[m Update README.md
-[33md5901e0a[m Update ExtractCCLinks.py
-[33mc6949f15[m Add new providers
-[33md44bdc45[m Add new providers
-[33m07a8b3d6[m Create a default parameter for the common crawl ETL process
-[33ma31aa0f1[m Add new content providers and sample data
-[33m76af3781[m Add data extraction steps for the Met
-[33m00417189[m Merge branch 'master' of github.com:creativecommons/cccatalog
-[33madb2d20f[m Add the Met Museum as a content provider
-[33m125504d6[m Update README.md
-[33m9b84a269[m Add test cases
-[33mf5532c42[m Update ExtractCCLinks.py
-[33m1a813349[m Identify domains that link to creative commons
-[33ma31ee4bb[m First tests for the common crawl parsing strategy
-[33m2138ad24[m Some basic tests for working with spark and wark files and some example processing we are going to be running.
-[33mffa2b85e[m Initial commit