usds · mattbowen-usds · Sep 6, 2022 · Sep 1, 2022 · Sep 1, 2022 · Sep 2, 2022
diff --git a/data/data-pipeline/data_pipeline/etl/score/etl_score.py b/data/data-pipeline/data_pipeline/etl/score/etl_score.py
@@ -42,7 +42,6 @@ def __init__(self):
         self.doe_energy_burden_df: pd.DataFrame
         self.national_risk_index_df: pd.DataFrame
         self.geocorr_urban_rural_df: pd.DataFrame
-        self.persistent_poverty_df: pd.DataFrame
         self.census_decennial_df: pd.DataFrame
         self.census_2010_df: pd.DataFrame
         self.national_tract_df: pd.DataFrame
@@ -159,16 +158,6 @@ def extract(self) -> None:
             low_memory=False,
         )
 
-        # Load persistent poverty
-        persistent_poverty_csv = (
-            constants.DATA_PATH / "dataset" / "persistent_poverty" / "usa.csv"
-        )
-        self.persistent_poverty_df = pd.read_csv(
-            persistent_poverty_csv,
-            dtype={self.GEOID_TRACT_FIELD_NAME: "string"},
-            low_memory=False,
-        )
-
         # Load decennial census data
         census_decennial_csv = (
             constants.DATA_PATH
@@ -359,7 +348,6 @@ def _prepare_initial_df(self) -> pd.DataFrame:
             self.doe_energy_burden_df,
             self.ejscreen_df,
             self.geocorr_urban_rural_df,
-            self.persistent_poverty_df,
             self.national_risk_index_df,
             self.census_acs_median_incomes_df,
             self.census_decennial_df,
@@ -484,7 +472,6 @@ def _prepare_initial_df(self) -> pd.DataFrame:
 
         non_numeric_columns = [
             self.GEOID_TRACT_FIELD_NAME,
-            field_names.PERSISTENT_POVERTY_FIELD,
             field_names.TRACT_ELIGIBLE_FOR_NONNATURAL_THRESHOLD,
             field_names.AGRICULTURAL_VALUE_BOOL_FIELD,
         ]

diff --git a/data/data-pipeline/data_pipeline/tests/score/fixtures.py b/data/data-pipeline/data_pipeline/tests/score/fixtures.py
@@ -2,12 +2,218 @@
 import pytest
 from data_pipeline.config import settings
 from data_pipeline.score import field_names
+from data_pipeline.etl.score import constants
+
+GEOID_TRACT_FIELD_NAME = field_names.GEOID_TRACT_FIELD
 
 
 @pytest.fixture(scope="session")
 def final_score_df():
     return pd.read_csv(
         settings.APP_ROOT / "data" / "score" / "csv" / "full" / "usa.csv",
-        dtype={field_names.GEOID_TRACT_FIELD: str},
+        dtype={GEOID_TRACT_FIELD_NAME: str},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def census_df():
+    census_csv = constants.DATA_PATH / "dataset" / "census_acs_2019" / "usa.csv"
+    return pd.read_csv(
+        census_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def ejscreen_df():
+    ejscreen_csv = constants.DATA_PATH / "dataset" / "ejscreen" / "usa.csv"
+    return pd.read_csv(
+        ejscreen_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def hud_housing_df():
+    hud_housing_csv = (
+        constants.DATA_PATH / "dataset" / "hud_housing" / "usa.csv"
+    )
+    return pd.read_csv(
+        hud_housing_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def cdc_places_df():
+    cdc_places_csv = constants.DATA_PATH / "dataset" / "cdc_places" / "usa.csv"
+    return pd.read_csv(
+        cdc_places_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def census_acs_median_incomes_df():
+    census_acs_median_incomes_csv = (
+        constants.DATA_PATH
+        / "dataset"
+        / "census_acs_median_income_2019"
+        / "usa.csv"
+    )
+    return pd.read_csv(
+        census_acs_median_incomes_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def cdc_life_expectancy_df():
+    cdc_life_expectancy_csv = (
+        constants.DATA_PATH / "dataset" / "cdc_life_expectancy" / "usa.csv"
+    )
+    return pd.read_csv(
+        cdc_life_expectancy_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def doe_energy_burden_df():
+    doe_energy_burden_csv = (
+        constants.DATA_PATH / "dataset" / "doe_energy_burden" / "usa.csv"
+    )
+    return pd.read_csv(
+        doe_energy_burden_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def national_risk_index_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "national_risk_index" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def dot_travel_disadvantage_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "travel_composite" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def fsf_fire_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "fsf_wildfire_risk" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def fsf_flood_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "fsf_flood_risk" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def nature_deprived_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "nlcd_nature_deprived" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def eamlis_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "eamlis" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def fuds_df():
+    return pd.read_csv(
+        constants.DATA_PATH / "dataset" / "us_army_fuds" / "usa.csv",
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def geocorr_urban_rural_df():
+    geocorr_urban_rural_csv = (
+        constants.DATA_PATH / "dataset" / "geocorr" / "usa.csv"
+    )
+    return pd.read_csv(
+        geocorr_urban_rural_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def census_decennial_df():
+    census_decennial_csv = (
+        constants.DATA_PATH / "dataset" / "census_decennial_2010" / "usa.csv"
+    )
+    return pd.read_csv(
+        census_decennial_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def census_2010_df():
+    census_2010_csv = (
+        constants.DATA_PATH / "dataset" / "census_acs_2010" / "usa.csv"
+    )
+    return pd.read_csv(
+        census_2010_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def hrs_df():
+    hrs_csv = constants.DATA_PATH / "dataset" / "historic_redlining" / "usa.csv"
+
+    return pd.read_csv(
+        hrs_csv,
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
+        low_memory=False,
+    )
+
+
+@pytest.fixture()
+def national_tract_df():
+    national_tract_csv = constants.DATA_CENSUS_CSV_FILE_PATH
+    return pd.read_csv(
+        national_tract_csv,
+        names=[GEOID_TRACT_FIELD_NAME],
+        dtype={GEOID_TRACT_FIELD_NAME: "string"},
         low_memory=False,
+        header=None,
     )
diff --git a/data/data-pipeline/data_pipeline/tests/score/test_calculation.py b/data/data-pipeline/data_pipeline/tests/score/test_calculation.py
@@ -28,7 +28,6 @@ def full_percentile_column_name(self):
         return self.percentile_column_name
 
 
-### TODO: we need to blow this out for all eight categories
 def _check_percentile_against_threshold(df, config: PercentileTestConfig):
     """Note - for the purpose of testing, this fills with False"""
     is_minimum_flagged_ok = (