move algorithm name definition to concrete chunker class

Signed-off-by: yuye-aws <[email protected]>
yuye-aws · Mar 13, 2024 · 906cf73 · 906cf73
1 parent 959c64e
commit 906cf73
Show file tree

Hide file tree

Showing 7 changed files with 23 additions and 28 deletions.
diff --git a/src/main/java/org/opensearch/neuralsearch/processor/TextChunkingProcessor.java b/src/main/java/org/opensearch/neuralsearch/processor/TextChunkingProcessor.java
@@ -30,8 +30,6 @@
 import org.opensearch.index.mapper.IndexFieldMapper;
 import org.opensearch.neuralsearch.processor.chunker.FixedTokenLengthChunker;
 
-import static org.opensearch.neuralsearch.processor.chunker.ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM;
-
 /**
  * This processor is used for chunking user input data and chunked data could be used for downstream embedding processor,
  * algorithm can be used to indicate chunking algorithm and parameters,
@@ -111,7 +109,7 @@ private void validateAndParseAlgorithmMap(Map<String, Object> algorithmMap) {
             );
         }
         Map<String, Object> chunkerParameters = (Map<String, Object>) algorithmValue;
-        if (Objects.equals(algorithmKey, FIXED_TOKEN_LENGTH_ALGORITHM)) {
+        if (Objects.equals(algorithmKey, FixedTokenLengthChunker.ALGORITHM_NAME)) {
             chunkerParameters.put(FixedTokenLengthChunker.ANALYSIS_REGISTRY_FIELD, analysisRegistry);
         }
         this.chunker = ChunkerFactory.create(algorithmKey, chunkerParameters);

diff --git a/src/main/java/org/opensearch/neuralsearch/processor/chunker/ChunkerFactory.java b/src/main/java/org/opensearch/neuralsearch/processor/chunker/ChunkerFactory.java
@@ -12,14 +12,11 @@
  */
 public class ChunkerFactory {
 
-    public static final String FIXED_TOKEN_LENGTH_ALGORITHM = "fixed_token_length";
-    public static final String DELIMITER_ALGORITHM = "delimiter";
-
     public static Chunker create(String type, Map<String, Object> parameters) {
         switch (type) {
-            case FIXED_TOKEN_LENGTH_ALGORITHM:
+            case FixedTokenLengthChunker.ALGORITHM_NAME:
                 return new FixedTokenLengthChunker(parameters);
-            case DELIMITER_ALGORITHM:
+            case DelimiterChunker.ALGORITHM_NAME:
                 return new DelimiterChunker(parameters);
             default:
                 throw new IllegalArgumentException(
@@ -29,6 +26,6 @@ public static Chunker create(String type, Map<String, Object> parameters) {
     }
 
     public static Set<String> getAllChunkers() {
-        return Set.of(FIXED_TOKEN_LENGTH_ALGORITHM, DELIMITER_ALGORITHM);
+        return Set.of(FixedTokenLengthChunker.ALGORITHM_NAME, DelimiterChunker.ALGORITHM_NAME);
     }
 }
diff --git a/src/main/java/org/opensearch/neuralsearch/processor/chunker/DelimiterChunker.java b/src/main/java/org/opensearch/neuralsearch/processor/chunker/DelimiterChunker.java
@@ -15,16 +15,16 @@
  */
 public class DelimiterChunker implements Chunker {
 
-    public DelimiterChunker(Map<String, Object> parameters) {
-        validateAndParseParameters(parameters);
-    }
-
+    public static final String ALGORITHM_NAME = "delimiter";
     public static final String DELIMITER_FIELD = "delimiter";
-
     public static final String DEFAULT_DELIMITER = "\n\n";
 
     private String delimiter;
 
+    public DelimiterChunker(Map<String, Object> parameters) {
+        validateAndParseParameters(parameters);
+    }
+
     /**
      * Validate the chunked passages for delimiter algorithm
      *

diff --git a/src/main/java/org/opensearch/neuralsearch/processor/chunker/FixedTokenLengthChunker.java b/src/main/java/org/opensearch/neuralsearch/processor/chunker/FixedTokenLengthChunker.java
@@ -22,6 +22,7 @@
  */
 public class FixedTokenLengthChunker implements Chunker {
 
+    public static final String ALGORITHM_NAME = "fixed_token_length";
     public static final String ANALYSIS_REGISTRY_FIELD = "analysis_registry";
     public static final String TOKEN_LIMIT_FIELD = "token_limit";
     public static final String OVERLAP_RATE_FIELD = "overlap_rate";

diff --git a/src/test/java/org/opensearch/neuralsearch/processor/TextChunkingProcessorTests.java b/src/test/java/org/opensearch/neuralsearch/processor/TextChunkingProcessorTests.java
@@ -31,7 +31,6 @@
 import org.opensearch.indices.analysis.AnalysisModule;
 import org.opensearch.ingest.IngestDocument;
 import org.opensearch.ingest.Processor;
-import org.opensearch.neuralsearch.processor.chunker.ChunkerFactory;
 import org.opensearch.neuralsearch.processor.chunker.DelimiterChunker;
 import org.opensearch.neuralsearch.processor.chunker.FixedTokenLengthChunker;
 import org.opensearch.neuralsearch.processor.factory.TextChunkingProcessorFactory;
@@ -128,7 +127,7 @@ private Map<String, Object> createNestedFieldMap() {
     private TextChunkingProcessor createFixedTokenLengthInstance(Map<String, Object> fieldMap) {
         Map<String, Object> config = new HashMap<>();
         Map<String, Object> algorithmMap = new HashMap<>();
-        algorithmMap.put(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, createFixedTokenLengthParameters());
+        algorithmMap.put(FixedTokenLengthChunker.ALGORITHM_NAME, createFixedTokenLengthParameters());
         config.put(FIELD_MAP_FIELD, fieldMap);
         config.put(ALGORITHM_FIELD, algorithmMap);
         Map<String, Processor.Factory> registry = new HashMap<>();
@@ -139,7 +138,7 @@ private TextChunkingProcessor createFixedTokenLengthInstance(Map<String, Object>
     private TextChunkingProcessor createFixedTokenLengthInstanceWithMaxChunkNum(Map<String, Object> fieldMap, int maxChunkNum) {
         Map<String, Object> config = new HashMap<>();
         Map<String, Object> algorithmMap = new HashMap<>();
-        algorithmMap.put(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, createFixedTokenLengthParametersWithMaxChunk(maxChunkNum));
+        algorithmMap.put(FixedTokenLengthChunker.ALGORITHM_NAME, createFixedTokenLengthParametersWithMaxChunk(maxChunkNum));
         config.put(FIELD_MAP_FIELD, fieldMap);
         config.put(ALGORITHM_FIELD, algorithmMap);
         Map<String, Processor.Factory> registry = new HashMap<>();
@@ -151,7 +150,7 @@ private TextChunkingProcessor createDelimiterInstance() {
         Map<String, Object> config = new HashMap<>();
         Map<String, Object> fieldMap = new HashMap<>();
         Map<String, Object> algorithmMap = new HashMap<>();
-        algorithmMap.put(ChunkerFactory.DELIMITER_ALGORITHM, createDelimiterParameters());
+        algorithmMap.put(DelimiterChunker.ALGORITHM_NAME, createDelimiterParameters());
         fieldMap.put(INPUT_FIELD, OUTPUT_FIELD);
         config.put(FIELD_MAP_FIELD, fieldMap);
         config.put(ALGORITHM_FIELD, algorithmMap);
@@ -178,7 +177,7 @@ public void testCreate_whenMaxChunkNumInvalidValue_thenFail() {
         Map<String, Object> fieldMap = new HashMap<>();
         Map<String, Object> algorithmMap = new HashMap<>();
         fieldMap.put(INPUT_FIELD, OUTPUT_FIELD);
-        algorithmMap.put(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, createFixedTokenLengthParametersWithMaxChunk(-2));
+        algorithmMap.put(FixedTokenLengthChunker.ALGORITHM_NAME, createFixedTokenLengthParametersWithMaxChunk(-2));
         config.put(FIELD_MAP_FIELD, fieldMap);
         config.put(ALGORITHM_FIELD, algorithmMap);
         IllegalArgumentException illegalArgumentException = assertThrows(
@@ -213,8 +212,8 @@ public void testCreate_whenAlgorithmFieldMultipleAlgorithm_thenFail() {
         Map<String, Object> algorithmMap = new HashMap<>();
         fieldMap.put(INPUT_FIELD, OUTPUT_FIELD);
         config.put(TextChunkingProcessor.FIELD_MAP_FIELD, fieldMap);
-        algorithmMap.put(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, createFixedTokenLengthParameters());
-        algorithmMap.put(ChunkerFactory.DELIMITER_ALGORITHM, createDelimiterParameters());
+        algorithmMap.put(FixedTokenLengthChunker.ALGORITHM_NAME, createFixedTokenLengthParameters());
+        algorithmMap.put(DelimiterChunker.ALGORITHM_NAME, createDelimiterParameters());
         config.put(ALGORITHM_FIELD, algorithmMap);
         Map<String, Processor.Factory> registry = new HashMap<>();
         IllegalArgumentException illegalArgumentException = assertThrows(
@@ -251,7 +250,7 @@ public void testCreate_whenAlgorithmFieldInvalidAlgorithmContent_thenFail() {
         Map<String, Object> algorithmMap = new HashMap<>();
         fieldMap.put(INPUT_FIELD, OUTPUT_FIELD);
         config.put(TextChunkingProcessor.FIELD_MAP_FIELD, fieldMap);
-        algorithmMap.put(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, 1);
+        algorithmMap.put(FixedTokenLengthChunker.ALGORITHM_NAME, 1);
         config.put(ALGORITHM_FIELD, algorithmMap);
         Map<String, Processor.Factory> registry = new HashMap<>();
         IllegalArgumentException illegalArgumentException = assertThrows(
@@ -260,7 +259,7 @@ public void testCreate_whenAlgorithmFieldInvalidAlgorithmContent_thenFail() {
         );
         assertEquals(
             "Unable to create the processor as ["
-                + ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM
+                + FixedTokenLengthChunker.ALGORITHM_NAME
                 + "] parameters cannot be cast to ["
                 + Map.class.getName()
                 + "]",

diff --git a/src/test/java/org/opensearch/neuralsearch/processor/chunker/ChunkerFactoryTests.java b/src/test/java/org/opensearch/neuralsearch/processor/chunker/ChunkerFactoryTests.java
@@ -20,18 +20,18 @@ public class ChunkerFactoryTests extends OpenSearchTestCase {
     private AnalysisRegistry analysisRegistry;
 
     public void testGetAllChunkers() {
-        Set<String> expected = Set.of(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, ChunkerFactory.DELIMITER_ALGORITHM);
+        Set<String> expected = Set.of(FixedTokenLengthChunker.ALGORITHM_NAME, DelimiterChunker.ALGORITHM_NAME);
         assertEquals(expected, ChunkerFactory.getAllChunkers());
     }
 
     public void testCreate_FixedTokenLength() {
-        Chunker chunker = ChunkerFactory.create(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, createChunkParameters());
+        Chunker chunker = ChunkerFactory.create(FixedTokenLengthChunker.ALGORITHM_NAME, createChunkParameters());
         assertNotNull(chunker);
         assertTrue(chunker instanceof FixedTokenLengthChunker);
     }
 
     public void testCreate_Delimiter() {
-        Chunker chunker = ChunkerFactory.create(ChunkerFactory.DELIMITER_ALGORITHM, createChunkParameters());
+        Chunker chunker = ChunkerFactory.create(DelimiterChunker.ALGORITHM_NAME, createChunkParameters());
         assertNotNull(chunker);
         assertTrue(chunker instanceof DelimiterChunker);
     }

diff --git a/...java/org/opensearch/neuralsearch/processor/factory/TextChunkingProcessorFactoryTests.java b/...java/org/opensearch/neuralsearch/processor/factory/TextChunkingProcessorFactoryTests.java
@@ -23,7 +23,7 @@
 import org.opensearch.indices.analysis.AnalysisModule;
 import org.opensearch.ingest.Processor;
 import org.opensearch.neuralsearch.processor.TextChunkingProcessor;
-import org.opensearch.neuralsearch.processor.chunker.ChunkerFactory;
+import org.opensearch.neuralsearch.processor.chunker.FixedTokenLengthChunker;
 import org.opensearch.plugins.AnalysisPlugin;
 import org.opensearch.test.OpenSearchTestCase;
 import static org.opensearch.neuralsearch.processor.TextChunkingProcessor.TYPE;
@@ -34,7 +34,7 @@ public class TextChunkingProcessorFactoryTests extends OpenSearchTestCase {
 
     private static final String PROCESSOR_TAG = "mockTag";
     private static final String DESCRIPTION = "mockDescription";
-    private static final Map<String, Object> algorithmMap = Map.of(ChunkerFactory.FIXED_TOKEN_LENGTH_ALGORITHM, new HashMap<>());
+    private static final Map<String, Object> algorithmMap = Map.of(FixedTokenLengthChunker.ALGORITHM_NAME, new HashMap<>());
 
     private TextChunkingProcessorFactory textChunkingProcessorFactory;