feat(bedrock): implement new data source structure (#668)

* feat(bedrock): add data source implementation and new chuncking strategies --------- Co-authored-by: Alain Krok <[email protected]>
awslabs · Sep 25, 2024 · 04e1efb · 04e1efb
1 parent a686a3e
commit 04e1efb
Show file tree

Hide file tree

Showing 69 changed files with 9,920 additions and 639 deletions.
diff --git a/.gitignore b/.gitignore
diff --git a/.npmignore b/.npmignore
diff --git a/.projen/tasks.json b/.projen/tasks.json
diff --git a/apidocs/namespaces/bedrock/README.md b/apidocs/namespaces/bedrock/README.md
@@ -11,8 +11,12 @@
 ### Enumerations
 
 - [CanadaSpecific](enumerations/CanadaSpecific.md)
-- [ChunkingStrategy](enumerations/ChunkingStrategy.md)
+- [ConfluenceDataSourceAuthType](enumerations/ConfluenceDataSourceAuthType.md)
+- [ConfluenceObjectType](enumerations/ConfluenceObjectType.md)
 - [ContextualGroundingFilterConfigType](enumerations/ContextualGroundingFilterConfigType.md)
+- [CrawlingScope](enumerations/CrawlingScope.md)
+- [DataDeletionPolicy](enumerations/DataDeletionPolicy.md)
+- [DataSourceType](enumerations/DataSourceType.md)
 - [FiltersConfigStrength](enumerations/FiltersConfigStrength.md)
 - [FiltersConfigType](enumerations/FiltersConfigType.md)
 - [Finance](enumerations/Finance.md)
@@ -24,6 +28,11 @@
 - [PromptState](enumerations/PromptState.md)
 - [PromptTemplateType](enumerations/PromptTemplateType.md)
 - [PromptType](enumerations/PromptType.md)
+- [SalesforceDataSourceAuthType](enumerations/SalesforceDataSourceAuthType.md)
+- [SalesforceObjectType](enumerations/SalesforceObjectType.md)
+- [SharePointDataSourceAuthType](enumerations/SharePointDataSourceAuthType.md)
+- [SharePointObjectType](enumerations/SharePointObjectType.md)
+- [TransformationStep](enumerations/TransformationStep.md)
 - [UKSpecific](enumerations/UKSpecific.md)
 - [USASpecific](enumerations/USASpecific.md)
 
@@ -34,18 +43,28 @@
 - [AgentAlias](classes/AgentAlias.md)
 - [ApiSchema](classes/ApiSchema.md)
 - [BedrockFoundationModel](classes/BedrockFoundationModel.md)
+- [ChunkingStrategy](classes/ChunkingStrategy.md)
+- [ConfluenceDataSource](classes/ConfluenceDataSource.md)
 - [ContentPolicyConfig](classes/ContentPolicyConfig.md)
+- [CustomTransformation](classes/CustomTransformation.md)
+- [DataSource](classes/DataSource.md)
+- [DataSourceBase](classes/DataSourceBase.md)
+- [DataSourceNew](classes/DataSourceNew.md)
 - [Guardrail](classes/Guardrail.md)
 - [GuardrailVersion](classes/GuardrailVersion.md)
 - [InlineApiSchema](classes/InlineApiSchema.md)
 - [KnowledgeBase](classes/KnowledgeBase.md)
+- [ParsingStategy](classes/ParsingStategy.md)
 - [Prompt](classes/Prompt.md)
 - [PromptVariant](classes/PromptVariant.md)
 - [PromptVersion](classes/PromptVersion.md)
 - [S3ApiSchema](classes/S3ApiSchema.md)
 - [S3DataSource](classes/S3DataSource.md)
+- [SalesforceDataSource](classes/SalesforceDataSource.md)
 - [SensitiveInformationPolicyConfig](classes/SensitiveInformationPolicyConfig.md)
+- [SharePointDataSource](classes/SharePointDataSource.md)
 - [Topic](classes/Topic.md)
+- [WebCrawlerDataSource](classes/WebCrawlerDataSource.md)
 
 ### Interfaces
 
@@ -57,23 +76,43 @@
 - [ApiSchemaConfig](interfaces/ApiSchemaConfig.md)
 - [BedrockFoundationModelProps](interfaces/BedrockFoundationModelProps.md)
 - [CommonPromptVariantProps](interfaces/CommonPromptVariantProps.md)
+- [ConfluenceCrawlingFilters](interfaces/ConfluenceCrawlingFilters.md)
+- [ConfluenceDataSourceAssociationProps](interfaces/ConfluenceDataSourceAssociationProps.md)
+- [ConfluenceDataSourceProps](interfaces/ConfluenceDataSourceProps.md)
 - [ContentPolicyConfigProps](interfaces/ContentPolicyConfigProps.md)
 - [ContextualGroundingPolicyConfigProps](interfaces/ContextualGroundingPolicyConfigProps.md)
+- [CrawlingFilters](interfaces/CrawlingFilters.md)
+- [DataSourceAssociationProps](interfaces/DataSourceAssociationProps.md)
+- [FoundationModelParsingStategyProps](interfaces/FoundationModelParsingStategyProps.md)
 - [GuardrailConfiguration](interfaces/GuardrailConfiguration.md)
 - [GuardrailProps](interfaces/GuardrailProps.md)
+- [HierarchicalChunkingProps](interfaces/HierarchicalChunkingProps.md)
 - [IAgentAlias](interfaces/IAgentAlias.md)
+- [IDataSource](interfaces/IDataSource.md)
+- [IKnowledgeBase](interfaces/IKnowledgeBase.md)
 - [InferenceConfiguration](interfaces/InferenceConfiguration.md)
 - [IPrompt](interfaces/IPrompt.md)
+- [KnowledgeBaseAttributes](interfaces/KnowledgeBaseAttributes.md)
 - [KnowledgeBaseProps](interfaces/KnowledgeBaseProps.md)
+- [LambdaCustomTransformationProps](interfaces/LambdaCustomTransformationProps.md)
 - [PromptConfiguration](interfaces/PromptConfiguration.md)
 - [PromptOverrideConfiguration](interfaces/PromptOverrideConfiguration.md)
 - [PromptProps](interfaces/PromptProps.md)
 - [PromptVersionProps](interfaces/PromptVersionProps.md)
+- [S3DataSourceAssociationProps](interfaces/S3DataSourceAssociationProps.md)
 - [S3DataSourceProps](interfaces/S3DataSourceProps.md)
 - [S3Identifier](interfaces/S3Identifier.md)
+- [SalesforceCrawlingFilters](interfaces/SalesforceCrawlingFilters.md)
+- [SalesforceDataSourceAssociationProps](interfaces/SalesforceDataSourceAssociationProps.md)
+- [SalesforceDataSourceProps](interfaces/SalesforceDataSourceProps.md)
 - [SensitiveInformationPolicyConfigProps](interfaces/SensitiveInformationPolicyConfigProps.md)
+- [SharePointCrawlingFilters](interfaces/SharePointCrawlingFilters.md)
+- [SharePointDataSourceAssociationProps](interfaces/SharePointDataSourceAssociationProps.md)
+- [SharePointDataSourceProps](interfaces/SharePointDataSourceProps.md)
 - [TextPromptVariantProps](interfaces/TextPromptVariantProps.md)
 - [TopicProps](interfaces/TopicProps.md)
+- [WebCrawlerDataSourceAssociationProps](interfaces/WebCrawlerDataSourceAssociationProps.md)
+- [WebCrawlerDataSourceProps](interfaces/WebCrawlerDataSourceProps.md)
 
 ### Functions
 

diff --git a/apidocs/namespaces/bedrock/classes/ChunkingStrategy.md b/apidocs/namespaces/bedrock/classes/ChunkingStrategy.md
@@ -0,0 +1,129 @@
+[**@cdklabs/generative-ai-cdk-constructs**](../../../README.md) • **Docs**
+
+***
+
+[@cdklabs/generative-ai-cdk-constructs](../../../README.md) / [bedrock](../README.md) / ChunkingStrategy
+
+# Class: `abstract` ChunkingStrategy
+
+## Properties
+
+### configuration
+
+> `abstract` **configuration**: `ChunkingConfigurationProperty`
+
+The CloudFormation property representation of this configuration
+
+***
+
+### DEFAULT
+
+> `readonly` `static` **DEFAULT**: [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Fixed Sized Chunking with the default chunk size of 300 tokens and 20% overlap.
+
+***
+
+### FIXED\_SIZE
+
+> `readonly` `static` **FIXED\_SIZE**: [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Fixed Sized Chunking with the default chunk size of 300 tokens and 20% overlap.
+You can adjust these values based on your specific requirements using the
+`ChunkingStrategy.fixedSize(params)` method.
+
+***
+
+### HIERARCHICAL\_COHERE
+
+> `readonly` `static` **HIERARCHICAL\_COHERE**: [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Hierarchical Chunking with the default for Cohere Models.
+- Overlap tokens: 30
+- Max parent token size: 500
+- Max child token size: 100
+
+***
+
+### HIERARCHICAL\_TITAN
+
+> `readonly` `static` **HIERARCHICAL\_TITAN**: [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Hierarchical Chunking with the default for Titan Models.
+- Overlap tokens: 60
+- Max parent token size: 1500
+- Max child token size: 300
+
+***
+
+### NONE
+
+> `readonly` `static` **NONE**: [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Amazon Bedrock treats each file as one chunk. Suitable for documents that
+are already pre-processed or text split.
+
+***
+
+### SEMANTIC
+
+> `readonly` `static` **SEMANTIC**: [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Semantic Chunking with the default of bufferSize: 0,
+breakpointPercentileThreshold: 95, and maxTokens: 300.
+You can adjust these values based on your specific requirements using the
+`ChunkingStrategy.semantic(params)` method.
+
+## Methods
+
+### fixedSize()
+
+> `static` **fixedSize**(`props`): [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Method for customizing a fixed sized chunking strategy.
+
+#### Parameters
+
+• **props**: `FixedSizeChunkingConfigurationProperty`
+
+#### Returns
+
+[`ChunkingStrategy`](ChunkingStrategy.md)
+
+***
+
+### hierarchical()
+
+> `static` **hierarchical**(`props`): [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Method for customizing a hierarchical chunking strategy.
+For custom chunking, the maximum token chunk size depends on the model.
+- Amazon Titan Text Embeddings: 8192
+- Cohere Embed models: 512
+
+#### Parameters
+
+• **props**: [`HierarchicalChunkingProps`](../interfaces/HierarchicalChunkingProps.md)
+
+#### Returns
+
+[`ChunkingStrategy`](ChunkingStrategy.md)
+
+***
+
+### semantic()
+
+> `static` **semantic**(`props`): [`ChunkingStrategy`](ChunkingStrategy.md)
+
+Method for customizing a semantic chunking strategy.
+For custom chunking, the maximum token chunk size depends on the model.
+- Amazon Titan Text Embeddings: 8192
+- Cohere Embed models: 512
+
+#### Parameters
+
+• **props**: `SemanticChunkingConfigurationProperty`
+
+#### Returns
+
+[`ChunkingStrategy`](ChunkingStrategy.md)