Confluence Datasource

This module contains functionality related to the Confluence datasource.

Client

`ConfluenceClientFactory`

Bases: SingletonFactory

Factory for creating and managing Confluence client instances.

This factory ensures only one Confluence client is created per configuration, following the singleton pattern provided by the parent SingletonFactory class.

Source code in src/extraction/datasources/confluence/client.py

class ConfluenceClientFactory(SingletonFactory):
    """
    Factory for creating and managing Confluence client instances.

    This factory ensures only one Confluence client is created per configuration,
    following the singleton pattern provided by the parent SingletonFactory class.
    """

    _configuration_class: Type = ConfluenceDatasourceConfiguration

    @classmethod
    def _create_instance(
        cls, configuration: ConfluenceDatasourceConfiguration
    ) -> Confluence:
        """
        Creates a new Confluence client instance using the provided configuration.

        Args:
            configuration: Configuration object containing Confluence connection details
                          including base URL, username, and password.

        Returns:
            A configured Confluence client instance ready for API interactions.
        """
        return Confluence(
            url=configuration.base_url,
            username=configuration.secrets.username.get_secret_value(),
            password=configuration.secrets.password.get_secret_value(),
        )

Configuration

`ConfluenceDatasourceConfiguration`

Bases: DatasourceConfiguration

Source code in src/extraction/datasources/confluence/configuration.py

class ConfluenceDatasourceConfiguration(DatasourceConfiguration):
    class Secrets(BaseSecrets):
        model_config = ConfigDict(
            env_file_encoding="utf-8",
            env_prefix="RAG__DATASOURCES__CONFLUENCE__",
            env_nested_delimiter="__",
            extra="ignore",
        )

        username: SecretStr = Field(
            ...,
            description="Username credential used to authenticate with the Confluence instance",
        )
        password: SecretStr = Field(
            ...,
            description="Password credential used to authenticate with the Confluence instance",
        )

    host: str = Field(
        "127.0.0.1",
        description="Hostname or IP address of the Confluence server instance",
    )
    protocol: Union[Literal["http"], Literal["https"]] = Field(
        "http",
        description="Communication protocol used to connect to the Confluence server",
    )
    name: Literal[DatasourceName.CONFLUENCE] = Field(
        ...,
        description="Identifier specifying this configuration is for a Confluence datasource",
    )
    secrets: Secrets = Field(
        None,
        description="Authentication credentials required to access the Confluence instance",
    )

    @property
    def base_url(self) -> str:
        """
        Constructs the complete base URL for the Confluence API from the protocol and host.

        Returns:
            str: The fully formed base URL to the Confluence instance
        """
        return f"{self.protocol}://{self.host}"

`base_url` `property`

Constructs the complete base URL for the Confluence API from the protocol and host.

Returns:	`str`( `str` ) – The fully formed base URL to the Confluence instance

Document

`ConfluenceDocument`

Bases: BaseDocument

Document representation for Confluence page content.

Extends BaseDocument to handle Confluence-specific document processing including content extraction, metadata handling, and exclusion configuration.

Source code in src/extraction/datasources/confluence/document.py

class ConfluenceDocument(BaseDocument):
    """Document representation for Confluence page content.

    Extends BaseDocument to handle Confluence-specific document processing including
    content extraction, metadata handling, and exclusion configuration.
    """

    pass

Manager

`ConfluenceDatasourceManagerFactory`

Bases: Factory

Factory for creating Confluence datasource managers.

This factory generates managers that handle the extraction of content from Confluence instances. It ensures proper configuration, reading, and parsing of Confluence content.

Attributes:	`_configuration_class` (`Type`) – Configuration class used for validating and processing Confluence-specific settings.

Source code in src/extraction/datasources/confluence/manager.py

class ConfluenceDatasourceManagerFactory(Factory):
    """Factory for creating Confluence datasource managers.

    This factory generates managers that handle the extraction of content from
    Confluence instances. It ensures proper configuration, reading, and parsing
    of Confluence content.

    Attributes:
        _configuration_class: Configuration class used for validating and processing
            Confluence-specific settings.
    """

    _configuration_class: Type = ConfluenceDatasourceConfiguration

    @classmethod
    def _create_instance(
        cls, configuration: ConfluenceDatasourceConfiguration
    ) -> BasicDatasourceManager:
        """Create a configured Confluence datasource manager.

        Sets up the necessary reader and parser components based on the provided
        configuration and assembles them into a functional manager.

        Args:
            configuration: Configuration object containing Confluence-specific
                parameters including authentication details, spaces to extract,
                and other extraction options.

        Returns:
            A fully initialized datasource manager that can extract and process
            data from Confluence.
        """
        reader = ConfluenceDatasourceReaderFactory.create(configuration)
        parser = ConfluenceDatasourceParserFactory.create(configuration)
        return BasicDatasourceManager(configuration, reader, parser)

Parser

`ConfluenceDatasourceParser`

Bases: BaseParser[ConfluenceDocument]

Source code in src/extraction/datasources/confluence/parser.py

class ConfluenceDatasourceParser(BaseParser[ConfluenceDocument]):

    def __init__(
        self,
        configuration: ConfluenceDatasourceConfiguration,
        parser: MarkItDown = MarkItDown(),
    ):
        """Initialize the Confluence parser with the provided configuration.

        Args:
            configuration: Configuration object containing Confluence connection details
            parser: MarkItDown instance for converting HTML to markdown
        """
        self.configuration = configuration
        self.parser = parser

    def parse(self, page: ConfluencePage) -> ConfluenceDocument:
        """Parse a Confluence page into a document.

        Args:
            page: Confluence page details

        Returns:
            ConfluenceDocument: Parsed document with extracted text and metadata
        """
        markdown = self._get_page_markdown(page)
        metadata = self._extract_metadata(page, self.configuration.base_url)
        return ConfluenceDocument(text=markdown, metadata=metadata)

    def _get_page_markdown(self, page: ConfluencePage) -> str:
        """Extract markdown content from a Confluence page. Because of MarkItDown,
        we need to write the HTML content to a temporary file and then convert it to markdown.

        Args:
            page: Confluence page details

        Returns:
            str: Markdown content of the page
        """
        html_content = page.body.view.value
        if not html_content:
            return ""

        with tempfile.NamedTemporaryFile(mode="w", suffix=".html") as temp_file:
            temp_file.write(html_content)
            temp_file.flush()
            return self.parser.convert(
                temp_file.name, file_extension=".html"
            ).text_content

    @staticmethod
    def _extract_metadata(page: ConfluencePage, base_url: str) -> dict:
        """Extract and format page metadata.

        Args:
            page: Confluence page details
            base_url: Base URL of the Confluence instance

        Returns:
            dict: Structured metadata including dates, IDs, and URLs
        """
        return {
            "created_time": page.history.createdDate,
            "created_date": page.history.createdDate.split("T")[0],
            "datasource": "confluence",
            "format": "md",
            "last_edited_date": page.history.lastUpdated.when,
            "last_edited_time": page.history.lastUpdated.when.split("T")[0],
            "page_id": page.id,
            "space": page.expandable["space"].split("/")[-1],
            "title": page.title,
            "type": "page",
            "url": base_url + page.links.webui,
        }

`init(configuration, parser=MarkItDown())`

Initialize the Confluence parser with the provided configuration.

Parameters:	`configuration` (`ConfluenceDatasourceConfiguration`) – Configuration object containing Confluence connection details `parser` (`MarkItDown`, default: `MarkItDown()` ) – MarkItDown instance for converting HTML to markdown

Source code in src/extraction/datasources/confluence/parser.py

def __init__(
    self,
    configuration: ConfluenceDatasourceConfiguration,
    parser: MarkItDown = MarkItDown(),
):
    """Initialize the Confluence parser with the provided configuration.

    Args:
        configuration: Configuration object containing Confluence connection details
        parser: MarkItDown instance for converting HTML to markdown
    """
    self.configuration = configuration
    self.parser = parser

`parse(page)`

Parse a Confluence page into a document.

Parameters:	`page` (`ConfluencePage`) – Confluence page details

Returns:	`ConfluenceDocument`( `ConfluenceDocument` ) – Parsed document with extracted text and metadata

Source code in src/extraction/datasources/confluence/parser.py

def parse(self, page: ConfluencePage) -> ConfluenceDocument:
    """Parse a Confluence page into a document.

    Args:
        page: Confluence page details

    Returns:
        ConfluenceDocument: Parsed document with extracted text and metadata
    """
    markdown = self._get_page_markdown(page)
    metadata = self._extract_metadata(page, self.configuration.base_url)
    return ConfluenceDocument(text=markdown, metadata=metadata)

`ConfluenceDatasourceParserFactory`

Bases: Factory

Source code in src/extraction/datasources/confluence/parser.py

class ConfluenceDatasourceParserFactory(Factory):
    _configuration_class: Type = ConfluenceDatasourceConfiguration

    @classmethod
    def _create_instance(
        cls, configuration: ConfluenceDatasourceConfiguration
    ) -> ConfluenceDatasourceParser:
        """Creates a Confluence parser instance.

        Args:
            configuration: Configuration object containing Confluence connection details

        Returns:
            ConfluenceDatasourceParser: Configured Confluence parser instance
        """
        return ConfluenceDatasourceParser(configuration)

Reader