{"id":47559,"date":"2023-12-01T16:43:18","date_gmt":"2023-12-01T15:43:18","guid":{"rendered":"http:\/\/54.194.80.134.nip.io\/?p=47559"},"modified":"2024-08-08T18:24:59","modified_gmt":"2024-08-08T16:24:59","slug":"sap-integration-in-azure-data-factory-mittels-cdc","status":"publish","type":"post","link":"https:\/\/www.cubeserv.com\/de\/sap-integration-in-azure-data-factory-mittels-cdc\/","title":{"rendered":"SAP Integration in Azure Data Factory mit CDC"},"content":{"rendered":"\t\t
Die Azure Data Factory ist ein cloudbasierter, codefreier ETL- und Datenintegrationsservice von Microsoft, der als Platform-as-a-Service (PaaS) fungiert. Ihr Schwerpunkt liegt auf der nahtlosen Integration von Daten aus vielf\u00e4ltigen Quellen in einem zentralisierten Datenspeicher in der Cloud. Dies erm\u00f6glicht eine effiziente Verwaltung und Analyse der Daten, unabh\u00e4ngig von ihrer Herkunft. Die codefreie Natur des Services erleichtert die Entwicklung und Wartung von Datenpipelines erheblich.<\/p>
Ein zentraler Aspekt von Azure Data Factory ist die Zusammenf\u00fchrung von strukturierten und unstrukturierten Daten in einem zentralen Speicher, wodurch die Konsolidierung und Vereinheitlichung erleichtert wird. Durch die Integration mit verschiedenen Cloud-Compute-Services erm\u00f6glicht der Service eine flexible und skalierbare Datenverarbeitung. Diese Services werden genutzt, um Transformationen und Analysen auszuf\u00fchren, was eine optimale Leistung und Skalierbarkeit gew\u00e4hrleistet.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t
Die Azure Data Factory kann mehrere Pipelines haben, die logische Gruppierungen von Aktivit\u00e4ten darstellen. Eine Pipeline fasst Aktivit\u00e4ten zusammen, die gemeinsam eine Aufgabe erf\u00fcllen, beispielsweise das Kopieren von Daten von einem SQL Server nach Azure Blob Storage und deren Verarbeitung mit einem Hive-Skript auf einem Azure HDInsight-Cluster. Datasets sind benannte Ansichten von Daten, die auf die in Aktivit\u00e4ten verwendeten Ein- und Ausgabedaten verweisen. Vor der Erstellung eines Datasets muss ein Linked Service erstellt werden, der die Verbindungsinformationen zu externen Ressourcen definiert. Ein Azure Storage Linked Service verkn\u00fcpft beispielsweise ein Speicherkonto, w\u00e4hrend ein Azure Blob Dataset den Blob-Container und Ordner innerhalb dieses Kontos repr\u00e4sentiert, in dem Eingabe-Blobs f\u00fcr die Verarbeitung liegen. Linked Services sind somit Schl\u00fcssel f\u00fcr die Verbindung zwischen der Data Factory und externen Datenspeichern.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t In einem Datenintegrations-Szenario aus SAP- und Non-SAP-Systemen bietet ein modernes Data Warehouse als Lakehouse eine effiziente L\u00f6sung.<\/p> Die M\u00f6glichkeit eines Pushbacks in SAP BW erm\u00f6glicht weiteres Verkn\u00fcpfen und Reporting. F\u00fcr die Anbindung von SAP-Systemen an die Azure Data Factory stehen verschiedene Konnektoren zur Verf\u00fcgung. Die folgende Tabelle bietet einen \u00dcberblick \u00fcber diese.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Viele der Konnektoren haben einige Einschr\u00e4nkungen. Darunter fallen Limitierungen in der Funktionalit\u00e4t, der Anzahl unterst\u00fctzter Objekte oder der Performance. Allerdings bietet nur der SAP CDC Konnektor die M\u00f6glichkeit, einen vollwertigen Delta-Load zu realisieren.<\/p> Das macht den gerade erw\u00e4hnten SAP CDC Konnektor besonders interessant, da er auf das Operational Data Provisioning-Framework (ODP) zugreift und somit komplett neue Einsatzzwecke erlaubt.<\/p> Im Folgenden werden das ODP-Framework und die Eingliederung des SAP-CDC Konnektors in die Architektur vorgestellt.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Ziel und Aufgabe des ODP-Frameworks ist das Identifizieren von neuen und ge\u00e4nderten Datens\u00e4tzen in der Quelle. Dies ist vor allem dann n\u00f6tig, wenn es sich um sehr gro\u00dfe Quelltabellen handelt, bei denen ein regelm\u00e4\u00dfiger Full-Abzug nicht umsetzbar ist.\u00a0Das ODP-Framework stellt \u00fcber die Operational Delta Queues als Datentr\u00e4ger f\u00fcr die Zielsysteme neue und ge\u00e4nderte Datens\u00e4tze bereit.\u00a0Ziel k\u00f6nnen dabei SAP- oder Non-SAP-Systeme sein.<\/p> Die Eingliederung in die Microsoft-Architektur zeigt folgende Abbildung:<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Das SAP Change Data Capture (CDC) nutzt das ODP-Framework f\u00fcr die Echtzeitdatenintegration zwischen SAP und Azure. Die selbstgehostete Integration Runtime fungiert als Bindeglied, gew\u00e4hrleistet eine sichere Verbindung und erm\u00f6glicht den Datenaustausch in Echtzeit. SAP DataSources dienen als Provider, w\u00e4hrend Azure Dataflows als Abonnent der Operational Delta Queues auftreten. Diese Struktur erm\u00f6glicht eine effiziente Erfassung und Verarbeitung.<\/p> SAP bietet f\u00fcr die Nutzung ihres ODP-Frameworks durch Drittanbieter-Produkte keinen Support an (siehe <\/span>SAP Note<\/span> 3255746<\/span>). Allerdings wird der CDC-Adapter durch Microsoft offiziell bereitgestellt und nat\u00fcrlich dementsprechend von dem Hersteller weiterentwickelt und gewartet, so dass eine entsprechende Unterst\u00fctzung im Fehlerfall zur Verf\u00fcgung steht.<\/span><\/span>\u00a0<\/span><\/p> \u00a0<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t Dieses Kapitel soll ein konkretes Szenario f\u00fcr die Nutzung des SAP CDC Konnektors in der Microsoft Azure Data Factory zeigen. Als Datenbasis dienen Vertriebsbelege aus dem S\/4HANA und CRM Daten aus Hubspot, f\u00fcr das Microsoft ebenfalls einen Konnektor bereitstellt.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Als Basis dient ein CDS-View, der die n\u00f6tigen Information aus den verschiedenen Tabellen quellseitig bereitstellt. Dies erspart das Joinen von Daten in der Azure Data Factory. Dies ist zwar m\u00f6glich, allerdings deutlich zeitaufw\u00e4ndiger im Vergleich zur Aufbereitung im S\/4. Im Azure Data Factory Datenfluss wird dann der Kopiervorgang vom Quelldataset (S\/4HANA ODP-Verbindung) in das Senkendataset (SQL-Tabelle) definiert. In den Einstellungen wird hier auch die Deltaausf\u00fchrung eingestellt.<\/p> Im Anschluss wird der erzeugte Datenfluss in eine Azure Data Factory Pipeline eingef\u00fcgt. Diese Pipeline kann h\u00e4ndisch im Debugging-Modus ausgef\u00fchrt oder periodisch eingeplant werden f\u00fcr den Produktivbetrieb. Als Ergebnis wird die im Senkendataset definierte Tabelle auf dem SQL-Server bef\u00fcllt.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Hubspotseitig werden Deals und Opportunities in die Azure Data Factory geladen. Der Hubspot-Connector basiert auf der REST-API, ist aber schon vorkonfiguriert. Zu beachten ist, dass die Daten in einem Sternschema gespeichert werden. Um die Kundennummern zu den Deals zu bekommen, m\u00fcssen also noch Mappingtabellen hinzugezogen werden. Das Pivotieren der Tabellen und das Hinzujoinen passiert dann im Datenfluss.<\/p> Die Pipeline hat die gleich Funktion wie bei der S\/4 Datenverarbeitung. Die Daten liegen nach der Ausf\u00fchrung in der definierten Tabelle auf dem SQL-Server.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Nachdem jetzt beide Daten bereitliegen, k\u00f6nnen diese f\u00fcr das Reporting verwendet werden.<\/p> Das Beispiel zeigt, dass mit dem SAP-CDC Konnektor und der Azure Data Factory schnell und codefrei Datenmodelle mit SAP- und Non-SAP-Daten aufgebaut werden k\u00f6nnen. Weitere Informationen f\u00fcr die Einordnung bietet die folgende Abbildung.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Microsoft hat seine eigene Data Fabric names „Microsoft Fabric“ vorgestellt. Dabei handelt es sich um eine umfassende All-in-One SaaS-L\u00f6sung f\u00fcr modernes Data Warehousing (DWH). Derzeit in der Previewphase, bietet es spezialisierte Produktkomponenten, wobei einige, wie Data Factory, sich von der Standalone-Version unterscheiden. Trotz seiner Entwicklungsphase verspricht Fabric eine effiziente L\u00f6sung f\u00fcr umfassendes Datenmanagement und moderne Data-Warehouse-Anforderungen.<\/p> Der hier vorgestellte SAP-CDC Konnektor ist aktuell noch nicht verf\u00fcgbar in der Data Factory innerhalb des Microsoft Fabrics.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t https:\/\/learn.microsoft.com\/de-de\/fabric\/get-started\/microsoft-fabric-overview<\/span><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t Innerhalb der <\/span>SAP Welt<\/span> bietet das Softwareunternehmen <\/span>mit der Cloud Data Warehousing L\u00f6sung<\/span> \u201eSAP <\/span>DataSphere<\/span>\u201c ebenso die M\u00f6glichkeit, Daten mittel ODP im <\/span>CDC Modus<\/span> zu extrahieren. Hierzu werden so genannte Replication <\/span>Flows<\/span> eingesetzt, welche die Steuerung und den Datentransport organisieren.<\/span><\/span>\u00a0<\/span><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\tSAP Daten in der Azure Data Factory<\/h1><\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Hinweis:<\/strong>
Die nach Ver\u00f6ffentlichung dieses Blogs aktualisierte SAP Note 3255746<\/a>\u00a0 untersagt die Nutzung von im
Zusammenhang mit ODP stehenden RFC-Modulen, was wiederum auch folgende Ausf\u00fchrungen zum SAP CDC Konnektor in Azure betrifft.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Somit besteht die M\u00f6glichkeit der Co-Existenz von Azure Data Factory und beispielsweise einem SAP Business Warehouse.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\u00dcbersicht SAP-Konnektoren in Microsoft Azure<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Operational Data Provisioning - Framework<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Quellseitig k\u00f6nnen alle ODP-f\u00e4higen Quellen genutzt werden, darunter SAP S\/4HANA oder ein SAP BW. Die nachfolgende Abbildung veranschaulicht den Aufbau.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\tBeispielszenario<\/h1><\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
S\/4HANA Datenverarbeitung<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
In der Azure Data Factory wird dann ein Datenfluss angelegt, bestehend aus einem Quell- und Senkendataset. Das Quelldataset beinhaltet die Informationen zum ODP-Kontext.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\tHubspot Datenverarbeitung<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Weiterverwendung<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Dies kann beispielsweise direkt in Microsoft Power BI passieren oder \u00fcber einen Umweg im Azure Analysis Services. Hierbei handelt es sich um eine InMemory Datenbank von Microsoft, welche dann nativ in Microsoft Power BI eingebunden werden kann.<\/p>
Da die Daten in einer SQL-Datenbank abliegen k\u00f6nnen, aber auch andere Front-Ends zum Einsatz kommen.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\tFazit<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Ausblick<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
\n\t\t\t\t\tVereinbaren Sie jetzt Ihren<\/span>\n\t\t\t\t\n\t\t\t\t\tExpert Call.<\/span>\n\t\t\t\t<\/span>\n\t\t\t\t\tWir freuen uns \u00fcber Ihre Nachricht.<\/span>\n\t\t\t\t\t<\/h3>\n\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t
Jan Frederick Sabjetzki<\/h2>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t
Consultant for Business Analytics and Reporting<\/h5>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t
\n\t\t\t\t\t\t\t