Die Programmiersprache R gehört zu den beliebtesten Sprachen, wenn es um Data Science und statistische Analyse geht. Das liegt vor allem daran, dass R speziell für einfache statistische Kennzahlen und Datenanalysen entwickelt wurde. R wurde zwar in den frühen 90er Jahren entwickelt, aber erst mit dem Aufkommen der Data Science begann man, sich stark darauf zu konzentrieren.
In diesem Artikel werden wir heute die Programmiersprache R umfassend behandeln. Von der Frage, warum sie so unschätzbar wertvoll ist, bis hin zur Einrichtung und Inbetriebnahme werden wir alles abdecken. Machen Sie sich auch keine Sorgen, wenn Sie keine Vorkenntnisse in der Programmierung haben, denn ich werde alles von Grund auf erklären. Also, lassen Sie uns ohne Verzögerung beginnen.
Warum sollten Sie R verwenden?
Als ich die Sprache R zum ersten Mal erlernte, hatte ich den Eindruck, dass sie nur für statistische Arbeiten geeignet sei. Als ich jedoch weiter fortschritt, erwies sich mein erster Eindruck von R als falsch. R kann tatsächlich viel mehr als nur statistische Arbeit leisten. Sehen wir uns einige der wichtigsten Gründe an, warum ich gern R verwende.1. Leicht anpassbar
Genau wie Python hat auch R eine sehr benutzerfreundliche Syntax. Selbst wenn Sie keine Programmierkenntnisse haben und R nur für Visualisierungen oder Analysen verwenden möchten, wird es Ihnen leicht fallen, sich in die Sprache einzuarbeiten. Die Dokumentation ist erstklassig, und es wird nicht lange dauern, bis Sie das, was Sie wollen, aus der Sprache herausholen, ohne auch nur ein solides Verständnis der grundlegenden Programmierkonzepte zu haben. Sie können die Sprache auch für andere Aufgaben wie die Automatisierung, z. B, RPA.2. Schnelle Datenanalyse/Visualisierung
Eines der besten Dinge an R ist, dass es vollgepackt ist mit hervorragenden Bibliotheken. Tatsächlich gibt es über 7800 Pakete, mit denen Sie sofort eine Vielzahl von Berechnungs- und Visualisierungsaufgaben durchführen können. Es gibt Pakete für fortgeschrittene Analysen, die in anderen Programmiersprachen nur selten zu finden sind. Außerdem wird R von einer großen Gemeinschaft unterstützt. Data Science-Experten und Statistiker auf der ganzen Welt stehen bereit, um Sie zu unterstützen, wenn Sie irgendwo nicht weiterkommen. Es gibt Hunderte von Online-Foren, die man nutzen kann.3. Bequeme Implementierung von ML-Algorithmen
Die Implementierung von Algorithmen für maschinelles Lernen ist in R sehr schnell und effizient. Sie müssen sich nicht wie in JAVA um alles von Grund auf kümmern. Stattdessen sind die Dinge bereits auf der abstrakten Ebene für Sie angelegt, und es ist auch sehr optimiert.Die Grundelemente
Nachdem wir uns für eine Programmiersprache entschieden haben, ist der erste Schritt eine kleine Einführung in ihre Grundlagen. Es ist wichtig, diese Grundlagen zu kennen, bevor man anfängt, da sie als Bausteine dienen. Gehen wir also einige der wichtigsten Elemente von R durch.Objekte
Alles, was Sie in R sehen oder erstellen, ist im Grunde ein Objekt. Lassen Sie sich von diesem Begriff nicht verwirren. Es gibt keine besonderen Voraussetzungen dafür, dass etwas als Objekt deklariert wird. Was auch immer es ist, wenn es in R existiert, ist es ein Objekt. Darüber hinaus gibt es einige Klassen dieser Objekte, die im Folgenden aufgeführt sind:- Integer
- Numeric
- Character
- Logical (Boolean)
- Complex
- Names
- Dimensions
- Length
- Class.
Datenarten
Abgesehen von den primitiven Objekttypen, die wir oben gesehen haben, gibt es in R verschiedene Datentypen, die in der Datenverarbeitung verwendet werden. Sehen wir uns einige der am häufigsten verwendeten Datentypen zusammen mit ihrer Verwendung an. 1. Vector (Vektor) Ein Vektor ist im Wesentlichen eine Liste von Objekten der gleichen Art, z. B. ein Vektor von Zeichen, ganzen Zahlen usw. Sie können zwar verschiedene Arten von Objekten in denselben Vektor eingeben, aber R konvertiert die Typen dann in dieselbe Klasse. Dieses Phänomen wird als „Coercion“ bezeichnet. 2. List (Listen) Wenn der Vektor Einträge der gleichen Klasse enthält, könnte man sich fragen, was passiert, wenn man Einträge verschiedener Klassen aufnehmen möchte? Nun, eine Liste kann genau das. Listen sind im Grunde eine besondere Art von Vektoren, die Objekte verschiedener Klassen enthalten können. 3. Matrices (Matrizen) Matrizen sind zweidimensionale Datentypen, die Daten in 2d enthalten können. Matrizen werden gebildet, wenn Sie Zeilen und Spalten in Vektoren einführen. Beachten Sie, dass eine Matrix auch Daten enthalten kann, die zur gleichen Klasse gehören. 4. Dataframe Wenn Sie ein Data-Science-Anwärter sind, wird dies wahrscheinlich der von Ihnen am häufigsten verwendete und am häufigsten verwendete Datentyp sein. Dataframes sind eine tabellarische Form des Datentyps, mit dem Daten genauso wie in einer Excel-Tabelle gespeichert und angezeigt werden können. Aber wenn Dataframes auch 2d sind, fragen Sie sich vielleicht, was der Unterschied zwischen einer Matrix und einem Dataframe ist? Nun, Datenrahmen können Daten enthalten, die zu verschiedenen Klassen gehörenEinige nützliche R-Pakete
Wie bereits erwähnt, gibt es eine umfangreiche Liste von R-Paketen, die man je nach den Anforderungen verwenden kann.Wie installiere ich R / RStudio?
Die Theorie allein reicht nie aus, und wenn man etwas Neues lernt, ist es wichtig, seine Fähigkeiten durch praktische Übungen zu stärken. Laden Sie also das RStudio herunter, um mit der Verwendung von R zu beginnen. Folgen Sie einfach den nachstehenden Schritten, und schon bald haben Sie die IDE auf Ihrem Computer einsatzbereit.1. R installieren
https://cran.r-project.org/bin/windows/base/ Laden Sie die Programmiersprache R auf Ihren Computer herunter, um sie zu verwenden.2. RStudio herunterladen
Wenn Sie schon einmal programmiert haben, wissen Sie, dass es nicht ausreicht, nur eine Sprache herunterzuladen, sondern dass Sie auch eine IDE herunterladen und installieren müssen, um in dieser Sprache zu programmieren. Lassen Sie uns also RStudio herunterladen, die IDE für die Programmierung in R. Klicken Sie also auf diesen Link, um die offizielle Website von RStudio zu öffnen: https://www.rstudio.com/products/rstudio/download/#download Hinweis: Dieser Link ist nur für Windows-Benutzer. Wenn Sie ein anderes Betriebssystem wie Mac oder Linux verwenden, scrollen Sie nach unten, um die verfügbaren Links für Ihr jeweiliges Betriebssystem anzuzeigen. Sobald Sie auf die Schaltfläche „Herunterladen“ klicken, wird die Setup-Datei automatisch auf Ihren lokalen Computer heruntergeladen. Sobald der Download beginnt, müssen Sie je nach Ihrer Internetverbindung möglicherweise einige Minuten warten, bis er abgeschlossen ist.3. Installieren von RStudio
Sobald Sie die Setup-Datei heruntergeladen haben, öffnen Sie sie, und der Setup-Assistent wird wie folgt geöffnet. .Installing R Packages
Wie wir bereits erwähnt haben, ist R ohne seine Pakete verkrüppelt. In diesem Abschnitt wird gezeigt, wie verschiedene Pakete in RStudio installiert werden können.
Öffnen Sie RStudio über die Windows-Suchleiste und gehen Sie auf die Konsole.
Nehmen wir nun an, wir wollen ggpot2 installieren. So können wir es installieren:
Install.package(„ggplot2“)
Das ist alles, was Sie tun müssen. Wenn Sie zum ersten Mal ein Paket installieren, werden möglicherweise einige CRAN-Abhängigkeiten automatisch installiert. Ignorieren Sie diese also erst einmal. Wenn Sie möchten, können Sie diesen Installationsbefehl auch in ein Notebook oder eine R-Datei eingeben und diese ausführen, aber ich finde die Konsole besser für solche kurzen Aufgaben.
Laden einer Datei
Nehmen wir an, wir wollen eine CSV-Datei mit unseren Trainingsdaten importieren; wie machen wir das? Nun, schauen wir mal. Um eine Datei manuell zu laden, klicken Sie auf Arbeitsbereich > Daten importieren > Aus Textdatei und wählen Sie dann die zu ladende Datei aus. Bei der Auswahl der Datei werden Ihnen einige Importoptionen angeboten. Wenn Sie einen Datenrahmen laden, vergewissern Sie sich, dass die Überschrift auf Ja gesetzt ist und die Spaltennamen in Ihrer Datei vorhanden sind. Sobald Sie Ihre Datei geladen haben, können Sie damit beginnen, was immer Sie mit Ihrer Datei vorhaben. Wenn Sie andere Dateitypen importieren möchten, können Sie sich hier informieren.Dieser Blog ist Teil einer Serie von Beiträgen zur Business Analytics. Ich empfehle eine Business -Analytics-Platform aufzubauen. Ziel ist es, den Anwendern eine Plattform für Ihre Bedürfnisse zu bieten, wo sie alle Daten und Analytics-Tool finden.
Bisher veröffentlicht:
- Teil 1: Wie Business Analytics erfolgreich gestalten?
- Teil 2: Business Analytics vs. Business Intelligence
- Teil 3: Was ist SAP Analytics? Das SAP Data Warehouse-Portfolio
- Teil 4: SAP Analytics – Die Front End Produkte
- Teil 5: Data Plattform – Ein wichtiger Pfeiler der digitalen Transformation
- Teil 6: Auf dem Weg in die AWS
- Teil 7: Cloud – Fluch oder Segen?
- Teil 8: Mit Daten führen – warum Power BI häufig zur Auswahl steht
- Teil 9: Business Analytics Plattform: Agilität und Data Governance
- Teil 10: Advanced Analytics mit SAP und R
- Teil 11: Mit SAP PowerDesigner datenmodellgestützt entwickeln
- Teil 12: IBCS konforme Charts mit Tableau und graphomate
- Teil 13: Schnell neue Insights gewinnen: Ist jetzt der richtige Zeitpunkt, um mit der SAP Data Warehouse Cloud zu starten?