Status - Stata

Status
Stata-Logo mit blau.png
Schnittstelle groß wwwsa.png
Stata 17 unter Windows
Originalautor(en) William Gould
Entwickler StataCorp
Erstveröffentlichung 1985 ( 1985 )
Stabile Version
17.0 / 20. April 2021 ; vor 4 Monaten ( 2021-04-20 )
Geschrieben in C
Betriebssystem Windows , macOS , Linux
Typ statistische Analyse
Lizenz Proprietär
Webseite www .stata .com

Stata ( / s t t ə / , STAY -ta alternativ / s t æ t ə / gelegentlich als STATA stilisiert) ist ein Allzweck- statistisches Software - Paket durch StataCorp entwickelte zur Datenmanipulation, Visualisierung, Statistiken und automatisierte Berichterstattung. Es wird von Forschern in vielen Bereichen verwendet, darunter Wirtschaft , Soziologie , Politikwissenschaft , Biomedizin und Epidemiologie .

Stata wurde ursprünglich vom Computing Resource Center in Kalifornien entwickelt und die erste Version wurde 1985 veröffentlicht. 1993 zog das Unternehmen nach College Station, TX, und wurde in Stata Corporation umbenannt, jetzt bekannt als StataCorp. Eine Hauptversion im Jahr 2003 enthielt ein neues Grafiksystem und Dialogfelder für alle Befehle. Seitdem erscheint alle zwei Jahre eine neue Version. Die aktuelle Version ist Stata 17, veröffentlicht im April 2021.

Technische Übersicht und Terminologie

Benutzeroberfläche

Seit seiner Gründung hat Stata immer eine integrierte Befehlszeilenschnittstelle verwendet. Ab Version 8.0 bietet Stata eine grafische Benutzeroberfläche basierend auf dem Qt-Framework, die Menüs und Dialogfelder verwendet , um den Zugriff auf viele integrierte Befehle zu ermöglichen. Der Datensatz kann im Tabellenkalkulationsformat angezeigt oder bearbeitet werden. Ab Version 11 können andere Befehle ausgeführt werden, während der Datenbrowser oder Editor geöffnet ist.

Datenstruktur und Speicherung

Bis zur Veröffentlichung von Version 16 konnte Stata immer nur einen einzigen Datensatz öffnen . Stata ermöglicht Flexibilität beim Zuweisen von Datentypen zu Daten. Sein compressBefehl weist Daten automatisch Datentypen zu, die weniger Speicher beanspruchen, ohne dass Informationen verloren gehen. Stata verwendet Integer-Speichertypen, die nur ein oder zwei Byte statt vier belegen, und einfache Genauigkeit (4 Byte) statt doppelter Genauigkeit (8 Byte) ist der Standard für Gleitkommazahlen .

Das Datenformat von Stata ist immer tabellarisch . Stata bezeichnet die Spalten der Tabellendaten als Variablen.

Datenformatkompatibilität

Stata kann Daten in einer Vielzahl von Formaten importieren. Dazu gehören ASCII -Datenformate (wie CSV- oder Datenbankformate ) und Tabellenkalkulationsformate (einschließlich verschiedener Excel- Formate).

Die proprietären Dateiformate von Stata haben sich im Laufe der Zeit geändert, obwohl nicht jede Stata-Version ein neues Datensatzformat enthält. Jede Version von Stata kann alle älteren Datensatzformate lesen und mit dem saveoldBefehl sowohl das aktuelle als auch das neueste vorherige Datensatzformat schreiben . Somit kann das aktuelle Stata-Release immer Datensätze öffnen, die mit älteren Versionen erstellt wurden, aber ältere Versionen können Datensätze neueren Formats nicht lesen.

Stata kann mit den Befehlen fdause und fdasave nativ Datensätze im SAS-XPORT-Format lesen und schreiben .

Einige andere ökonometrische Anwendungen, einschließlich gretl , können Stata-Dateiformate direkt importieren.

Geschichte

Ursprünge

Die Entwicklung von Stata begann 1984, zunächst von William (Bill) Gould und später von Sean Becketti. Die Software sollte ursprünglich mit Statistikprogrammen für Personalcomputer wie SYSTAT und MicroTSP konkurrieren . Stata wurde damals wie heute in der Programmiersprache C geschrieben, zunächst für PCs mit dem Betriebssystem DOS . Die erste Version wurde 1985 mit 44 Befehlen veröffentlicht.

Tabelle: Befehle in Stata 1.0 und Stata 1.1
anhängen dir im Ordner Handlung Spule
Signalton tun Eingang Anfrage zusammenfassen
von Tropfen Etikett Regress tabellarisch
ergreifen löschen aufführen umbenennen Prüfung
bestätigen Sie Ausfahrt Makro ersetzen Typ
Konvertieren expandieren verschmelzen Lauf verwenden
zueinander in Beziehung stehen Format ändern speichern
zählen generieren mehr einstellen
beschreiben Hilfe Outfile Sortieren

Entwicklung

Zwischen 1985 und 2021 gab es 17 Hauptversionen von Stata und zwischen den Hauptversionen zusätzliche Code- und Dokumentationsaktualisierungen. In den Anfangsjahren wurden manchmal zusätzliche Sätze von Stata-Programmen als "Kits" verkauft oder als Support-Disketten verteilt. Mit der Veröffentlichung von Stata 6 im Jahr 1999 wurden updates den Benutzern über das Internet bereitgestellt. Die erste Version von Stata war für das DOS- Betriebssystem. Seitdem wurden Versionen von Stata für Systeme veröffentlicht, auf denen Unix- Varianten wie Linux- Distributionen, Windows und MacOS ausgeführt werden . Alle Stata-Dateien sind plattformunabhängig.

Stata wurde in seiner 36-jährigen Geschichte um Hunderte von Befehlen erweitert. Bestimmte Entwicklungen haben sich als besonders wichtig erwiesen und prägen bis heute die User Experience , darunter Erweiterbarkeit , Plattformunabhängigkeit und die aktive User-Community .

Erweiterbarkeit

Der programBefehl wurde in Stata 1.2 implementiert, sodass Benutzer ihre eigenen Befehle hinzufügen können. In Stata 2.1 folgten ado-Dateien, die es ermöglichten, ein vom Benutzer geschriebenes Programm automatisch in den Speicher zu laden. Viele von Benutzern geschriebene Ado-Dateien werden an das vom Boston College gehostete [ Statistical Software Components Archive] gesendet. StataCorp hat einen sscBefehl hinzugefügt , mit dem von der Community beigesteuerte Programme direkt in Stata hinzugefügt werden können. Neuere Versionen von Stata ermöglichen es Benutzern, Python- und R-Skripte mit Befehlen aufzurufen, sowie Python-IDEs wie Jupyter Notebooks, Stata-Befehle zu importieren.

Benutzergemeinschaft

Eine Reihe wichtiger Entwicklungen wurden von der aktiven Benutzergemeinschaft von Stata initiiert. Das Stata Technical Bulletin , das oft von Benutzern erstellte Befehle enthält, wurde 1991 eingeführt und sechsmal im Jahr herausgegeben. Es wurde 2001 als Peer-Reviewed Stata Journal neu aufgelegt , eine vierteljährlich erscheinende Veröffentlichung mit Beschreibungen der von der Community beigesteuerten Befehle und Tipps für den effektiven Einsatz von Stata. Im Jahr 1994 begann ein Listserv als Drehscheibe für Benutzer, um gemeinsam Codierungs- und technische Probleme zu lösen. 2014 wurde es in ein Webforum umgewandelt. 1995 begann Statacorp damit, jährlich stattfindende Benutzer- und Entwicklerkonferenzen zu organisieren. Nur die jährliche Stata-Konferenz in den Vereinigten Staaten wird von StataCorp ausgerichtet. Andere Benutzergruppentreffen finden jährlich in den Vereinigten Staaten (der Stata-Konferenz), im Vereinigten Königreich, in Deutschland und Italien statt, und in einigen anderen Ländern seltener. Lokale Stata-Distributoren veranstalten Benutzergruppentreffen in ihren eigenen Ländern.

Tabelle: Releases und Entwicklung von Stata
Ausführung Veröffentlichungsdatum Wählen Sie neue oder verbesserte Funktionen aus
1.0 Januar 1985
  • Erstveröffentlichung
  • Vierundvierzig Befehle
1.1 Februar 1985
  • Fehlerbehebung
1,2 Mai 1985
  • Neues Menüsystem
  • Bessere Online-Hilfe
  • keep
1.3 August 1985
  • Statistik/Grafiken
  • program
1,4 August 1986
  • Neue Dokumentation
  • Formatiert infile
1,5 Februar 1987
  • anova
  • logit, probit
2.0 Juni 1988
  • Neue Grafiken
  • String-Variablen
  • Überlebensanalyse: Cox und Kaplan-Meier
  • Schrittweise Regression
2.1 September 1990
  • Byte-Variablen
  • Faktorenanalyse
  • ado-Dateien
  • reshape
3.0 März 1992
  • logistic, ologit, oprobit, clogit,mlogit
  • tobit, cnreg, rreg, qreg, weibull,ereg
  • epitab
  • pweights
3.1 August 1993
  • mvreg, sureg, heckman, nlreg, areg,canon
  • nbreg
  • eingeschränkte lineare Regression
  • ml
  • codebook
4.0 Januar 1995
  • xtreg
  • glm
5.0 Oktober 1996
  • xtgee, xtprobit
  • prais, newey,intreg
  • Befehle zur Vermessungsschätzung
  • fracpoly
  • st erweitert
6.0 Januar 1999
  • web-bewusst
  • Neu ml
  • Zeitreihenoperatoren
  • arima, arch
  • st umgeschrieben
7,0 Dezember 2000
  • frailty
  • xtabond
  • Clusteranalyse
  • nlogit
  • roc
  • SMCL
8.0 Januar 2003
  • Grafik
  • erweiterte GUI, Dialogfelder für alle Befehle verfügbar
  • manova
  • mehr Umfrage
  • weitere Zeitreihen (VARs, SVARs)
  • mehr GLLAMM Internalisierung
8.1 Juli 2003
  • Aktualisiert ml
8.2 Oktober 2003
  • Grafikänderungen
9,0 April 2005
  • Mata-Matrix-Programmiersprache
  • Umfragefunktionen
  • lineare gemischte Modelle
  • Multinominale Probit-Modelle
9.1 September 2005
9.2 April 2006
10,0 Juni 2007
  • Grafikeditor
  • Logistik- und Poisson-Modelle mit komplexen, verschachtelten Fehlerkomponenten
10.1 August 2008
11,0 Juli 2009
  • Faktorvariablen
  • margins Nachkalkulationsbefehl
  • mehrfache Anrechnung
11.1 Juni 2010
11.2 März 2011
12.0 Juli 2011
  • automatische Speicherverwaltung
  • Modellierung von Strukturgleichungen
12.1 Januar 2012
13,0 Juni 2013
  • lange Saiten
  • Behandlungseffekte
13,1 Oktober 2013
14,0 April 2015
  • Unicode-Unterstützung
  • Bayessche statistische Analyse
14,1 Oktober 2015
14.2 September 2016
15.0 Juni 2017
  • latente Klassenanalyse
  • PDF- und Word-Dokumente
  • Farbtransparenz oder Deckkraft in Grafiken
15.1 November 2017
16.0 Juni 2019
  • Frames (mehrere Datensätze im Speicher)
  • Lasso-Regression
  • automatisiertes Reporting
  • aktualisierte Auswahlmodelle
16.1 Februar 2020
17.0 April 2021
  • aktualisierter tablesBefehl
  • Bayes'sche Ökonometrie

Softwareprodukte

Es gibt vier Builds von Stata: Stata/MP, Stata/SE, Stata/BE und Numerics by Stata. Während Stata/MP die eingebaute parallele Verarbeitung bestimmter Befehle ermöglicht, sind Stata/SE und Stata/BE mit Engpässen verbunden und beschränken die Nutzung auf nur einen einzigen Kern. Stata/MP führt bestimmte Befehle etwa 2,4-mal schneller aus, etwa 60 % der theoretischen maximalen Effizienz, wenn parallele Prozesse auf vier CPU-Kernen im Vergleich zu SE- oder BE-Versionen ausgeführt werden. Numerics by Stata ermöglicht die Webintegration von Stata-Befehlen.

SE- und BE-Versionen unterscheiden sich in der Menge an Speicherdatensätzen, die verwendet werden können. Obwohl Stata/MP 10 bis 20 Milliarden Beobachtungen und bis zu 120.000 Variablen speichern kann, speichern Stata/SE und Stata/BE bis zu 2,14 Milliarden Beobachtungen und verarbeiten 32.767 Variablen bzw. 2.048 Variablen. Die maximale Anzahl unabhängiger Variablen in einem Modell beträgt 65.532 Variablen in Stata/MP, 10.998 Variablen in Stata/SE und 798 Variablen in Stata/BE.

Die Preisgestaltung und Lizenzierung von Stata hängt von der beabsichtigten Verwendung ab: Unternehmen, Behörden/gemeinnützig, Bildung oder Studenten. Einzelbenutzerlizenzen können entweder jährlich oder unbefristet verlängert werden. Andere Lizenztypen umfassen eine Einzellizenz für die Nutzung durch gleichzeitige Benutzer, eine Standortlizenz, Volumen-Einzelbenutzer für Massenpreise oder ein Schülerlabor.

Beispielcode

Der folgende Befehlssatz dreht sich um die einfache Datenverwaltung.

sysuse auto                 // Open the included auto dataset
browse                      // Browse the dataset (opens the Data Editor window)

describe                    // Describes the dataset and associated variables
summarize                   // Summary information about numerical variables

codebook make foreign       // Summary information about the make (string) and foreign (numeric) variables

browse if missing(rep78)    // Browse only observations with missing data for variable rep78
list make if missing(rep78) // List makes of the cars with missing data for variable rep78

Der nächste Satz von Befehlen geht zur deskriptiven Statistik über.

summarize price, detail          // Detailed summary statistics for variable price

tabulate foreign                 // One-way frequency table for variable foreign
tabulate rep78 foreign, row      // Two-way frequency table for variables rep78 and foreign

summarize mpg if foreign == 1    // Summary information about mpg if the car is foreign (the "==" sign tests for equality)
by foreign, sort: summarize mpg  // As above, but using the "by" prefix.
tabulate foreign, summarize(mpg) // As above, but using the tabulate command.

Ein einfacher Hypothesentest:

ttest mpg, by(foreign) // T-test for difference in means for domestic vs. foreign cars

Grafische Daten:

twoway (scatter mpg weight)                     // Scatter plot showing relationship between mpg and weight
twoway (scatter mpg weight), by(foreign, total) // Three graphs for domestic, foreign, and all cars

Lineare Regression:

generate wtsq = weight^2                      // Create a new variable for weight squared
regress mpg weight wtsq foreign, vce(robust)  // Linear regression of mpg on weight, wtsq, and foreign
predict mpghat                                // Create a new variable contained the predicted values of mpg
twoway (scatter mpg weight) (line mpghat weight, sort), by(foreign) // Graph data and fitted line
Regressionsdiagramme aus dem Auto-Dataset in Stata 17

Siehe auch

Verweise

Weiterlesen

Externe Links