ISSN: 2165- 7866
Abdalla Bala und Alain Abran
In unternehmensübergreifenden Repositorien, insbesondere solchen, die auf freiwilligen Datenbeiträgen basieren, wie etwa dem Repository der International Software Benchmarking Standards Group (ISBSG), fehlen möglicherweise viele Werte für viele ihrer Datenfelder und es können auch einige Ausreißer vorhanden sein. In diesem Dokument werden eine Reihe von Datenqualitätsproblemen im Zusammenhang mit dem ISBSG-Repository aufgezeigt, die die Ergebnisse für Benutzer beeinträchtigen können, die es für Benchmarking-Zwecke oder zum Erstellen von Schätzmodellen verwenden. Wir schlagen eine Reihe von Kriterien und Techniken zur Vorverarbeitung der Daten vor, um die Qualität der für eine detaillierte statistische Analyse identifizierten Stichproben zu verbessern, und präsentieren eine Multiple-Imputation-Strategie (MI) zum Umgang mit Datensätzen mit fehlenden Werten.