Index Ventures: Ranking der Performance von Risikokapitalunternehmen

In den letzten drei Jahrzehnten hat sowohl die Anzahl der Start-up-Unternehmen als auch das Gesamtinteresse und die Aktivitäten in diesem Sektor erheblich zugenommen. Unternehmen wie Google, Skype, Dropbox usw. sind Beispiele für Erfolgsgeschichten. Mein Kunde, Index Ventures, ist eines der ältesten, größten und erfolgreichsten Venture Capital (VC) -Unternehmen in Europa. Mein Projekt bestand darin, ihnen mithilfe der verfügbaren Daten aus der Crunchbase-API unterschiedliche Metriken und Einblicke in das Ökosystem des Anlegers zu bieten, damit sie meine Ergebnisse in ihr internes Web-App-Tool implementieren können. Während meines Projekts habe ich mit den verfügbaren Daten von über 44.000 Investoren und über 0,5 Millionen Startup-Unternehmen gearbeitet.

Dieses Projekt ist in den folgenden Abschnitten zusammengefasst:

Den Code für diese Arbeit finden Sie hier. Im Folgenden sehen wir eine Zusammenfassung meiner Ergebnisse.

Ich habe zunächst untersucht, welche Währung hauptsächlich für Investitionen verwendet wird. Die beiden wichtigsten Währungen für Anlagen sind der US-Dollar und der Euro mit 247223 bzw. 18099.

Anschließend habe ich mir den historischen Trend der Investitionsmenge in den letzten 50 Jahren angesehen. Leider fehlen im Zeitraum vor dem Jahr 2000 viele Investitionen. Abbildung 1 zeigt den Gesamtbetrag der US-Dollar, die für jedes Jahr aufgebracht wurden, nachdem der für jedes Jahr für die Inflation erhobene Wert mithilfe des „Verbraucherpreisindex“ korrigiert wurde. Diese Grafik zeigt deutlich, dass die Investitionssumme nach einem starken Rückgang zu Beginn dieses Jahrhunderts, der mit der Finanzkrise von 2001 zusammenfällt, knapp gestiegen ist.

Abbildung 2 zeigt die Gesamtzahl der Investitionen für den gleichen Zeitraum wie Abbildung 1. Wir sehen ein sehr ähnliches Muster für die wachsende Anzahl von Investitionen, wie aus der vorherigen Grafik für den Zeitraum nach der Finanzkrise von 2001 erwartet. Ein Vergleich dieser beiden Grafiken zeigt jedoch, dass in den letzten drei Jahren der Gesamtbetrag der US-Investitionen, bei denen die Gesamtzahl der Investitionen zurückgegangen ist, erheblich gestiegen ist. Dies kann ein Hinweis auf eine geringere Anzahl neuer Investitionen sein und / oder darauf, dass die Investoren größere Geldsummen in weniger Start-up-Unternehmen investieren.

Um zu verstehen, wie ich die Leistungsmatrizen berechnet habe, ist es wichtig, dass wir das Startup-Ökosystem verstehen, wie in Abbildung 3 dargestellt:

Während dieses Prozesses habe ich zwei Bewertungsmatrizen berechnet: Exit Score und Operating Score

Ergebnis beenden:

Ich habe den Exit Score berechnet, indem ich jedem Unternehmen Werte zugewiesen habe, indem ich seinen Status berücksichtigt habe. Wenn das Unternehmen noch in Betrieb ist, geschlossen ist, erworben wurde oder an die Börse gegangen ist, erhält das Unternehmen eine Bewertung von 0, -0,5, +1 bzw. +2. Am Ende können wir durch Addition dieser Werte für jeden Anleger den Exit Score für alle 44.000 Anleger berechnen.

Abbildung 4 zeigt den Exit Score für die 7 leistungsstärksten VCs in den letzten 5 und 10 Jahren. Sequoia Capital, eines der bekanntesten VC-Unternehmen der Welt, ist rot markiert. Die Leistung von Sequoia in den letzten 5 Jahren belegt den dritten Platz, während sie in den letzten 10 und 20 Jahren an erster Stelle stehen.

Betriebsergebnis:

Zusätzlich zu einem Exit Score können wir auch die Performance jedes VC anhand seines aktiven Portfolios bewerten. Dazu habe ich die prozentuale Veränderung zwischen den zwischen den einzelnen Finanzierungsserien gesammelten Geldern berechnet. Wenn ein Unternehmen beispielsweise in seiner Startrunde 500.000 US-Dollar gesammelt hat und dann in seiner Serie A 1 Million US-Dollar gesammelt hat, erhöht sich der Geldbetrag, den es gesammelt hat, um 100%. Dies kann ein indirekter Hinweis darauf sein, dass sie eine positive Bewertung und folglich eine positive Bewertung für die Anleger erhalten haben, die in ihre Startrunde investiert haben.

In diesem Abschnitt werde ich einige der Erkenntnisse erläutern, die man durch einen Blick auf das Ökosystem des Investorennetzwerks gewinnen kann. In diesem Zusammenhang sind Investoren die Knoten, die von den Unternehmen, in die sie beide investiert haben, miteinander verbunden sind. Beispielsweise ist Sequoia mit SV Angel mit 40 Unternehmen verbunden, in die beide investiert haben, wie Zappos, Dropbox und Eventbrite usw. Sie sind mit Y-Combinator durch 33 Unternehmen verbunden, in die beide investiert haben, wie Docker, Reddit, Dropbox usw. Insgesamt ist Sequoia Capital mit 1920 anderen Investoren verbunden, während viele dieser Investoren ebenfalls verbunden sind, wie in dargestellt Abbildung 5.

Das Netzwerkdiagramm ist sehr ausgelastet und daher nicht informativ. Andererseits bietet die Netzwerkanalyse wertvolle Einblicke in die Interaktion zwischen Investoren.

Abbildung 6 zeigt das Ergebnis der Netzwerkanalyse für die acht am häufigsten verbundenen VCs von Sequoia Capital. Der schwarze Balken zeigt den „Sequoia Capital Co-Investment Score“ an, der angibt, wie oft jeder Investor insgesamt mit Sequoia Capital zusammen investiert hat. Der dunklere graue Balken zeigt den „Ecosystem Connectivity Score“ für jede VC an. Diese Metrik wird aus der „Gradzentralität“ über das gesamte Netzwerk berechnet, die ein Hinweis auf die Stärke und Reichweite jedes VC über das gesamte Netzwerk ist. Der hellere graue Balken zeigt den „Investment Diversity Score“ für jeden VC an, der aus der „Zwischenzentralität“ über das gesamte Netzwerk berechnet wird. Sequoias “Ecosystem Connectivity Score” und “Investment Diversity Score” werden mit dunkel- bzw. hellgrauen Strichlinien angezeigt.

Wenn man sich den Co-Investment Score von Sequoia Capital und den Ecosystem Connectivity Score ansieht, ist es keine Überraschung, dass SV Angel und Y-Combinator ganz oben auf dieser Liste stehen, da beide sehr große „Ecosystem Connectivity Scores“ besitzen. Daher wäre es interessanter, VCs mit niedrigeren Ökosystemkonnektivitätswerten zu betrachten. Zum Beispiel “Lightspeed Venture Partners”, “Tencent Holdings”, “DAG Ventures” und “Kleiner Perkins Caufield & amp; Byers “sind stark mit Sequoia verbunden, haben jedoch keine hohen Konnektivitätswerte für das Ökosystem. Außerdem weisen diese Unternehmen sehr niedrige „Investment Diversity Scores“ auf, was darauf hinweist, dass sie nur in bestimmten Branchen tätig sind.

Um den Bereich des Interesses oder der Aktivität jeder VC-Firma zu identifizieren, habe ich mich zunächst mit Daten von Startup-Unternehmen befasst. In meinem Datensatz wurde jedes Startup-Unternehmen mit Wörtern versehen, die angeben, welche Arten von Diensten sie bereitstellen. Leider sind diese Tags sehr laut und enthalten viele Wörter mit ähnlichen Bedeutungen sowie viele Redundanzen. Nachdem ich zum Beispiel alle Tags von ~ 0,5 Millionen Unternehmen zusammengefasst hatte, erhielt ich 3323 eindeutige Tags. In Abbildung 7 zeige ich nur 500 der am häufigsten wiederholten Tags, was, wie Sie sehen können, ein großes Durcheinander und überhaupt nicht informativ ist. Zum Beispiel haben wir Wörter wie “Software” und “Unternehmenssoftware” neben “Internet” und “Mobil”, die keine umsetzbaren Erkenntnisse liefern.

Wir können diese Tags auf zwei Arten reinigen: zum einen durch Experten auf diesem Gebiet, was sehr zeitaufwändig und folglich sehr teuer ist. Der andere Ansatz besteht darin, Natural Language Processing (NLP) zu verwenden, um diesen Prozess zu automatisieren, was ich auch getan habe.

Um dies zu erreichen, habe ich zunächst Googles zugehöriges workd2vec verwendet und für jedes Tag einen Vektor mit 300 Elementen extrahiert. Dann habe ich UMAP (Uniform Manifold Approximation and Projection) verwendet, um sowohl die Dimensionalität zu reduzieren als auch eine Trennung zwischen ähnlichen Vektoren bereitzustellen. Hier bin ich schließlich zu einem 10-dimensionalen Raum gekommen. Zu diesem Zeitpunkt habe ich HDBSCAN verwendet, um die Tags auf 62 aussagekräftige Cluster zu gruppieren. Abbildung 7 zeigt zwei Beispiele für diese Cluster: „Biowissenschaften“ und „Lebensmittel und Getränke“.

Abschließend habe ich verschiedene Metriken entwickelt, um die historische Leistung sowie die Netzwerkdynamik für mehr als 44.000 VCs zu bewerten. Durch die Verwendung von Methoden der Verarbeitung natürlicher Sprache und des unbeaufsichtigten Lernens habe ich über 3300 eindeutige Tags zu 62 aussagekräftigen Clustern zusammengefasst, was den Tätigkeitsbereich jedes VC deutlicher veranschaulicht.