Computers kunnen steeds meer en worden steeds slimmer naarmate je een programma voorziet van voldoende data. Hoe meer data een computerprogramma krijgt ‘gevoerd’, hoe meer hij hiervan leert en patronen herkent. Op die manier leer je een computer om te reageren op bepaalde situaties. Wil je bijvoorbeeld je computer leren om puppy’s te herkennen? Voorzie hem dan eerst van zoveel mogelijk relevante data: foto’s van puppy’s dus. We spreken dan niet over tientallen foto’s, maar over duizenden. Dit kan je met alle denkbare zaken doen, dus ook bijvoorbeeld met het herkennen van kinderboeken. Facebook heeft daarom maar liefst 1,6 gigabyte aan data beschikbaar gesteld, zodat ook andere mensen kunnen profiteren van het slimmer maken van hun computer. Deze data bevat enkel kinderverhalen, zodat je computer getraind wordt om deze te herkennen.
Mark Zuckerberg
In eerste instantie heeft Facebook deze data verzameld om de eigen kunstmatige intelligentie op te schroeven. Mark Zuckerberg is echter zo tolerant geweest om de dataset gehele openbaar te stellen, zodat iedereen mee kan profiteren en ontwikkelaars een kans te bieden. Taal is namelijk een heel ingewikkeld ding voor een computer om te interpreteren, dus een uitdaging zal het zeker worden.
Begrijpend lezen
Voor een computer, die geen gevoel of emotie heeft, is taal interpreteren zeer complex. Het grote verschil tussen een computer en een mens is dat mensen vaak makkelijk een verhaal kunnen begrijpen en kunnen voorspellen hoe een zin bijvoorbeeld zal aflopen. Dit doen we met ons inlevingsvermogen, gevoel en emoties. Wij kunnen begrijpend lezen. Een computer kan dat niet. Die kan enkel voorspellingen maken op basis van beschikbare data en patronen. Enkel de betekenis van simpele woorden, zoals ‘on’ of ‘at’ (Engels) kon de computer nog wel leren. Ook bepaalde eenvoudige werkwoorden gingen nog wel, maar namen of onderwerpen (denk aan stoel of huis) voorspellen werd al een flinke uitdaging. Om onderwerpen en namen te voorspellen, heeft een computer voldoende context nodig. Onderzoekers van Facebook hebben de computer getraind om goed naar die context te kijken en te interpreteren.
Yahoo
Zuckerberg is niet de eerste die een dataset beschikbaar stelt voor andere onderzoekers. Ook andere tech bedrijven hebben dit al eens gedaan voor het hogere doel: de kunstmatige intelligentie. Yahoo sprong eruit met het vrijgeven van een dataset van 13,5 terabyte aan nieuwswebsites. Dit was de grootste dataset ooit vrijgegeven.