L’IA est-elle bonne pour votre santé ?

Cela fait plus de dix ans que l’intelligence artificielle est régulièrement présentée comme un agent de changement pour la pratique médicale. Mais les grands titres qu’on a pu voir sur de prétendues avancées, ont souvent débouchés sur des applications réelles controversées, voir dangereuses. Petit tour d’horizon factuel de la grandeur et de la décadence de quelques applications de l’IA en santé.

Cet article a été publié dans le dossier IA et Santé de la revue les Connecteurs dans le cadre de la collaboration des experts du Centre de Recherche Informatique de Montréal avec ce périodique. 
https://lesconnecteurs.ca/lia-est-elle-bonne-pour-votre-sante/

Notre récit commence en 20161, quand le désormais premier prix Nobel psychologue-Informaticien Geoffrey Hinton, pionnier de l’apprentissage profond, déclare que l’intelligence artificielle rendrait sous quelques années les médecins radiologues inutiles.

Des dizaines d’articles scientifiques se sont fait l’écho de cette extraordinaire nouvelle, au point d’inquiéter les radiologues et de donner des ailes à d’autres. Ainsi, en 2018, Christian Brunet, alors PDG du CHUM, annonce à l’occasion du lancement de son École de l’IA en santé2 que les radiologues devront repenser leur rôle, et parle d’optimiser les ressources en dermatologie grâce à l’IA.

Neuf ans plus tard, le monde connait une des plus grandes pénuries de radiologues de son histoire, bien que la plupart des fournisseurs de solutions radiologiques informatiques offrent des modules d’Intelligence Artificielle3.

Pourquoi une telle erreur dans la prédiction ? La fiction (ou la futurologie) s’est heurtée à la réalité. Algorithmes d’IA en radiologie il y a, sans aucun doute. Mais ils produisent tous sans exception un taux d’erreur plus ou moins important. Ils ne détectent jamais à 100% un cancer du sein ou une absence de cancer des poumons. Peut être dans 90% des cas, peut être 80%. Ils sont intelligents, mais ils se trompent.

Ce qui n’est pas un problème en soi : le taux d’erreur – les hallucinations de ChatGPT en sont une démonstration – est l’un des éléments constitutifs des modèles d’IA. Un système d’Intelligence artificielle se trompe comme un humain. Et quand Il doit mener un diagnostic dans un contexte difficile, avec une image d’un corps humain à chaque fois différent, qui implique un raisonnement poussé, ils se trompe plutôt plus qu’un humain.

Des mesures de mitigations doivent donc être mis en place. Dans le cas de la radiologie, la mitigation prend la forme d’une proposition par le système, que le professionnel de santé doit commenter à la lumière de sa propre expérience.

Ainsi, si votre médecin radiologue dans son compte rendu vous récite ce que l’IA a vu dans vos organes, sans le mettre en perspective, fuyez ! Si au contraire, il fait preuve de circonspection critique en indiquant que le module d’IA indique une pathologie x a tel

endroit, mais qu’après examen, il s’agit d’une erreur alors il fait un usage raisonné de la capacité supplémentaire que lui offre l’IA. Il s’en sert pour appuyer son diagnostic.

Vous l’avez compris, tant qu’un système d’Intelligence Artificielle de radiologie n’atteindra pas 100% de précision – ce qui n’est pas près d’arriver – le diagnostic humain sera incontournable. On continue donc de former des radiologues (et pas assez), malgré la prédiction de notre Nobel Canadien (qui n’est pas radiologue).

Watson et le cancer

Autre temps, autre intervenant, autre champs d’exercice de la médecine : milieu des années 2010, la société IBM annonce que son système d’Intelligence Artificielle Watson for Oncology (le même qui avait quelques mois plus tôt gagné le jeux télévisé Jéopardy) va révolutionner le traitement des patients cancéreux. Là encore, des dizaines de publications se font l’écho complaisant des communications d’IBM.

Quelques années plus tard, un article de la revue Stat révèle, en analysant des documents internes d’IBM, que Watson recommande des diagnostics dangereux et erronés de traitement du cancer4. En examinant l’utilisation de Watson for Oncology dans des hôpitaux en Corée du Sud, Slovaquie, États-Unis, les experts de Stats découvrent que IBM, pressé de positionner son système d’IA pour bénéficier de juteux contrats en santé, a lancé son produit en l’évaluant mal, et sans respecter les processus de revue par les pairs et d’expérimentation sur des patients humains.

Car habituellement, une méthode diagnostique et thérapeutique doit être testée avec de longues, coûteuses et fastidieuses études cliniques. Pas ici : Watson, système informatique qui n’entre pas dans les cases habituelles des agences de surveillances de la santé, va être directement appliqué à des cas cliniques. Ce sont les médecins et chercheurs de terrains qui vont alerter IBM sur ses lacunes ! Et quelles lacunes !

Au Texas, Le Centre de cancer Anderson de Houston collabore avec IBM pour développer son outil de décision clinique en oncologie. Cinq ans et 62 millions de dollars plus tard, le centre laisse expirer son contrat avec IBM5. Censé digérer les notes de médecins, les rapports et données sur les patients pour produire un diagnostic, Watson est incapable de produire un résultat exploitable.

A bien y regarder, le diagnostic médical par IA semble plus complexe que les questions du jeu télévisé Jeopardy.

Et IBM de découvrir (peut être un peu tard), que les institutions utilisent les termes médicaux de manières différentes. Et malgré les efforts des ingénieurs d’IBM, Watson ne parvient pas à interpréter le langage médical aussi bien que les humains. Ainsi, à l’hôpital M. D. Anderson, Watson n’a pas pu distinguer de manière fiable l’acronyme de la leucémie lymphoblastique aiguë, ALL, de l’abréviation d’allergie, qui est souvent également écrite ALL.

Selon l’audit de l’hopital, mené par le docteurs Andrew Norden et le vérifications conduites par le docteur Andrew Seidman, oncologue du Memorial Sloan Kettering Cancer Center de New York, les recommandations de traitement de Watson pendant le projet pilote sur le cancer du poumon étaient en accord avec celles de ses enseignants humains près de 90 % du temps. “C’est un niveau de précision très élevé”, reconnait Norden.

Mais une autre médecin, le docteur Abernethy complète le propos : “Que signifie réellement une précision de 90 % ?”. Et d’ajouter “cela signifie-t-il que pour des scénarios cliniques courants, la technologie s’est trompée 10 % du temps ? Ou cela signifie-t-il que 10 % du temps, Watson n’a pas pu aider dans les cas plus difficiles pour lesquels les décisions de traitement ne sont pas si évidentes ?”. Et que faire de ces 10% de diagnostics trompeurs qui conduisent des patients dans des scénarios thérapeutiques erronées pouvant conduire au décès ?

Question cruciale: jusqu’à quel point l’erreur (d’un taux plutôt élevé de surcroit) diagnostique d’un système d’Intelligence Artificielle est-elle acceptable ? Plus acceptable que celle d’un médecin ?

Demander un second, voire un troisième avis lors d’une maladie grave est une pratique courante du patient, comment s’exerce cette faculté avec un système informatique automatisé ?

ChatGPT entre dans la danse

On avait donc – lorsque ChatGPT entre dans la danse en 2022 – un historique tumultueux de la liaison dangereuse entre IA et diagnostic. Et qui pourtant n’allait pas arrêter nos apprentis sorciers (pardon médecins) de remettre le couvert. Imaginez ! Dans un contexte de pénurie de médecins et de coûts de santés de plus en plus difficiles à supporter, un agent conversationnel automatisé sur-intelligent qui après quelques questions peut vous orienter vers le bon traitement ou le bon médecin. Le remède miracle !

Sur le site d’OpenAI, encore aujourd’hui, un fournisseur d’agents (des entreprises qui utilisent les outils d’OpenAI pour créer leur propre service) affirme que ChatGpt peut servir d’assistant médical de diagnostic6. Mieux, un article du New York Times de novembre 2024 prétends en se basant sur une seule étude très préliminaire, que ChatGPT fait mieux que les médecins pour diagnostiquer les maladies ! Diantre, on nous referait donc le coup de la radiologie ?

Deux ans après, qu’en pensent les médecins ? A nouveau, après l’enthousiasme exagéré et les prétentions déraisonnable, quelques professionnels testent de façon rigoureuse l’agent et découvre qu’hallucinations ne riment pas avec soins de qualité. Le National Institute of Health nous affirme sans détour dans une étude que ChatGPT, dans sa forme actuelle, n’est pas précis en tant qu’outil de diagnostic. ChatGPT ne garantit pas nécessairement l’exactitude des informations, malgré la vaste quantité de données sur lesquelles il a été

formé. D’autres études toutes aussi sérieuses arriveront à la même conclusion : les large langage models n’améliorent pas le diagnostic et donc ne devraient pas être utilisé dans leur état actuel7 !

L’IA est-elle dangereuse pour la santé ?

A la lumière de ces exemples répétés de mauvais usages de l’IA dans le domaine du diagnostic médical, il ne fait guère de doute que les différentes applications de ces technologies dans le monde de la santé doivent être prises avec d’infinies précautions. Praticien de l’IA, je me souviens de la surprise de mon médecin de famille (j’ai la chance d’en avoir un), quand je lui ai indiqué que je refuserais d’être diagnostiqué par Watson (ou ses équivalents).

On rappellera que toutes les ‘expériences’ qui viennent d’être décrites ont un point commun : elles sont le produit d’entreprises commerciales qui ont un intérêt financier à aller vite et à s’affranchir des normes de santés contraignantes. Le milieu scientifique est lui contraint par des normes, fixées par des agences de santé et supervisées par des comités d’éthiques: on ne valide pas une méthode thérapeutique sans précautions.

Que conclure ? Que si l’interdisciplinarité est un bienfait (de facto, la création de nouveaux médicaments par les modèles d’IA génératifs est une prouesse très prometteuse), les informaticiens devraient se garder d’affirmer que des modèles d’IA vont révolutionner les soins de santé. Et de leur côté, les professionnels de santé devraient se garder d’utiliser l’IA sans s’être assuré préalablement que ce qui fait le succès de la médecine moderne – la vérification clinique de l’efficacité thérapeutique d’une méthode – a correctement été conduite pour les modèles d’Intelligence artificielle.

Les enjeux de l’intelligence artificielle dans le contexte municipal

L’intelligence artificielle, par ces capacités d’améliorer la productivité, d’enrichir l’offre de service, et d’aider les décideurs à mieux comprendre et exploiter les données, s’invite dans toutes les organisations. La fonction publique au sens large et le monde municipal en particulier peuvent être de grands bénéficiaires de cette révolution technologique. Examinons la question ! 

Cet article a été rédigé dans le cadre de mes activités au Centre de Recherche Informatique de Montréal pour être publié dans la revue Génial, dans un dossier spécial L'IA au service du Génie urbain.
https://www.aimq.net/genial-la-revue/#genial-la-revue-132/1/

L’Intelligence artificielle, terme générique, décrit une vaste gamme de méthodes, de technologies, d’algorithmes dont la finalité est d’automatiser des tâches qui habituellement pourraient être conduites par des humains.  

Plusieurs familles de technologies d’intelligence artificielle cohabitent et leur diversité permet de remplir des missions très diverses : classer ou décider, traduire ou écrire un document, analyser des données, extraire ou trouver des informations, produire des images par exemple.  

L’apprentissage automatique est l’une de ces familles. Elle regroupe des algorithmes, dont le deep learning fait partie. Ces algorithmes, en utilisant des données, permettent d’entraîner des modèles. Ces modèles pourront avoir des missions variées : prendre une décision, classer une information ou un document, choisir la meilleure solution.  

D’autres familles de technologie, telles que les modèles génératifs sont capables d’écrire des textes, de produire des traductions, d’analyser des documents ou de produire des images. 

L’IA un atout pour les services aux citoyens

Dans un contexte économique ou l’amélioration de la productivité, tout en maintenant une qualité de service irréprochable, l’intelligence artificielle peut offrir des services améliorés ou nouveaux aux citoyens.  

Ces citoyens, de plus en plus autonomes avec les technologies digitales (applications mobiles, gestion de demandes et de services par Internet) et qui par conséquent deviennent plus exigeants. Habitués aujourd’hui à ce qu’une décision de crédit hypothécaire puisse être obtenue en ligne en quelques minutes, ou que l’accomplissement d’une formalité de base avec un commerçant puisse être conduite avec un agent conversationnel sans avoir à subir de longues attentes téléphoniques, l’usager de services publics tends à exiger le même niveau d’agilité et d’efficacité lors de l’accomplissement des formalités en lien avec un service public.  

Amélioration de la vitesse de prise de décision, efficacité des agents avec lesquels il interagit, bonne gestion des fonds publics, nombreuses sont les fonctions d’une municipalité qui peuvent être améliorées, augmentées, voir pour tout ou partie prises en charge par l’intelligence artificielle.  

Quelques exemples. S’il n’est pas toujours possible d’automatiser complètement une tâche impliquant une décision, il est souvent possible d’en prendre en charge une partie avec l’intelligence artificielle.  

La délivrance de toutes les formes de permis, de subventions, et plus généralement toute forme de tout type de décision en relation avec une demande d’administré, en est un bon exemple : dans de nombreux cas d’usage, l’autorisation est une simple formalité et seul quelques demandes requièrent une analyse humaine poussée. Il serait possible d’imaginer une délivrance de permis de construire ou de démolir automatisée dans 90% des cas, grâce à un système d’intelligence artificielle, capable par ailleurs de requérir une intervention humaine pour les 10% de cas restants.  

On peut imaginer aisément la transformation de la relation entre une municipalité et ses administrés que pourrait apporter l’IA, si celle-ci était capable de leur donner une décision – aujourd’hui traitée manuellement en semaines, voire des mois – instantanément, en ligne en quelques secondes ! Les banques en sont capables, les assurances en sont capables. Dans certains pays à forts investissements publics dans la digitalisation et l’utilisation d’intelligence artificielle comme l’Estonie, 2500 services dont 500 à destination des citoyens sont donnés en ligne.  

L’IA pour améliorer le fonctionnement de l’organisation 

L’IA peut aussi produire des effets importants dans le fonctionnement de l’organisation. L’Interaction automatisée avec l’usager en utilisant des agents conversationnels, qui peuvent aujourd’hui être vocaux, c’est à dire qui peut parler, au téléphone, en est un exemple. Mais une multitudes d’autres activités peuvent bénéficier de l’IA.  

Production de documents, traductions de qualité, en utilisant l’IA générative, bonne gestion des archives, de l’accès à l’information. Les gains produits par l’intelligence artificielle, on le voit, peuvent bénéficier à la productivité de l’organisation dans son ensemble.   

Les méthodes de gestion de grands volumes de données peuvent aussi aider les organisations à mieux gérer leurs actifs. Des outils très sophistiqués – qui intègrent l’IA – aident aujourd’hui des agents publics à optimiser la gestion du patrimoine immobilier de grandes villes ou à améliorer la maintenance préventive de ses équipements. La STM – opérateur de transport urbain à Montréal – par exemple, a mis au point de nombreux outils exploitant les données et l’IA pour améliorer la maintenance préventive de ses équipements. Avec des modèles d’IA correctement configurés, on peut prévoir la panne d’un bus, d’un métro, ou d’un véhicule de police, et changer la pièce préventivement.  

Même les arbres d’une ville peuvent bénéficier de l’IA ! Au Québec, la Chaire de recherche sur la forêt urbaine de l’UQAM aide de nombreuses municipalités, en utilisant plusieurs méthodes d’IA, à gérer au mieux leur patrimoine sylvicole.  

Dans plusieurs pays d’Europe, l’administration fiscale par exemple utilise des méthodes à base d’Intelligence artificielle pour améliorer le recouvrement fiscal ou détecter les appels d’offres frauduleux. En analysant les données avec les algorithmes appropriés, il est possible d’identifier les fraudeurs et de réduire l’économie parallèle. 

Comment intégrer l’IA dans une municipalité 

Aujourd’hui l’intégration de l’Intelligence artificielle dans les organisations gouvernementales, et les municipalités n’y échappent pas, est souvent difficile. Le point commun de toutes les organisations publiques est d’avoir mis en place des solutions informatiques depuis des décennies. Des systèmes informatiques complexes, souvent assemblés sans stratégie coordonnée, sont devenus des difficiles à faire évoluer. Leurs données – essentielles pour déployer l’Intelligence Artificielle – sont souvent difficiles d’accès, et rarement documentés (ce qui les rends quasiment inutilisables).  

On a pu le voir avec le projet SAAQ Clic ou le logiciel de paye Phoenix, les investissements, la volonté publique, ne suffisent pas à rendre la transition digitale simple. Or la transition vers l’intelligence artificielle ne peut se faire qu’avec une base digitale solide fiable et correctement architecturée. Une infrastructure informatique moderne, capable d’évoluer, et dont les données sont accessibles et documentées.  

Si installer les modèles génératifs tels que Copilote de Microsoft est relativement simple et rapide puisque prise en charge en même temps que l’évolution des moyens bureautiques, il n’en va pas de même pour les applications d’IA plus innovantes. Et Copilote, ou plus généralement les technologies d’IA intégrées dans des applications de gestion telles que des CRM, SAP ou SalesForce, ne suffisent pas pour déployer toutes les applications innovantes que nous venons de décrire. Ils améliorent la productivité de l’individu, et l’efficacité de l’organisation, mais ne permettent que rarement de déployer des services innovants 

La principale difficulté pour l’organisation publique, et la municipalité ne fait pas exception, sera pour déployer les dernières technologies de l’IA et transformer radicalement l’expérience du citoyen, de repenser son système d’information et de s’adjoindre les compétences nécessaires pour penser différemment.

La municipalité du futur passe par l’IA ! 

On vient de le voir, une municipalité qui maximise les apports de l’Intelligence artificielle change radicalement son mode de fonctionnement, son image, et son rapport au citoyen. La population – aujourd’hui complément éduquée aux technologies digitales – deviendra de plus en plus exigeante sur ce point. Elle voudra bénéficier de services et d’échanges efficaces avec une administration informée et agile : c’est ce qu’elle obtient avec ses fournisseurs de services commerciaux. L’IA en sera une composante inévitable. 

Imagine a chapter from a Stephen King book coming out of an insurer’s bot!

“Producers of LLMs (Large Language Models) are demanding an exemption from copyright laws. This has become a hot topic in the world of generative AI as major companies such as OpenAI and Meta are being sued for not respecting the rights of authors whose books or press articles are used to train their models.”

A French version of this post is available here

The problem is that it’s not just a question of training material (it has long been accepted, for example, that you can crawl websites to create an index of sites in a search engine without infringing copyright since you don’t ultimately make this content available). We’re talking about the outright restitution of non-free content in its entirety, as demonstrated, for example, by the New York TImes’ recent lawsuit against OpenAI.

The current proceedings reveal that LLMs used as simple language models or in generative chat mode make it possible to extract the literal content of texts used for training and that some of these texts are not free of rights and have been stolen. How far can LLM providers take precautions to prevent what has hitherto been considered an illegal infringement of intellectual property rights?

Front image of this post generated using Stable diffusion, with the prompt 'a greedy businessman looking like mark zuckenberg stole a book in a computer shop'

Do LLMs have a memory of their training data?

To fully understand what’s at stake and how it all works, let’s look back at the history of the term generative model: generative models are not an invention made possible by deep learning. They are much older: they were first presented in the 1950s by Claude Shannon in his Mathematical Theory of Communication.

As taught at universities in the 90s and beyond, a generative model was understood to be a probabilistic modeling of the symbols of a language (probability of n successive symbols or n-grams) as described by Shannon in his theory. An n-gram language model applies to any type of symbol making up a vocabulary: human DNA (with its four letters GATC) can be modeled very well in n-grams. This type of model is called generative because it is theoretically capable of representing all the sequences of a symbolic language, even if they are infinite, as is the case with human language (in practice, this is not entirely accurate, due to so-called non-vocabulary words, but that’s a subject for another day).

This means that, in theory, an n-gram model would be capable today of generating a book that would only be written in a few years (which defies imagination, doesn’t it?).

Google’s n-grams viewer is online, allowing you to track the use of a text sequence over time. In particular, it shows that the term Large Language Model didn’t exist until the 2010s ! https://books.google.com/ngrams/graph?content=language+model&year_start=1800&year_end=2019&corpus=en-2009&smoothing=3

In this way, all existing or future writings of the French language can be represented by an n-gram model of the successive words of this language, provided that the learning corpus is sufficiently large. The best-known n-gram models are those published by Google (2000s), calculated up to 5 grams (1,2,3,4, and 5 consecutive words) from web texts and used to boost its search engine performance. Before Google’s model, IBM’s first probabilistic machine translation system (late 90s) also used an n-gram language model.

Mor about n-grams models in this chapter of Pr Jurafsky book https://web.stanford.edu/~jurafsky/slp3/3.pdf

An important point for a better understanding of the rest of this story is that it is not possible, by any programmatic means, to use a language model to reconstruct all or part of the corpus of documents on which the language model has been calculated. The n-grams language model has no memory. and combinatorial explosions and the absence of any semantics in sequences of words modelized make the experiment of extracting memory from an n-gram model illusory (I’ve tried and consumed a lot of electricity to do so without success, some experiments are conducted here). This is an essential point for what follows, as many analysts have recently concluded that an LLM (which is a generative language model, but a very different one from n-gram models) can’t memorize and therefore render one of the documents on which it was learned, as claimed by the NYT in its lawsuit against OpenAI. We’ll see later that this reasoning is false, and that the opposite can be demonstrated and even explained.

The NYT's lawsuit against OpenAI shows that it is possible to reproduce copyrighted articles in extenso with the right prompt or text sequence. “Defendants seek to free-ride on The Times’s massive investment in its journalism,” the complaint says, accusing OpenAI and Microsoft of “using The Times’s content without payment to create products that substitute for The Times and steal audiences away from it.” https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
One of the examples provided by the NYT in its lawsuit shows how with the first text sequence submitted to GPT-4, the model returns as a sequel to the exact article. The NYT explains in its lawsuit how difficult it was to finalize this article to justify its value. Here, the NYT proves that GPT-4 can memorize content. Document available here https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

When the LLM regurgitates the text on which it was trained !

The proof came in the form of multiple legal proceedings: suspecting that their intellectual property had been used to train LLMs without their authorization, rights owners sought to reconstruct their writings by questioning LLMs directly or via generative chats, asking them questions. And surprise: they succeeded!

While the three authors suing Meta don’t demonstrate that their works can be reconstructed from LLAMA (they just show that LLAMA is capable of producing very detailed summaries of their works), the NYT’s lawsuit does show hundreds of articles reproduced in extenso with GPT and ChatGPT, by asking the right question. As for LLAMA, the demonstration provided was enough to force META to admit that the company had used the Books3 corpus. A corpus that interests us in more ways than one, since it is a pirate digital collection of books still under copyright (which pushes the questioning of the morality of the practice even further, since the use of stolen material is also theft).

About the Books3 data

It’s been a long time since reverse engineering allowed us to know that books – whether or not from Books3 – had been used to train generative models.

As far back as December 2022, my research group identified a prompt for reconstructing an entire Harry Potter book, simply by requesting its paragraphs one after the other. The example below, taken from a book in the public domain (La peste by A. Camus), shows that this prompt is still possible:

On the other hand, when it comes to books that are not yet in the public domain, OpenAI has added filters that no longer render excerpts of the text as shown below (although this example was perfectly functional in December 2022):

Completely impossible to obtain a copyrighted extract? Not really, OpenAI seems to have forgotten that its model is multilingual (something that Silicon Valley engineers consistently neglect, to the great benefit of reverse engineering). The same question asked in French still produced (on January 17, 2024) an extract from the book in its French version:

In light of these examples, the argument that LLMs do not memorize original documents (which is true) and therefore cannot infringe copyright falls completely flat. Without memorization, LLMs can restore all or part of their training data.

In fact, with their thousands of billions of parameters, when unfiltered, generative models from the LLMs family can regenerate original texts down to the last word, as demonstrated here (and in this article by Nasr, Milad et al. “Scalable Extraction of Training Data from (Production) Language Models.” https://doi.org/10.48550/arXiv.2311.17035.)!

How can this be explained if LLMs don’t memorize documents? As it happens, these models are now so large that they act as a data compressor during the training phase, data that can then be decompressed if we can find the right prompt, which then acts as a decoding key.

In conclusion, all these legal proceedings have an additional advantage: thanks to them, we come to know more and more about the data used to train generative models such as LLAMA Mixtral or GPT. Books3 is one example. The New York Times and all its archives, or ComonCrawl. Wikipedia corpora, freely available since the very beginning of the encyclopedia’s existence, are also used (which explains Google Bard’s understanding of Bengali and not the spontaneous generation of language – as Sundar Pinchai seemed to believe…). These data are not the only ones, as many more or less obscure corpora are being added: the existence of emails to train ChatGPT has been demonstrated, probably mathematical resources, and specialized MCQs. We know that Axel Springer, the media giant, has a content-use agreement (Politico and Business Insider) with OpenAI.

Do we need to allow exceptions to authors’ right to let tech majors train their models?

As we have seen, it is possible to reproduce an original text used to train LLMs: we showed this in this post, researchers have demonstrated it, and the New York Times lawsuit against Open AI proves it once again. In the face of this evidence, is the use of copyrighted data, whether obtained by legal means (crawling) or illegal means (the Books3 corpus), acceptable, and should it be subject to an exception, as the web behemoths are claiming with all the lobbying resources at their disposal?

OpenAI has openly declared that training AI models without using copyrighted material is “impossible”, arguing that judges and courts should reject compensation suits brought by rights holders.

For its part, Meta acknowledged that it had used parts of the Books3 dataset, but argued that its use of copyrighted works to train LLMs did not require “consent, credit or compensation“. The company refutes the plaintiffs’ claims of “alleged” copyright infringement, asserting that any unauthorized copying of copyrighted works in Books3 should be considered fair use.

One imagines that both Méta and OpenAI, if they saw data from their commercial applications (Facebook’s advertising files, for example, or the source code of ChatGPT for OpenAI) fall into the public domain following a hack (like the authors of the books included in Books3) would be quite happy for it to be reused by competitors? We know the answer, of course.

This story smacks of déjà vu: in the late 90s, Internet service providers claimed the right not to be subject to the law for the content they carried. By extension, social media (notably Facebook, Twitter, and YouTube) demanded this status and got it. In most OECD countries, they are now considered to be content hosts, and therefore exempt from the constraints imposed on the press. This impunity has enabled them to siphon off revenues from the media industry without ever submitting to the constraints of quality and verification of the said media. The overabundance of online disinformation is one of the consequences of this permissive choice made by legislators over twenty years ago.

After the press laws, the tech majors are now attacking authors’ rights. Not hesitating to use the fruits of hacking to create commercial products, in complete illegality. However, the work of an author of the written word, introduced into an LLM, produces value, and nothing justifies this value being captured without compensation. And it is certainly possible to make this technology prosper, without asking society to destroy an edifice of protection for authors patiently created over the past three centuries.

We would also add that the legal instability that is emerging around LLMs and their training data will not make their adoption any easier in large organizations, whose legal counsel will not fail to point out the legal risks they pose.

Can you imagine a chapter from a Stephen King book coming out of an insurer’s bot?