www.charton.tech

01/19/202401/19/2024

Imaginez un chapitre d’un livre de Stephen King qui sortirait du bot d’un assureur !

Les producteurs de LLM demandent à être exonérés du droit d’auteur ! C’est le nouveau sujet de l’IA générative: poursuivis de tous côté, les majors du net, OpenAI et Meta en tête, revendiquent de ne pas avoir à respecter les droits des auteurs d’ouvrages ou d’articles de presse qu’ils utilisent pour entraîner leurs modèles.

Une version anglaise de ce post est disponible ici

Le problème est qu’il ne s’agit pas uniquement d’une question de matériel d’entraînement (on a admis par exemple depuis longtemps, qu’on peut crawler des sites web pour créer un index de sites dans un engin de recherche sans violer le droit d’auteur puisqu’on ne rends pas in fine ce contenu disponible). Il s’agit ici de s’autoriser la restitution pure et simple de contenus non libres dans leur intégralité, tels que l’a démontré par exemple la récente poursuite du New York Times contre OpenAI.

Ce que révèlent les procédures en cours, c’est que les LLM utilisés comme simple modèle de langue ou en mode chat génératif ont la mémoire de tout ou partie de leurs données d’apprentissage, permettent de ressortir le contenu littéral des textes utilisés pour l’entraînement, et que certains de ces textes ne sont pas libres de droits et ont été volés. Jusqu’où va la responsabilité d’un fournisseur de LLM dans les précautions qu’il doit prendre pour empêcher que ce qui était jusqu’ici considéré comme une atteinte illégale à la propriété intellectuelle puisse se produire ?

Illustration de cet article : image générée avec Stable diffusion, en utilisant le prompt 'a greedy businessman looking like mark zuckenberg stole a book in a computer shop'

Un modèle de langue génératif peut-il recréer le texte sur lequel il a été appris ?

Pour bien comprendre les enjeux et les rouages sous-jacents, revenons un instant sur l’histoire du terme modèle génératif : les modèles génératifs ne sont pas une invention rendue possible par le deep learning. Ils sont bien plus anciens : ils ont été présentés pour la première fois dans les années 50 par Claude Shannon dans sa Théorie mathématique de la communication.

Tel qu’enseigné à l’université dans les années 90 et suivantes, on entendait par modèle génératif, une modélisation probabiliste des symboles d’un langage (probabilité de n symboles successifs ou n-grams) tel que décrite par Shannon dans sa théorie . Un modèle de langue n-gramme s’applique à tout type de symbole composant un vocabulaire : l’ADN humain (avec ses quatre lettres GATC) se modélise très bien en n-grammes. On qualifie ce type de modèle de génératif par ce qu’il est théoriquement capable de représenter la totalité des séquences d’un langage symbolique, y compris si elle est infinie, comme dans le langage humain (en pratique ce n’est pas totalement exact en raison de ce qu’on appelle les mots hors vocabulaire, mais ce sujet sera pour un autre jour) .

Le visualiseur de n-grammes de Google est en ligne et permet par exemple de suivre l’usage d’une séquence de texte à travers le temps. Il permet notamment de constater que le terme Large *Language Model* n’existe pas avant les années 2010 ! https://books.google.com/ngrams/graph?content=language+model&year_start=1800&year_end=2019&corpus=en-2009&smoothing=3

Ainsi, tous les écrits existants ou à venir de la langue francaise peuvent être représentés par un modèle n-grammes des mots successifs de cette langue, pour peux que le corpus d’apprentissage soit suffisamment vaste. Les modèles n-grammes les plus connus sont ceux publiés par Google (années 2000), calculés jusqu’au 5 grammes (1,2,3,4, et 5 mots consécutifs) d’après les textes du web et utilisés pour augmenter la performance de son engin de recherche. Avant le modèle de Google, le premier système probabiliste de traduction automatique conçu par IBM (fin des années 90) utilisait lui aussi un modèle de langue n-gramme.

Pour en apprendre plus sur les modèles n-grammes, lire ce chapitre de livre du Pr Jurafsky https://web.stanford.edu/~jurafsky/slp3/3.pdf

Point important pour la suite de cette étude: il est impossible par un moyen programmatique quelconque en utilisant ce modèle de langue de reconstituer tout ou partie du corpus documentaire sur lequel le modèle de langue n-grammes été calculé. Le modèle de langue n’a pas de mémoire. Les explosions combinatoires et l’absence de notion de sémantique dans une suites de mots et leur probabilité d’apparition rendent l’expérience à ce jour illusoire (j’ai essayé et consommé beaucoup d’électricité pour y parvenir, quelques expériences sont menée ici). C’est un point essentiel pour la suite car partant de ce principe, de nombreux analystes ont conclus récemment qu’il était impossible qu’un LLM (qui est un modèle de langue génératif mais très différent des modèles n-grammes) puisse mémoriser et donc restituer un des documents sur lequel il a été appris, tel que revendiqué par le New York Time (NYT) dans sa poursuite contre OpenAI. Nous verrons plus loin que ce raisonnement est faux, que le contraire peut être démontré et même expliqué.

La poursuite du NYT contre OpenAI et Microsoft montre qu'il est possible de reproduire in extenso des articles sous droits d'auteur avec le bon prompt ou la bonne séquence de texte. “Defendants seek to free-ride on The Times’s massive investment in its journalism,” the complaint says, accusing OpenAI and Microsoft of “using The Times’s content without payment to create products that substitute for The Times and steal audiences away from it.” https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

Un des exemples fournis par le NYT dans sa poursuite qui montre comment avec la première séquence de texte soumise à GPT-4, le modèle retourne comme suite l’exact article. Le NYT explique dans sa poursuite à quel point cet article à été difficile à finaliser pour justifier sa valeur. Le NYT prouve ici que GPT-4 peut *mémoriser* un contenu. Document accessible ici https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf

Quand le LLM régurgite le texte sur lequel il a été appris !

Et la démonstration est venue de multiple procédure judiciaires : soupçonnant que leur propriété intellectuelle avait été utilisée pour entraîner des LLM sans leur autorisation, des propriétaires de droits ont cherché à reconstituer leurs écrits en interrogeant les LLM directement ou via les chats génératifs, en leur posant des questions. Et surprise : ils y sont parvenus !

Si les trois auteurs qui poursuivent Meta ne démontrent pas qu’on peut reconstituer leurs ouvrages depuis LLAMA (ils montrent juste que LLAMA est capable de produire des résumés très détaillés de leurs œuvres), on peut en revanche retrouver dans la poursuite du NYT des centaines d’articles reproduits in extenso avec GPT et ChatGPT, en lui posant la bonne question. Et pour ce qui est LLAMA, la démonstration des auteurs plaignants a suffi pour forcer Meta à admettre que l’entreprise avait utilisé le corpus Books3. Un corpus qui nous intéresse à plus d’un titre puisqu’il s’agit d’un recueil digital pirate de livres encore sous droits d’auteurs (ce qui pousse encore plus loin le questionnement sur la moralité de la pratique puisque l’utilisation d’un matériau volé est aussi du vol).

Qu'est ce que Books3 ?
Books3 est un ensemble de données contenant 196 640 livres au format texte non libres de droits rédigés par des auteurs tels que Stephen King, Margaret Atwood et Zadie Smith, utilisés pour entraîner des modèles de langage. Assemblé en 2020 par Shawn Presser, défenseur de l'open source, il est hébergé par The Eye, un site Web « dédié à l'archivage et à la diffusion d'informations accessibles au public ».

Le cas de Books3

Il y a très longtemps que l’ingénierie inverse nous permet de savoir que des livres – issus ou non de Books3 – ont été utilisés pour entraîner les modèles génératifs.

Dès le mois de décembre 2022, nous avions identifié dans mon groupe de recherche un prompt permettant de reconstituer un livre entier de Harry Potter, simplement en demandant ses paragraphes les uns après les autres. On peut voir dans l’exemple ci dessous, pris sur un livre dans le domaine public (La peste de A. Camus) que cette possibilité de prompt demeure :

En revanche, dès qu’il s’agit d’un livre qui n’est pas encore dans le domaine public, OpenAI a manifestement ajouté des filtres qui ne permettent plus de restituer les extraits du texte comme on le voit si dessous (alors que cette exemple était parfaitement fonctionnel en décembre 2022) :

Complètement impossible d’obtenir un extrait sous copyright ? Pas vraiment, OpenAI semble avoir oublié que son modèle était multilingue (quelque chose que les ingénieurs de la Silicon Valley négligent avec constance pour le plus grand profit de l’ingénierie inverse). La même question posée en français produit toujours le 17 janvier 2024) un extrait du livre dans sa version française :

Ajoutons à la lumière de ces exemples que l’argument de ceux qui voudraient que les LLM ne mémorisent pas les documents originaux (ce qui est vrai) et donc qu’ils ne sauraient enfreindre le droit d’auteur tombe complètement à l’eau. Sans mémorisation, les LLM sont bel et bien en mesure de restituer tout ou partie de leurs données d’apprentissage.

En réalité avec leurs milliers de milliards de paramètres, lorsqu’ils ne sont pas filtrés, les modèles génératifs de la famille des LLM permettent bien de régénérer au mot près des textes originaux comme la démonstration en est faite ici (et par cet article de Nasr, Milad et al. “Scalable Extraction of Training Data from (Production) Language Models.” https://doi.org/10.48550/arXiv.2311.17035.) !

Comment l’expliquer si les LLM ne mémorisent pas les documents ? En l’occurrence, ces modèles sont aujourd’hui si grands qu’ils agissent apparemment comme un compresseur de données lors de la phase l’entraînement, données qu’il est ensuite possible de décompresser pour peux que nous trouvions le bon prompt (ou la bonne séquence) qui agit alors comme une clé de décodage. On ne connaît pas encore exactement les mécanismes de la mémorisation des données d’entraînement par les LLM, mais il ne fait plus aucun doute aujourd’hui que cette capacité existe pour un pourcentage non négligeable de ces données (des expériences commencent à apparaître).

Mentionnons pour conclure sur ce point que toutes les procédures judiciaires que nous venons de mentionner ont un avantage supplémentaire: grâce à elles, on finit par en savoir de plus en plus sur les données utilisées pour entraîner les modèles génératifs tels que LLAMA Mixtral ou GPT. Books3 est un exemple. le New York Times et toutes ses archives, ou encore ComonCrawl en sont d’autres. Les corpus de Wikipedia, disponible librement depuis les débuts de l’existence de l’encyclopédie sont eux aussi utilisés (ce qui explique la compréhension du Bengali par Google Bard et non la génération spontanée du langage – comme semblait le croire Sundar Pinchai …). Ces données ne sont pas les seules, de très nombreux corpus plus ou moins obscurs sont assurément ajoutés: on a démontré l’existence d’emails pour entraîner ChatGPT, probablement des ressources mathématiques, des QCM spécialisés. On sait qu’Axel Springer, mastodonte de la presse, a un accord de réutilisation de contenu (Politico et Business Insider) avec OpenAI.

L’exception au droit d’auteur pour les LLMs est elle une bonne idée ?

On l’a vu, il est possible de reproduire un texte original utilisé pour entraîner un LLM : nous l’avons montré dans ce post, des chercheurs l’ont démontré, la poursuite du New York Times contre Open AI le prouve à nouveau. Face à cette évidence, l’utilisation de données sous droits d’auteur, qu’elles soient obtenues par des moyens légaux (le crawl) ou illégaux (le corpus Books3) est elle acceptable et devrait elle faire l’objet d’une exception, comme le revendiquent avec tous les moyens de lobying dont ils disposent les mastodontes du web ?

OpenAI a ouvertement déclaré que la formation de modèles d’IA sans utiliser de matériel protégé par le droit d’auteur est « impossible », arguant que les juges et les tribunaux devraient rejeter les poursuites en indemnisation intentées par les titulaires de droits.

De son côté, Meta a reconnu avoir utilisé certaines parties de l’ensemble de données Books3, mais a fait valoir que son utilisation d’œuvres protégées par le droit d’auteur pour former des LLM ne nécessitait pas « de consentement, de crédit ou de compensation ». La société réfute les allégations de violation des droits d’auteur « présumés » des plaignants, affirmant que toute copie non autorisée d’œuvres protégées par le droit d’auteur dans Books3 devrait être considérée comme un usage loyal.

On imagine que tant Méta que OpenAI, s’ils voyaient les données de leurs applications commerciales (les fichiers publicitaires de Facebook par exemple ou le code source de ChatGPT pour OpenAI) tomber dans le domaine public suite à un hack (comme les auteurs des livres inclus dans Books3) seraient tout à fait d’accord pour qu’il soit réutilisé par des compétiteurs ? On connaît évidemment la réponse.

Cette histoire a un goût de déjà vu : à la fin des années 90, les fournisseurs d’accès Internet ont revendiqués le droit de ne pas être soumis à la loi pour les contenus qu’ils véhiculaient. Par extension, les médias sociaux (Facebook, Twitter, Youtube notamment) ont demandés eux aussi à bénéficier de ce statut, ce qu’ils ont obtenus. Dans la plupart des pays de l’OCDE, ils sont ainsi considérés comme des hébergeurs de contenu et à ce titre exonérés des contraintes qui pèsent sur la presse (notamment en matière de diffamation). Cette impunité leur a permis de littéralement siphoner les revenus de l’industrie des médias sans jamais se soumettre aux contraintes de qualité et de vérification des dits médias. La surabondance de la désinformation en ligne est l’une des conséquences de ce choix permissif fait par les législateurs il y a plus de vingt ans.

Après les lois sur la presse, c’est au droit des auteurs que les majors de la tech s’attaquent. N’hésitant pas à utiliser le fruit du hacking pour créer des produits commerciaux, en toute illégalité. Le travail d’un auteur de l’écrit, introduit dans un LLMs, produit pourtant de la valeur, et rien ne justifie que cette valeur soit captée sans contrepartie. Et il est certainement possible de faire prospérer cette technologie, sans pour autant demander à la société de détruire un édifice de protection des auteurs patiemment créer sur les trois derniers siècles. On ajoutera aussi que l’instabilité juridique qui se dessine autour des LLM et de leur données d’entraînement ne va pas faciliter leur adoption dans les grandes organisations dont les conseils ne manqueront pas de rappeler les risques légaux qu’ils posent.

Vous imaginez un chapitre d’un livre de Stephen King qui sortirait du bot d’un assureur ?

01/14/202401/14/2024

Are general purpose generative models a good fit for financial industry applications ?

Coups sur coups, nous avons vu apparaître les modèles génératifs sur mesure proposés par Bloomberg (BloombergGPT, et JP Morgan (DocLLM). La question s’est alors légitimement posée de savoir pourquoi ces entreprises du monde de la finance s’étaient dirigées vers la création de leurs propre modèles génératifs plutôt que d’utiliser les versions universelles disponibles (ChatGPT ou LLAMA par exemple) et si ce choix est pertinent.

In 2023, many tailor-made generative models emerged. The idea behind developing such models was simple: universal models like GPT are trained on data covering a wide range of topics (Wikipedia, web crawl, public domain books, etc.), and they produce many errors when applied to NLP tasks required in specific fields like finance. So, by training a language model more specifically with topic-oriented data, we can reduce errors and increase performance.

This is an interesting perspective – and a very costly one – as training LLMs is highly expensive: we do not speak here about fine-tuning the model but about the model trained from scratch. Two actors of US finance made the experiment. Bloomberg with BloombergGPT, and JP Morgan with DocLLM. Is this choice a valid one? Let’s investigate first the two models and then read a paper that made comparative experiments with one of those models.

The new finance-specialized models

BloombergGPT (Wu et al., 2023) is a language model with 50 billion parameters. It is trained using a mixed approach to cater to the financial industry’s diverse tasks. The dataset is made of 363 billion tokens based on Bloomberg’s extensive data sources, augmented with 345 billion tokens from general-purpose datasets. In the original paper, the model is evaluated on standard LLM benchmarks, open financial benchmarks, and Bloomberg-internal benchmarks (see the announcement here). We will see later that while the BloombergGPT team claims that the model significantly outperforms existing models in financial tasks and performs on par or even better in some general NLP benchmarks it is not so simple. BloombergGPT when launched, was tested on specialized LLMs (GPT-NeoX, OPT, BLOOM, and PALM) but not on universal models like GPT. We go deeper on this later.

DocLLM from JP Morgan is less ambitious or more focused on document analysis-related tasks: information extraction, natural language inference, visual question-answering, and document classification (while BloombergGPT is intended to work also with question-answering tasks). DocLLM is a lightweight extension to traditional large language models dedicated to reasoning over visual documents, considering both textual semantics and spatial layout. The model differs from existing multimodal LLMs by avoiding expensive image encoders and focusing exclusively on bounding box information to incorporate the spatial layout structure. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. The authors claim that their solution outperforms state-of-the-art LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.

As we can see, the objectives of those two models are very different. One intends to outperform ChatGPT or LLAMA (and any universal models) on financial NLP tasks, the other is a specialized tool to question document content. A common point of those two models: they are not public and are intended to be used internally by their organization. As a consequence, it is impossible to verify the test measures provided by Bloomberg and JP Morgan or make new experiments. However, it is still possible to compare the performances of BloombergGPT evaluated with standard public metrics. That’s the objective of the paper we will detail now.

To write this post we used / pour écrire cet article, nous avons consulté:

Li, Xianzhi, Samuel Chan, Xiaodan Zhu, Yulong Pei, Zhiqiang Ma, Xiaomo Liu, and Sameena Shah. “Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? A Study on Several Typical Tasks.” In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: Industry Track, edited by Mingxuan Wang and Imed Zitouni, 408–22. Singapore: Association for Computational Linguistics, 2023. https://doi.org/10.18653/v1/2023.emnlp-industry.39.

Wang, Dongsheng, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, and Xiaomo Liu. “DocLLM: A Layout-Aware Generative Language Model for Multimodal Document Understanding.” arXiv, December 31, 2023. https://doi.org/10.48550/arXiv.2401.00908.

Wu, Shijie, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, and Gideon Mann. “BloombergGPT: A Large Language Model for Finance.” arXiv, December 21, 2023. https://doi.org/10.48550/arXiv.2303.17564.

A first general study of generic generative models applied to finance

In the EMNLP paper Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? A study on Several Typical Tasks (published in December 2023), the authors conduct numerous experiments to try to give answers to the following questions:

The most recent large language models (LLMs) such as ChatGPT and GPT-4 have shown exceptional capabilities of generalist models, achieving state-of-the-art performance on a wide range of NLP tasks with little or no adaptation. How effective are such models in the financial domain? Understanding this basic question would have a significant impact on many downstream financial analytical tasks.

This is precisely the question we would like to answer about the specialized LLMs: is it worth it for an organization to invest the money required to build and train such a model? The potential of generative AI in finance is huge, but can only be delivered if the applications are viable. Many in the finance industry who have tried yet to apply generative AI for summarisation, decision help, document processing, question answering, or information retrieval have faced some headwinds in the form of unstable applications (you can’t maintain the performance of a given task), very low application performances (sometimes the tasks are properly handled but for on only 20% of the requests, the rest is ignored or wrong) and high error rates (hallucinations notably). Performance is key in a financial context: in a highly regulated environment, giving wrong advice, erroneous answers, or bad transcription of a document to customers or employees can have unacceptable (and costly) consequences.

What is interesting in this EMNLP paper is that the standard experiments conducted compare GPT and ChatGPT (including version 4) with BloombergGPT on five NLP tasks (summarized in the table below). Sentiment analysis, classification, named entity recognition (NER), question answering, and relation extraction. A set of historical NLP tasks (investigated by labs for more than 30 years now) that represents a big chunk of finance industry NLP needs. And the results are… interesting!

The test corpora used are classic of the domain. For sentiment analysis, Financial Phrase Bank, a typical three-scale (positive, negative, and neutral) sentiment classification task curated from financial news by 5-8 annotators (Malo et al., 2013), FiQA Sentiment Analysis, a dataset used to extend the task complexity to detect aspect-based sentiments from news and microblog in the financial domain, and TweetFinSent. Pei et al. (2022) ad dataset based on Twitter to capture retail investors’ moods regarding a specific stock ticker.

For headline classification, the authors use the news headlines classification dataset (Sinha and Khandait, 2020) from the FLUE benchmark (Shah et al., 2022). This classification task targets to classify commodity news headlines into one of the six categories like “Price Up” and “Price Down”. We could challenge this choice as the classification task in the finance industry is not only related to prices from a headline but can be much more diverse than that.

The NER task is conducted with NER FIN3 datasets, created by Salinas Alvarado et al. (2015) using financial agreements from SEC and containing four named entity types: PER (person), LOC (location), ORG (organizations), and MISC. Following the setting used in BloombergGPT, the authors remove all entities with the MISC label due to its ambiguity. Again this is a very restrictive NER test set that does not necessarily comply with finance industry needs: document information extraction in the finance and insurance industry for example involves events, product names, procedures names.

On relation extraction, the authors use the REFinD data set. This specialized financial relation extraction dataset is constructed from raw text sourced from various 10-X reports (including but not limited to 10-K and 10-Q) of publicly traded companies. These reports were obtained from the website of the U.S. Securities and Exchange Commission (SEC).

So the test sets chosen are not always the most recent, but they have one crucial advantage: they allow us to compare the real performances of universal models like ChatGPT and specialized models like Bloomberg by re-using the experiments results already published by Bloomberg. In other words, the author found a (nice) way to validate the real usefulness of BloombergGPT without having access to it. And the results are astonishing!

Experiments and results

On the sentiment analysis task, GPT 4 strongly outperforms BloombergGPT. Finbert (a BERT like LLM fine-tuned for finance) also. With a gap of more than 30 points in the F1 Score, there is no advantage to using BloombergGPT on opinion mining evaluation on the Financial PhraseBank dataset.

The results of the FiQA sentiment analysis are better but still, BloombergGPT underperforms GPT 4 (by over 10 points on the weighted F1 score).

On the headline classification task BloombergGPT underperforms ChatGPT 4 by 2 points using the F1 score, but, BERT alone overperforms both of them by more than 10 points! This is fascinating as BERT is now an old language model (published in 2018).

On NER recognition – a crucial task to automate some complex document digitalization tasks in multiple industries ( NER is used for example to recognize the name of a person or an address from a scanned document, and feed a database with it), the results are surprising. The best F1 scores on this task are still those defined by the state of the art of the 2010s, using CRF classifiers! CRF specially trained on the FIN5 data overperform GPT-4 by 26 points, and BloombergGPT by 22 points! There is here a legitimate question for a practitioner on the validity of LLMs usage for the NER tasks.

On the question-answering task, GPT4 outperformed BloombergGPT (and the other models) by more than 30 points.

A general remark: you can see in every above result table (coming from the EMNLP paper) that GPT 4 (the LLM model) overperforms ChatGPT 4 (the generative model) in all experiments. This means that using generative chat models through prompting is not necessarily the best-performing solution for NLP tasks. Something that has been demonstrated with consistency in the recent literature (see for example the systematic study conducted with the help of Royal Bank of Canada scientists below): prompting ChatGPT to extract named entities, relations, or answer questions is not performing as well as building a system the traditional way, using the sole LLM (like GPT or BERT) as a classifier.

A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets
[...] In this paper, we aim to present a thorough evaluation of ChatGPT's performance on diverse academic datasets, covering tasks like question-answering, text summarization, code generation, commonsense reasoning, mathematical problem-solving, machine translation, bias detection, and ethical considerations. Specifically, we evaluate ChatGPT across 140 tasks and analyze 255K responses it generates in these datasets. By providing a thorough assessment of ChatGPT's performance across diverse NLP tasks, this paper sets the stage for a targeted deployment of ChatGPT-like LLMs in real-world applications.
Laskar, Md Tahmid Rahman, M. Saiful Bari, Mizanur Rahman, Md Amran Hossen Bhuiyan, Shafiq Joty, and Jimmy Xiangji Huang. “A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets.” arXiv, July 5, 2023. https://doi.org/10.48550/arXiv.2305.18486.

Conclusions: a difficult and perilous path …

According to all those experiments, it is clear that on many NLP tasks, specialized models like BloombergGPT do not perform as well as universal models like GPT-4. More surprising are the experimental results when they tell us that previous state-of-the-art classifiers (like CRF) or simple language models (like BERT) still outperform generative models on NLP tasks like NER recognition or text classification. What comes from this analysis is that generative models are so new that they are highly complex to tune for specific NLP tasks and not so easy to feed with specific training data to better fit a topic like finance. An interesting finding for future deployments of this technology.

12/27/2023

AI news of the year 2023 week 52

This week we have big news: a new lawsuit from the New York Times and the public launch of Bing image generator.

The New York times sues Open AI and Microsoft over copyright infringement !

The New York Times sued OpenAI and Microsoft for copyright infringement on Wednesday, opening a new front in the increasingly intense legal battle over the unauthorized use of published work to train artificial intelligence technologies (see here).

”As outlined in the lawsuit, the Times alleges OpenAI and Microsoft’s large language models (LLMs), which power ChatGPT and Copilot, “can generate output that recites Times content verbatim, closely summarizes it, and mimics its expressive style.” This “undermine[s] and damage[s]” the Times’ relationship with readers, the outlet alleges, while also depriving it of “subscription, licensing, advertising, and affiliate revenue.”” (see in The Verge)

This is big news to close the year 2023 as it will create legal instability around the most notorious LLMs (Open AI API is used in most of the start-ups apps and Bing and Office 365 Copilot are the star product of Microsoft for 2024).

As explained in The Verge, The New York Times is one of many news outlets that have blocked OpenAI’s web crawler in recent months, preventing the AI company from continuing to scrape content from its website and using the data to train AI models. The BBC, CNN, and Reuters have moved to block OpenAI’s web crawler as well. […] Axel Springer, which owns Politico and Business Insider, struck a deal with OpenAI earlier this month that allows ChatGPT to pull information directly from both sources, while the Associated Press is allowing OpenAI to train its models on its news stories for the next two years.

Bing image creator is here

Image Creator helps you generate AI images with DALL-E right from the sidebar in Microsoft Edge. Given a text prompt, our AI will generate a set of images matching that prompt. It’s free, there’s no waitlist, and you don’t even need to use Edge to access it. You can use it here. You can read more about it in this article.

We made a comparison between stable diffusion and the Bing image generator using some prompts (the below prompt is an example). In this example the StableDiffusion version is more detailed and fine, but the Bing version really draw what was in the prompt (including rj45 cables). Visually, both are good and allow a good chunk of creativity. Using multiple generators to benefits from all their subtle variations will probably become a common generation method in the future.

A machine intended to measure a steam engine. The scene is in a steam punk world with many pipes in the background. the machine is connected to a computer network using many colored rj45 links