01-Data – Page 2 – AIthical.biz

IA générative et droit d’auteur : quelle place pour les données européennes protégées à l’ère de l’IA ?

Beau cadeau de France Digitale à deux titres : une très didactique explication des différentes composantes de l’IA et une proposition de modèle pour sortir des deux mauvaises solutions vers lesquelles on se dirige. D’un part, les droits d’auteurs doivent être respectés et les médias ne devraient pas de se faire piller leurs contenus. Mais de l’autre côté, s’ils bloquent, c’est l’assurance de n’avoir que des modèles américains ou chinois et de voir les LLM ignorer des pans de la culture européenne dans ses réponses. La solution proposée ne prétend pas être parfaite, mais elle a le mérite de poser le débat au bon endroit.

Data d'entraînement

Why AI bias may be easier to fix than humanity’s

Nous sommes truffés de biais, nos décisions en sont influencées, ce qui fait de chacun d’entre nous des racistes, misogynes et classistes. Oui, oui, aujourd’hui dans nos entreprises. Même si on essaie de s’améliorer, avouons que les progrès sont lents. On reproche souvent à l’IA ses biais. Mais ils viennent de nous. D’où les scénarii dystopiques. Et si l’IA était la solution ? Bien entraînée, elle pourrait devenir meilleure que l’humain pour prendre des décisions sur un emploi, un prêt, etc. Cela n’engage que moi, mais je ferai plus confiance à une telle IA qu’à des humains.

Biais des résultats

Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools

Fascinante étude qui prend enfin le temps d’entrer sur des tests très précis et documentés de la performance des modèles d’IA dans le juridique. Un clan fermé d’acteurs très bien installés et financés et pourtant des performances très éloignées de leur discours marketing. Bien sûr que les progrès vont venir, mais pourquoi faire croire que les hallucinations n’existent plus, même avec du RAG et surtout dans un domaine aussi sensible que le juridique ?
Si vous voulez éviter les 38 pages, les principaux passages en 3 ou 4 pages…

Data d'entraînement

La BNF prête à ouvrir ses archives pour franciser des modèles d’IA

Probablement une excellente nouvelle pour les business aussi : plus les données d’entrainement seront locales ou européennes, plus les résultats que les LLM produisent sembleront pertinents. On oublie souvent que les LLM actuels sont entrainés sur les données du Web, elles-mêmes pas représentative de la société ou l’histoire américaine. C’est d’ailleurs pour que ça que tous les acteurs essaient de négocier avec les groupes de presse. Autant dire qu’on n’a pas être surpris des “hallucinations” sur des recherches spécifiques sur l’histoire ou l’économie française.

Data d'entraînement

OpenAI: Our approach to data and AI

Media Manager permettra en 2025 aux artistes et aux créateurs de contenus, y compris les médias, de revendiquer la paternité de leurs productions et de spécifier s’ils souhaitaient ou non autoriser la société à les utiliser pour entraîner ses modèles d’IA générative. Ca sent l’IA Act mais ne règle pas tout, de loin.

Propriété intellectuelle des données

Catégorie : 01-Data

IA générative et droit d’auteur : quelle place pour les données européennes protégées à l’ère de l’IA ?

Why AI bias may be easier to fix than humanity’s

Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools

La BNF prête à ouvrir ses archives pour franciser des modèles d’IA

OpenAI: Our approach to data and AI

Leaked Deck Reveals How OpenAI Is Pitching Publisher Partnerships

Stack Overflow and OpenAI Partner to Strengthen the World’s Most Popular Large Language Models

Inside Big Tech’s underground race to buy AI training data

Les grands défis de l’IA générative

How Tech Giants Cut Corners to Harvest Data for A.I.