Sujet de réflexion

Se faire aider par l’IA dans son développement c’est quand même bien. Simple avis personnel. Comme disent les anciens, “c’est le progrès”. Et puis ce n’est qu’une aide. Aide pour faire un masque sur une personne, effacer un élément gênant, ce genre de choses. Le photographe restant maître de son développement.

Je n’y connais rien en matière de développement mais peut-être que développer et maintenir un bon logiciel avec de l’IA ne sera pas forcément possible à réaliser par un seul développeur voir une toute petite équipe de deux ou trois personnes comme ART par exemple. Projet trop lourd et trop coûteux à gérer ?

J’ai remarqué, en lisant les forums et en écoutant des youtubers que les utilisateurs de logiciels libres ont souvent un logiciel commercial sous le coude. Ce n’est pas mon cas, je tourne sous linux exclusivement pour l’instant.

Intéressant sujet de réflexion …

IA post traite les photos de mariage : Traiter un mariage en 10 minutes ! C'est possible avec IMAGEN - YouTube

Premièrement, l’IA, ça veut tout et rien dire.

La vieille variante, c’est l’apprentissage machine supervisé : on optimise des métriques arbitraires en laissant l’algo s’adapter fortement au contexte. Ça marche moyennement, seulement dans des cas très précis, et l’utilisateur doit rester à côté pour ajuster les paramètres de l’optimisation.

Le module “diffusion et netteté” de darktable est une IA d’apprentissage supervisé où on optimise des gradients pour essayer de retrouver l’image nette d’origine. Tout le monde a compris que c’était pas grand public, côté interface, mais je te défie de trouver mieux pour un coût de calcul équivalent…

Les algos de type tampon correctif, pour dupliquer et réparer du contenu, existent déjà dans Gimp et darktable, et reposent aussi sur les même méthodes.

La nouvelle variante, c’est l’apprentissage machine profond. C’est plus complexe, mais je peux t’en coder une pour demain, parce qu’on a déjà toutes les librairies pré-fabriquées pour ça et déjà sous licence open-source. Mais…

Le problème, c’est que la coder, c’est 20% du travail. Ensuite, il faut l’entraîner (puisqu’elle est censée apprendre), et pour ça il faut des données triées et nettoyées. Non seulement, les données, je ne les ai pas là tout de suite, et les recueillir va prendre des mois et des tas d’emmerdes de protection de la vie privée, mais même si je les avais, il faudrait encore les trier et les nettoyer à la main.

Par dessus le travail brut à fournir, il y a un cadre légal de plus en plus contraignant pour protéger les données privées des gens, parce qu’il va bien falloir leur prendre des photos d’individus reconnaissables pour entraîner le bazar, et la nature même de l’open-source (ouvert, public, sur le web) est incompatible avec la protection des données privées.

L’autre option est de passer par les photos disponible sur le web, sauf qu’on déplace le problème de vie privée sur le terrain du copyright, et de toute façon, les JPEG non-linéaires recompressés 4 fois qu’on trouve sur internet n’ont pas grand chose à voir avec des bruts de capteur.

L’IA expliquée par un développeur, intéressant : Chat GPT de OpenAI, le début de la FIN des développeurs ? - YouTube

“Développeur”, c’est comme “ingénieur”, ça veut tout et rien dire.

Ça fait des lustres que tu peux déjà utiliser un mix de Google et Stack Overflow pour résoudre des problèmes de programmation qui impliquent triturer des librairies pré-existantes pour effectuer des tâches basiques. Beaucoup de “développeurs” sont tellement nuls en abstraction (et e maths) que toute leur carrière se limitera à assembler des lego logiciels développés par d’autres. On devrait les appeler intégrateurs, pas développeurs. C’est donc parfaitement faisable de parser les documentations des librairies concernées pour assembler un truc cohérent sur des tâches simples.

Réveillez-moi quand l’IA arrive à designer l’architecture de systèmes complexes impliquant différents langages et différentes technologies, dans un contexte multi-OS. C’est là qu’est la vraie difficulté de la programmation. Les développeurs ont des problèmes beaucoup plus terre à terre comme assurer l’intégrité des données à travers les disques durs et les réseaux, dans un contexte où les soit-disant langages “portables” (au hasard, le C) requièrent du code spécifique Windows ou Linux pour effectuer des trucs aussi basiques qu’ouvrir, lire et écrire des fichiers.


Après avoir vu ce tweet : https://twitter.com/mileszim/status/1613965684937224192?ref_src=twsrc^tfw (comptez bien le nombre de doigts et de dents sur les dames), je me suis amusé à demander à demander à Midjourney “beautiful woman with only five fingers on each hand and 32 teeths”. Voilà le résultat:

Ça vous paraît pas hyper perché ? Du coup, j’ai réessayé avec “beautiful woman with only five fingers on each hand and 32 teeths, realistic photographic style very simple”, parce qu’apparemment le style par défaut est “Sweeney todd” :

Donc l’IA n’est pas au courant que les humains ont 5 doigts, est incapable de les compter quand on lui demande explicitement 5 doigts, et considère que toutes les femmes sont caucasiennes, entre 20 et 30 ans, avec des pommettes saillantes et des mentons triangulaires.

Enfin voilà, l’IA excite ceux qui n’y comprennent rien et qui ne regardent pas les détails.