Annons

AI-genererade bildtexter och Keywords - Hur bra blir det?

Produkter
(logga in för att koppla)

Sten-Åke Sändh

Aktiv medlem
Ett test av AI-genererade bildtexter med iMatch Autotagger
Jag har nog under ca ett år använt iMatch DAM (Digital Asset Management) för att hantera mina bilder. Under de senaste månaderna har jag experimenterat en hel del med de dedikerade promptar som finns i iMatch. Det finns alltså tre som oftast är rätt statiska efter att man arbetat fram promptar som fungerar för ens bilder och ens preferenser. Det finns en för "Descriptions", en för "Keywords" och en för s.k. "Landmarks". Utöver det finns även en Ad-hoc-prompt som är till för att lägga på specifik metadata för ett urval bilder.
Meningen med denna tråd för min del är att visa vad man faktiskt kan åstadkomma nu med de bästa och största AI-modellernas API:er som det finns fördefinierade gränssnitt för i iMatch Autotagger.
Den molntjänst som använts i detta fall är Open AI API för GPT 5.2 som just släppts unden december 2025.
Inget kan idag mäta sig med Open AI och Google Gemini.
Jag har testat även franska Mirage AI 3.1 men den håller i dessa fall inte alls samma klass och ger klart sämre resultat.

Jag har alltså autogenererat bildbeskrivningar i detta fall för två typer av bilder och deras s.k. "Descriptions".
Bilderna är rakt ut ur iMatch AS IS och har inte editerats eller rättats.
Detta för att ni ska kunna få en uppfattning om vad man faktiskt kan göra och vilken kvalitet man kan få på texterna.

AI-genererade texter blir inte bättre än prompningen - principen som man frågar för man svar gäller.

För att generera AI-texterma (160 stycken) och skapa två Portfolios och läsa in bilderna samt skapa denna tråd på FS så har jag lagt ner ca två timmar.

Om jag skulle gjort detta manuellt vilket man måste i exv. PhotoMechanic, som många fotografer använder, så hade det nog tagit dagar att få till dessa texter och jag hade aldrig orkat skapa texter med den kvalitet som Autotagger och Open AI faktiskt får till med hyfsat god promptning. Jag har ju heller inte de kunskaper som ligger bakom speciellt texterna kring arkitekturen.


Nedan kan ni se hur den prompt ser ut som jag förfinat fram till idag.
Som ni kan se i bildtexterna i de två portfolios jag skapat med exempelbilder, så kan man göra ganska avancerade saker numera i version 5.2

Redan i "blindtester" man nu gör och hittills gjort med GPT 5.2 visar att kvaliteten på det som kommer ur GPT 5.2 ger bättre resultat än om människor skulle gjort arbetena och det går verkligen på bråkdelar av den tid människor skulle klarat av samma jobb på.

I en studie i dagarna nere från Lund så hittade AI-bildtolkning av röntgenbilder tagna på patienter cancer i betydligt fler fall än tränad specialiserad personal lyckades göra och i tidigare stadier av sjukdomen.

Min egen frus cancer missades under ca ett år, vilket ledde till tre stora och mycket besvärliga canceroperationer. Vem vet, all dessa kanske aldrig skulle behövt genomföras om AI-diagnosticering funnits för fem-sex år sedan.

Åter till ämnet:
Längst ned i bildtexterna i varje ser ni en sammanfattning och det som skrivits där kommer från variabler AI har befolkat med text.
Jag har även formaterat texten med tomrader for att öka läsbarheten.

När man ser formatteringen i iMatch så visas texten som nedan:

1767755868435.png

Även i min RAW-konverterare Photolab 9 behålls formateringen från iMatch perfekt, vilket gör texten betydligt mer läsbar:

1767785645013.png

I Portfolios så tas alla line feeds bort så allt ligger i en enda röra igen.


Den fösta länken går till en Portfolio jag skapat här på FS som heter "Global Architecture":
Den innehåller ca 60 bilder med arkitekturexempel från ett antal länder.




Den andra länken går till en Portfolio med "Animals and Plants from East-Africa"
Den innehåller ca 100 bilder med djur och växter.



I de tester jag gjort med Open AI GPT 5.2 på djur och växt motiv, ca 150 bilder, så fick jag en felprocent på ca 8% sist jag kollade. Det är mycket bra om man jämför med exv. Mistral 3.1 som annars har hyfsat rykte. Dock är Mistral inget bra val idag för att märka upp djur och växtbilder med. Där går den tjänstens gräns för användbarhet.

När det gäller arkitekturbilderna så hade jag förväntat mig mer av Open AI när det gäller "Landmarks". Jag är säker på att Google Gemini 3 eller Flash 2.5 hade klarat "Landmarks" och miljöer bättre. Så varje AI-tjänst har sina egenheter.



OBS!!! De bilder som nu finns under dessa två länkar oven är utbytta mot nya bilder som skapats med den gratis AI-källan Google Gemma 3 12b som körts på den gratis AI-plattformen Ollama. Detta för att testa om det möjligen kan vara möjligt att slippa köra över och vara beroende av de stora amerikanska molntjänsterna Google Gemini och Open AI.

En tidigare mindre modell (Gemma 3 4b) som jag var tvungen att köra då mitt tidigare grafikkort med 8GB VRAM inte klarade den större modellen, klarade INTE att artbestämma djur och växter på dessa bilder. Så hittills har jag för det kört Open AI API medd iMatch DAM.

Glädjande är nu att Gemma 3 12b visar riktigt bra resultat både med att beskriva och klassificera arkitektur och att artbestämma djur och växter men kräver alltså minst 16 GB VRAM. Detta är viktigt att påpeka då priset för de nya 16GB-korten ligger upp mot 10 000, så för många kommer det vara utom räckhåll och då är enda alternativet att köra molntjänsterna som kräver mycket mindre av lokal dator.


Description Prompt i Autotagger


[[-c-]]



General instruction:

Always priority for geografic data in the first line and than add a space, the year the picture is taken and peoples names.

{File.Persons.Label.Confirmed|hasvalue:These persons are shown in this image: {File.Persons.Label.Confirmed}.}

Always write text inside quotes but without the quote signs.

Always translate and write texts on signs into English.

Describe picture in a casual and vivid style.

Use simple English, common words, factual language, and simple sentences.

Avoid describing anything not directly observable in the image.

Always write the Description in 3 paragraphs.

Separate paragraphs with a blank line (i.e., exactly two line breaks between paragraphs).

Do not use bullet lists.



Animal section:

If animals in picture always include a description of the animals appearance, habitat, diet, behaviors, and any unique characteristics.

Consider adding notable facts or interesting trivia about this species. Always add space before



If there is an animal, flower or plant in the image, write the animal’s, flower's or plant's common name, family name, and scientific (Latin) name in the format below and always as the last three lines of text – after the space:

Species common name: [Species common name]

Family: [Family name]

Scientific name: [Latin name]

Else never write anything you don´t see in the picture. Return nothing.



Achitecture section:


If there is architecture in the picture:

Describe the architectures characteristics with an architects professional concepts even important details of facades elements e.t.c. and the time when it was most popular

End with – after a space:

Architecture type or style: [Architecture style or Architecture type]
 
Senast ändrad:
Även när man använder AI för att generera Keywords automatiskt med iMatch Autotagger så kan man använda både variabler och villkor när man befolkar Keywords som ni kan se nedan

I iMatch finns även de mest avancerade funktioner för att hantera Keywords och "vokabulärer"/ sökordslistor s.k. Thesaurus som är det mest avancerade jag sett hittills. De klarar bl.a. av att motläsa de ord AI föreslår mot en statisk och fördefinierad Thesaurus, så att bara de ord som matchar mellan AI-förslag och Thesaurus skrivs in i Keywords-metadata i bilderna. Vill man kan man även få dessa översätta till ett annat parallellt språk.

Keywords kan som i mitt fall vara "platta" eller ingå i en hierarki. De kan sorteras eller ej eller förses med Stor begynnelsebokstav eller inte. Man kan även begränsa antalet keywords som skrivs.

Automatiskt skapas även en lista med s.k. "Categories" där man ser hur många bilder som ingår i gruppen och klickar man på en så hämtas alla de bilderna med en sökning. Det är en sökfunktion som exv. saknas i DXO Photolabs "PictureLibrary".


Keyword prompt:

Never ever write hieracical Keywords with pipe characters like in Flowers|Grass

Keywords never in plural form

Use simple English, common words, factual language.
Preferably just one word in in general each keyword.
Never write name of places, country or year in keywords
No words with only capital letters

If there is an animal, flower or plant in the image, write the animal’s, flower's or plant's ["Specie Common Name"]
If there is an animal keywords with several words are allowed
If more than one specie write for all species in picture
Separate with space

If it is a Mammal write Animal and Mammal
If it is a Bird write Animal and Bird
If it is a Reptile write Animal and Reptile
If it is a Fish write Animal and Fish
If it is an Insect write Animal and Insect
If it is a Flower write Flower
If it is a Tree write Tree
If it is a Plant write Plant
If it is a Fruit write Fruit


Else never write anything. Return nothing.


Så en bild med en Eland antilop kommer då märkas med "Animal" och "Mammal" (däggdjur) och också oftast med "Antelope"


En bild med en Lapwing-fågel märks med "Animal" och "Bird"

En bild med en Agama-ödla märks med "Animal" och "Reptile"

och finns ett Baobabträd i bilden så kommer "Tree" att läggas till.


Jag har ju sett exv. hur fotoantikvarierna på mitt gamla jobb på Stadsmuseet jobbat genom sex-sju år och ni kan ju kolla hur lite metadata de oftast orkat förse de historiska bilder man digitaliserat med. Ingen skugga på dessa men det är väldigt krävande att göra detta manuellt så metadata blir inte sällan mager på dessa bilder.

Att upprätthålla stringensen och kvaliteten i metadata när underhållet sker helt manuellt är nästan hopplöst. Därför är det först nu med automatiken som man fått en möjlighet till detta som vi saknat tidigare.

Ni kan ju kolla själva:

 
Det är lite uppmuntrande att ingen av de bilder du generat med AI är riktigt bra.

Ja nu var det ju inte bilderna som genererats med AI :)

Om bilderna är dåliga så beror det nog mer på att jag är en dålig fotograf! :) Jag har inga problem med att bjuda på det och det gläder mig om någon kan få sin självkänsla stärkt av så lite.

Bilderna i dessa portfolios är främst utvalda för att snabbt få ett urval med olika arter och byggnadsstilar att testa med. Det hade nog varit ännu bättre om de faktiskt varit sämre rent tekniskt för att göra det än mer utmanande för AI-analysen av bilderna. Kanske måste vi sätta solbrillor på AI-analysen för att riktigt höja ribban! :cool:

Med det sagt så är det ett faktum att preview-bildernas storlek i iMatch kan i vissa fall vara begränsande enligt Mario Westphal på Phootols. I det fallet det är ett problem kan man öka storleken på previews.
 
Senast ändrad:
Hej! Bläddrade igenom arkitekturalbumet. Jag antar att du vill ha synpunkter, här en spontan reaktion:

AI gör väl en hyfsad bedömning, men ganska allmänt hållen. Jag saknar namn på byggnad och arkitekt. Särskilt påtagligt då det gäller Familia Sagrada, ett tämligen unikt verk som t o m jag känner igen.

Jag är imponerad av att AI kan läsa texten på franska bageriets fasad och översätta den. I det fallet tycker jag att klassificeringen "vernacular" stämmer och är så bra som man kan begära.
 
Hej! Bläddrade igenom arkitekturalbumet. Jag antar att du vill ha synpunkter, här en spontan reaktion:

AI gör väl en hyfsad bedömning, men ganska allmänt hållen. Jag saknar namn på byggnad och arkitekt. Särskilt påtagligt då det gäller Familia Sagrada, ett tämligen unikt verk som t o m jag känner igen.

Jag är imponerad av att AI kan läsa texten på franska bageriets fasad och översätta den. I det fallet tycker jag att klassificeringen "vernacular" stämmer och är så bra som man kan begära.
Hej!

Normalt när jag lägger på texter på riktigt så styr jag det du eftersträvar med "Ad-hoc"-prompningen. Det finns ju tre mer statiska promptar som man ändrar sällan för Descriptions, Keywords och Landmarks. Sedan använder man Ad-hoc-prompten till att parera specifik info som gäller för ett visst urval man markerat.

Ad-hoc-prompten använder jag annars alltid till att ange plats, land och År. Sedan kan man behöva styra sånt som blir fel. I fallet med de israeliska bilderna så hade jag i så fall skrivit in "Bauhaus" för att styra upp detta och då hade det nog blivit klart bättre.

På samma sätt kan man styra upp om AI får för sig att ta en Waterbuck för en Kudu eller en Grants gasell för en Impala. Du räcker det med att ange - Waterbuck - så styr AU upp även detta.

1767807442764.png

Den text jag själv skrivit till denna bild lyder som följer:

Israel 2016 - Tel Aviv - The Crazy House at 181 Hayarkon Street close to Tel Aviv Hilton was designed by architect Leon Gaignebert and has a touch of the spanish architect Gaudi.Israel Tel Aviv



Om jag dels lägger till plats, land och År samt även det jag själv skrivit och låter AI fylla i resten med hjälp av bl.a. Descriptions- och Keywords-promptarna så får vi följande resultat istället:

Adhoc-prompten ser då ut som nedan:

Mandatory text to write on the first line of Descriptions: Tel-Aviv Israel 2016 - Israel 2016 - Tel Aviv - The Crazy House at 181 Hayarkon Street close to Tel Aviv Hilton was designed by architect Leon Gaignebert and has a touch of the spanish architect Gaudi.Israel Tel Aviv -


Den fullständiga texten slom nedan:



Tel-Aviv Israel 2016 - Israel 2016 - Tel Aviv - The Crazy House at 181 Hayarkon Street close to Tel Aviv Hilton was designed by architect Leon Gaignebert and has a touch of the spanish architect Gaudi.Israel Tel Aviv -
A mid-rise apartment building rises on a street corner under a clear blue sky, with a tall palm tree and a streetlight in front.

The facade is wrapped in bold, curving white concrete bands that frame stacked balconies, creating a sculptural, wave-like look. Deep balcony recesses cast strong shadows, and the rounded edges make the massing feel soft and playful against the more plain neighboring blocks.

Overhead cables and small street details sit at the base, adding a lived-in city feel to the scene.

Architecture type or style: Organic modernism


Följande Keywords skapades:

Tree, Urban, Apartment, Corner, Architecture, Balcony, Building, Facade, Palm, Sky


Så skit in skit ut eller som man frågar får man svar.
Promptningen är enormt viktig och det tar lite tid att verkligen få till det så att det funkar utan att man behöver alltför mycket handpåläggning och korrigera i efterhand. Behovet av det har minskat påtagligt med migrationen från GPT version 4.1 till 5.2.
 
Senast ändrad:
Hej! Bläddrade igenom arkitekturalbumet. Jag antar att du vill ha synpunkter, här en spontan reaktion:

AI gör väl en hyfsad bedömning, men ganska allmänt hållen. Jag saknar namn på byggnad och arkitekt. Särskilt påtagligt då det gäller Familia Sagrada, ett tämligen unikt verk som t o m jag känner igen.

Jag är imponerad av att AI kan läsa texten på franska bageriets fasad och översätta den. I det fallet tycker jag att klassificeringen "vernacular" stämmer och är så bra som man kan begära.

Det där är ingenting Måns:

Med hjälp av Google Lens i mobilen så kan jag läsa i princip vilken tvåtusenårig text som helt från Qumran Caves som blivit bevarad i tillräckligt bra kvalitet för Google Lens att tolka.

1767808450172.png

Här står alltså:

Och när Mose, Herrens tjänare. hade blivit utmattad, talade Herren till Mose och sade:


Håh, otroligt tänkte jag som ju alltid fascinerats av dessa israeler som står där och läser 2000 år gamla texter i Isreali Museums Shrine of the Books.

Nu är ju inte jag religiös men det måste vara en otrolig koppling i att kunna läsa och förstå dessa texter idag.

1767808737107.png

Sedan är det ju så att om jag hade använt Google Gemini 3 som ju tränats på hela Googles bilddatabas så hade den varit bättre än Open AI just på "Landmarks" som "the Crazy House" i Tel Aviv.


Google Lens hade inga problem som helst med att identifiera det. Här är den text Google Lens skrev:

Bilden visar "The Crazy House" (även känt som det galna huset) i Tel Aviv Israel.

Det är ett nio våningar högt postmodernistiskt bostadshus.
Byggnaden stod färdig 1985
Arkitekten var den syriskfödde Leon Gaignebet.
Byggnaden är känd för sin ovanliga exteriör.


Olika AI-modeller är bra på väldigt olika saker ibland. Open AI:s styrka är hur det strukturerar och skriver texterna och hur det går att styra i det sammanhanget och hur konsekvent det faktiskt är i sin formatering av texterna. Version 5.2 är ju även ett verkligt lyft när det gäller tillförlitligheten. Det hallucinerar väldigt mycket mindre än exv. version 4 och 4.1. När man använde 4.1 var man tvungen att försöka begränsa modellen när det gällde vad INTE ville att det skulle skriva.

Version 5.2 är precis tvärtom. Där handlar allt istället om att uttrycka så klart som möjligt vad man verkligen vill ha och hur det ska presenteras/formateras/struktureras och vilken "nivå" man vill ha sina texter på. När det gällde arkitekturtexterna så är de skrivna som av en arkitect med en arkitekts begreppsarsenal. Om jag istället bett Open AI att formatera texterna för en högstadieelev, så hade jag ju fått det istället.

Jag får se hur jag gör men jag gillar inte Googles AI-plattform för den är är våldsam jäkla mess. Gillar heller inte deras betalmodell där man bygger upp en kredit man sedan faktureras. Särskit efter den där killen i Norge tror jag det var som slirat in på en "deep thinking" modell hos Google och fakturerats ett fantasibelopp för det. Open Ai betalar jag in 10 U$ i taget för deras API-tjänst och kan aldrig hamna i det eländet.
 
Senast ändrad:
Det känns väldigt bra och tillfredställande för mig att konstatera nu att den kraftfulla dator jag lät bygga i november/december nu för första gången klarar av att köra tillräckligt stora gratismodeller som Google Gemma 4 12b, för att leva upp till de krav jag ställer på AI.

Då talar jag om att systemet ska kunna klara av att artbestämma djur och växter samt exv. klassificera arkitektur och känna igen s.k. "Landmarks" och välkända allmänna miljöer och platser.

En tidigare mindre modell (Gemma 3 4b) som jag var tvungen att köra då mitt tidigare grafikkort med 8GB VRAM inte klarade den större modellen, klarade INTE att artbestämma djur och växter på dessa bilder. Så hittills har jag kört alltså kört Open AI API GPT 4.1 och 5.2 med iMatch DAM för sådana jobb.

Gemma 3 12b visar riktigt bra resultat både med att beskriva och klassificera arkitektur och att artbestämma djur och växter men kräver alltså minst 16 GB VRAM. Detta är viktigt att påpeka då priset för de nya 16GB-korten ligger upp mot 10 000, så för många kommer det vara utom räckhåll och då är enda alternativet att köra molntjänsterna som kräver mycket mindre av lokal dator. Man kan ju märka upp väldigt många bilder för 10 000 kronor, särskilt med tanke på att det finns en "mini" modell som räcker mycket gott till att generera allmänna bildtexter i iMatch DAM.

1767911945827.png

Som ni kan se så är ju priset för Mini-modellen en bråkdel av vad det kostar att köra den stora. Men när jag kört den har pengar aldrig varit något jag ens funderat över då vinsterna med att kunna autogenerera texterna sparat så enormt mycket tid som jag hellre lagt på mer kreativa verksamheter.

Tyvärr har nya datorer blivit snabbt mycket dyrare och bara under december så ökade RAW-priserna hos PC-byggaren INET i Stockholm med hela ofattbara 400%. Skälet är att de stora datacenter som byggs nu skapat ett stort underskott på marknaden



OBS!!! De bilder som nu finns under dessa två länkar nedan är utbytta mot nya bilder med texter som skapats med gratis AI-källan Google Gemma 3 12b som körts på den gratis lokala AI-plattformen Ollama. Detta just för att testa och verifiera om det möjligen kan vara möjligt att slippa köra över och vara beroende av de stora amerikanska molntjänsterna Google Gemini och Open AI som varit de enda som riktigt fungerat tidigare.

Med det sagt så kommer det förmodligen trots allt vara billigare att köra molntjänsterna är att bygga nya svårt dyra high end datorer. Att jag ändå gjort det beror mer på att DXO Photolab 9 som jag kör som RAW-konverteraré varit så krävande att många användare hittills inte kunnat köra det fullt ut på kort med 8 GB och mindre. Photolabs AI-masknings fördefinierade AI-modeller har helt enkelt hittills varit alltför ooptimerade och sedan har både Photolab och Nvidias GPU-drivers varit buggiga.



Den fösta länken går till en Portfolio jag skapat här på FS som heter "Global Architecture":
Den innehåller ca 60 bilder med arkitekturexempel från ett antal länder.

Sten-Åke Sändh - Portfolio



Den andra länken går till en Portfolio med "Animals and Plants from East-Africa"
Den innehåller ca 100 bilder med djur och växter.

Sten-Åke Sändh - Portfolio
 
Senast ändrad:
Jag har tittat på några av dina/AIs bildtextjobb och slås genast av de trivialiserade bildanalyserna; de skriver oss på näsan bildtolkningar som inte bilden kräver för att kunna uppskattas men som tvärtom överskriver alternativa läsningar. Pekpinnar är vad vi får. AI är definitivt inte en hjälp som jag behöver som bildläsare. Men kanske kan den göra nytta i skolsammanhang, vad vet jag.
 
Jag har tittat på några av dina/AIs bildtextjobb och slås genast av de trivialiserade bildanalyserna; de skriver oss på näsan bildtolkningar som inte bilden kräver för att kunna uppskattas men som tvärtom överskriver alternativa läsningar. Pekpinnar är vad vi får. AI är definitivt inte en hjälp som jag behöver som bildläsare. Men kanske kan den göra nytta i skolsammanhang, vad vet jag.

Sten-Ola, detta är första testskottet med denna modell och som förklarat avsett att utröna om modellen klartade av att identifiera de arter som syns i bilderna. Om du lägger ned lite tid på att styra AI så kan du få väldigt mycket mer kondenserade texter om det är det du är ute efter. Som jag skrivit tidigare så är det så att exv. nya Open AI 5.2 skriver väldigt mycket mer strukturerat, kondenserat och kontrollerat kondenserat än version 4.0 och 4.1.

Du ser också att texterna är strukturerade i 3-4 stycken (se ovan i tråden då FS har sabbat min strukturering i våra Portfolios) och det är just för att de som inte vill läsa allt faktiskt kan välja att läsa första stycket och exv. klassificeringarna och artbestämningen. I en del fall kanske inte ens du visste vad det faktiskt var för arter du såg in bilderna. Det händer mig ofta med fåglar och småkryp.

Sedan kanske du inte är representativ för delar av denna info om du exv. har ett specialintresse i djur och natur och så är det alltid. I nästa fall gäller det bilder och ämnen där du är ren novis och faktiskt potentiellt skulle tillhöra målgruppen.

Open AI har ju gjort utbildningsvideos kring hur AI fungerar och hur och i vilka steg man bör tänka i när man kommunicerar med AI via promptar och hur man vill ha sina svar presenterade. Där påpekar man att man bör tala om på vilken nivå man vill lägga sig. I exv. arkitektur-prompten så bad jag Open AI att skriva på fackspråk som en arkitekt skulle uttrycka sig med de begrepp dessa brukar använda. Jag hade lika gärna kunnat be AI-modellen att uttrycka sig så en som bara gått 6 år i folkskola förstår. Spännvidden i folks förväntningar är oändlig och det är omöjligt att uttrycka sig - även för AI så att det passar alla och det är som sagt inte alls målet med detta. Att mina exempelbilders texter kanske inte passar en genomsnittlig turist som ser exv. Sagrada Familia-bilderna är ju kanske inte helt konstigt.

Det var ju också så att när version 5 kom så blev många som använt Chat GPT 4.0 som "jourhavande medmänniska" för att gulla med sig själva rasande på Open AI för att 5:an var betydligt mycket mer saklig och torr. Man beskyllde Open AI (säkert på goda grunder) att de var snåla med texten och försökte spara datorkraft och bandbredd. Man kan ju lätt föreställa sig vad det kostar att gulla med hela världen som någon schysst polare som aldrig tröttnar på att lyssna på hela världens dravel. En värld som till stor del inte ens betalar en spänn till leverantörerna för dessa tjänster, så Open AI har väl all rätt i världen att bestämma i den frågan.

Om du får texter ur AI som du inte är nöjd med så är det ju inte "AI:s" fel utan DITT. Det är DITT jobb att styra den AI-modell du använder och ingen annans. Om du läser hur Description-prompten ovan är konstruerad så förstår du kanske det. Det är bara att testa och ta bort de delar som genererar de saker du inte vill se och försöka uttrycka vad du nu hellre vill lyfta fram.

Google Gemma med full prompt:

Animals and Vegetation in East Africa - Amboseli Kenya 2014 -

The photograph captures a serene scene of the African savanna. Two waterbucks are the focal point, standing amidst a backdrop of dry grassland. The adult waterbuck, with its distinctive brown coat and pale muzzle, gazes directly towards the camera, while a younger waterbuck stands nearby, seemingly protected by its elder.

The waterbucks appear to be in their natural habitat, grazing on the sparse vegetation. The open savanna provides a wide expanse of space, allowing for easy movement and observation of the surrounding environment. The lighting suggests a warm, sunny day, casting a soft glow on the landscape.

Waterbuck are known for their social behavior and their ability to thrive in diverse habitats. They are herbivores, primarily feeding on grasses and leaves. The presence of both an adult and a young waterbuck highlights the importance of family bonds and the continuation of their species.

Species common name: Waterbuck
Family: Bovidae
Scientific name: *Kobus ellipsiprymnus*


Google Gemma utan prompt helt

Animals and Vegetation in East Africa - Amboseli Kenya 2014 - An adult female Waterbuck and its calf stand in a grassy plain. The animals are facing the camera. The background shows a vast expanse of grassland under a bright sky. Amboseli National Park is known for its large elephant herds and diverse wildlife.

Som sagt det användaren som själv måste styra AI om man nu har synpunkter på vad som kommer ut vid bildtolkningen.

Sedan vet ju alla som försökt och verkligen orkat bygga ett större bildarkiv att det är ett mycket större jobb än de flesta har den minst aning om och även med ett bland fotografer populär program som PhotoMechanic så tar just skrivning av bildtexter och sökord väldigt mycket tid. Det är också så att få verkligen orkar skriva bra bildtexter och hålla en bra jämn kvalitet på dessa.

Som jag skrivit tidigare så har jag klockat att exv. Open AI API tillsammans med iMatch Autotagger kunnat skapa hyfsade begripliga bildtexter till 1000 bilder på 7-8 minuter. Om jag skulle göra det för hand så skulle det mycket väl kunna ta veckor, för så krävande kan det vara.

Så de sämsta bildtexterna är normalt inte de som skrivs utan de som fotografen inte orkar skriva och bilder utan kontext är något av det mest meningslösa som finns. Få bilder är nämligen så bra att de skapar någon mening utan en kontext. Jag har själv många gånger insett detta när jag jobbade med Stockholms Digitala Stadsmuseum och de fotoantikvarier som jobbade med att lösa in bilder där. Nu används AI för att skapa bildtexter även på vissa museer för man har helt enkelt inte råd att inte göra det om man kan.

Jag ser det här lite i ljuset från när jag var på DN och jobbade med att bygga om deras Ampress-pressar till direktlito från boktryck/högtryck. Då var det många som gnällde på hur tidningarna såg ut - hur det avstavades och stavades m.m. i datorerna. Inte minst bland grafikerna. Tidningsledningen menade att läsarna skulle vänja sig och det var ju de och inte grafikerna som fick rätt i det avseendet. Korrekturläsare finns väl knappast kvar som yrke någonstans i tidningsvärlden. Så en av mina gamla barndomskompisar som var just korrekturläsare på DN då fick andra arbetsuppgifter.

Det är aldrig "State of the art" som vinner dessa kraftmätningar utan det är det alltid "Good enough" som gör och redan idag ser ju jag att AI orkar hålla en högre nivå på texterna över tid än de jag själv klarar av att skriva.

I undersökningar man nu gör kring hur de nya AI-modellerna från Google (Gemini 3) och från Open AI (GPT 5.2) mäter sig med kvalitet på område efter område så är det inte bara så att det går fortare för AI-modellerna att göra jobben utan kvaliteten är också ofta bättre och vid blindtester klarar man i många fall inte längre av att avgöra om jobben är gjorda av människor eller maskiner.
 
Senast ändrad:
Jag vill inte gå i opposition här, jag menar, jag ger mitt intryck utifrån det material du levererar, men jag passa på när sakerna är på bordet att peka på att när vi bjuder upp AI till dans så kommer en ny estetik på köpet som vi kanske inte är medvetna om från början. En ny estetik. Det bör vi förhålla oss till.
 
Ja, så kan det absolut bli. Jag skriver fortfarande bättre bildtexter normalt än AI - så länge jag orkar. Problemet är att jag aldrig orkar vara lika koncistent och konsekvant som AI över en större mängd bilder. Min kvalitet droppar snabbt både vad gäller Descriptions och inte minst när det gäller Keywords och lyckas man sämre med att hålla linjen när man underhåller Keywords så kommer det bli "hål" i sökresultaten också och då minskar precisionen i dessa sökningar betänkligt särskilt om AI kan matcha det den skriver mot en s.k. controlled vocabulary och det är precis det jag och många andra gör.

De kompetenta och traditionsstyrda grafikerna på DN stod upp för sina kvalitetskrav och lyckades längre än de flesta hävda sin linje främst för att de var både allmänbildade, kunniga och extremt välorganiserade och tidvis använde metoder som gränsade till rent sabotage. Det har fotograferna aldrig lyckats bli delvis för att den gruppen är alltför heterogen för att lyckas med det och man producerar i allmänhet inte "färskvara" som grafikerna på DN gjorde därför har fotograferna som grupp inte skuggan av en chans i detta sammanhang att kunna styra utvecklingen.

De som inte lyckas eller rent av vägrar anpassa sig till de produktivitets- och kvalitetskrav (även i de fall de nivelleras) som kommer styra den fotografiska marknaden i en tid av alltmer kompetent AI kommer nog få svårt att konkurrera på en marknad där bildutbudet blivit så enormt och billigt att bildens värde på kort tid blivit allt mindre värt i rena kronor och ören. Jag har svårt generellt att se andra vägar än att alla på ett sätt eller annat kommer tvingas förhålla sig till de ökande produktivitetskraven som följer på detta. Få kommer förmodligen ha lust att betala extra för fotografer som vägrar använda tidens mest effektiva fotoprocesser i en tid då bilder ofta kostar näst intill ingenting eller gratis.

De som gör "rätt saker" och är öppna för förändring kommer ha betydligt lätrare att överleva som fotografer i den här tiden än de som fortfarande sitter fast likt 80-talets grafiker i en benhård traditionstyngd vilja "att göra saker rätt".

För jag som är en gammal 75 plus gubbe känns det ofta konstigt att det är jag som nu säger detta till en ofta mycket yngre generation av i många fall fortfarande yrkesaktiva fotografer. Det borde normalt ha varit tvärtom men förmodligen saknar ni den tid jag faktiskt har att sätta mig in i och följa denna högst märkliga utvecklingsresa vi nu alla är en del av sedan ett par år.
 
Senast ändrad:
ANNONS
Götaplatsens Foto