Annons

AI för att generera exv. ITPC-keywords?

Produkter
(logga in för att koppla)

Sten-Åke Sändh

Aktiv medlem
Effektivisera metadatasättning

XMP-metadatasatta bilder kan vara till en enorm hjälp när man vill effektivisera sin bildhantering men att metadatasätta stora mängder bilder kräver sin tid och många har börjat men de flesta ger upp efter ett kort tag då de inte tycker sig har tid. Därför är det många som nu sneglar mot AI för att slippa detta arbete.

Automatisk bildanalys har de senaste åren blivit allt bättre men frågan är ju om den är tillräckligt bra för att anförtros att att exv. automatiskt skriva in Keywords, Descriptions och även Headlines?



Vill vi verkligen automatisera "keywording" med AI?

På PhotoMechanic Forum kan man nu läsa "feature requests" om att man vill få Camerabits att plugga in ChatGPT så den kan hjälpa till med att metadatasätta exv. keywords med automatisk bildanalys.


OpenAI Announces Chat GPT-4, an AI That Can Understand Photos | PetaPixel

Jag var lite elak när jag testade med en bildlänk till en bild jag har på Fotosidan

1683323755273.png

När jag klistrade in nedanstående länk till denna bild i ChatGPT kom följande text ut:

Fråga: What do you see in this picture? https://sten-ake-sandh.fotosidan.se/viewpic.htm?ID=3691317

"The picture at the link you provided appears to be a close-up photograph of a flower, specifically a pink peony. The image is focused on the center of the flower, which is composed of several layers of petals arranged in a circular pattern around a central core. The petals are a vibrant pink color with a delicate texture, and they are tightly clustered together in the center of the flower. The center of the flower is also interesting, with a cluster of yellow stamens and a green pistil in the middle. Overall, it's a beautiful and detailed photograph of a peony flower."

Min slutsats är att jag aldrig skulle låta Open AI grisa ner mina metadata hur smidigt det än kan vara vid en första påsikt.


Automatiskt metadatasätta med hjälp av GPS-koordinater

Däremot har jag metadatasatt en hel del bilder med GPS-koordinater i PhotoMechanic Plus och det är jag imponerad av på flera sätt. PM har ett jättebra verktyg för att pricka ut platsen där bilden är tagen. Dessutom kan man med "Reverse look up" exv. automatiskt få en massa metadatafält relaterade till koordinaterna ifyllda. Den tjänsten tog det ett tag för mig att upptäcka men nu använder jag den jämt. Det är till skillnad från den förra tjänsten något som verkligen verkar funka - men det är ju inte AI utan bara en smart databasbaserad tjänst.

1683325387488.png

Här en bild från Temple of the tooth i Kandy Sri Lanka

1683325197495.png

Om man vill läggs upp till 11 IPTC-fält med geodata in baserat på var markören sätts på kartan på alla bilder man markerat. I mitt fall underhåller jag bara fem av dessa fält via mina mallar men de andra fälten uppdateras också även om det inte syns i mina mallar. Kvaliteten blir också högre på detta data normalt än när jag skriver in denna data manuellt själv och det går klart fortare.

1683325576662.png

Jag tror Chat GPT har en rätt lång väg att gå innan den blir lika pålitlig som ett databasbaserat stödsystem. Jag kommer heller aldrig låta någon bildtolkningstelefonlogik grisa ner mina bilder och mitt keywordregister, även om det säkert är praktiskt. Kvaliteten är helt enkelt för dålig.
 
Senast ändrad:
Vi får nog vänta 60 år till innan språkmodeller kan anses som intelligenta.

GPSbaserad metadata skulle nog kunna hjälpa mig som mest åker runt på fotbollsplaner. Genom tid och plats skulle serie, match, lag och laguppställning kunna hämtas från fotbollsförbundets databas. Även slutresultat.

Men så länge jag rör mig i lägre divisioner är ansiktsigenkänning av spelarna en utmaning. Eventuellt skulle man kunna ta hjälp av Instagram. Om någon spelare lånar bild till sin egen insta är det troligen en bild på just henne.
Eller möjligen att just fotbollsförbundets databas skulle hjälpa även här. Spelarnas tröjnummer står ju i laguppställningen. Med lite enkla matchningar av bilder i olika situationer från samma match skulle individer kunna kartläggas även i bilder där tröjnummer inte syns.
 
Senast ändrad:
Jag har lagt en request till Adobe att lägga in samma AI-funktion som finns i Lightroom molnprodukten till Lightroom Classic.
Funktionen i Lr cloud är inte att tagga bilderna utan snarare att funktionen letar upp bilder utifrån vad man söker. Är inte helt insatt i hur funktionen är uppbyggd eller vad den baserar sin sökfunktion på.
Fungerar än så länge bara med engelsk text och är inte helt 100 ännu.
Men för oss som tycker taggning är ett dj.kla meck och tidskrävande är det ett jättelyft om det bara funkar till 90%
Jag använder det ibland och man kan t ex. söka på blue, flower.
Adobe Sensei heter tekniken som används och hoppas verkligen den kommer till Lightroom Classic.
 
Vi får nog vänta 60 år till innan språkmodeller kan anses som intelligenta.

GPSbaserad metadata skulle nog kunna hjälpa mig som mest åker runt på fotbollsplaner. Genom tid och plats skulle serie, match, lag och laguppställning kunna hämtas från fotbollsförbundets databas. Även slutresultat.

Men så länge jag rör mig i lägre divisioner är ansiktsigenkänning av spelarna en utmaning. Eventuellt skulle man kunna ta hjälp av Instagram. Om någon spelare lånar bild till sin egen insta är det troligen en bild på just henne.
Eller möjligen att just fotbollsförbundets databas skulle hjälpa även här. Spelarnas tröjnummer står ju i laguppställningen. Med lite enkla matchningar av bilder i olika situationer från samma match skulle individer kunna kartläggas även i bilder där tröjnummer inte syns.

Just PhotoMechanic har ju möjlighet till en sådan funktion som du pratar om som stöder sportjournalisterna med exv. spelarrelaterade metadata. Om jag fattat det rätt finns det i USA företag som specialiserat sig på att erbjuda sådana datatjänster som kan integreras med PM. Dessa tjänster har vad jag förstått funnits ett bra tag men det är ju något helt annat än AI. Skott Kelby den gamle Lightroom-gurun har beskrivit hur det funkar.

Ni kan läsa om detta i länken nedan:


The greatest thing to happen to Metadata since….whenever the last good thing happened
There is a website called “CodeReplacements.com” and you pay a small subscription fee and it generates a current roster of both teams for any pro sporting event, which itself is handy, but that’s not what makes it totally rock. You import this roster into Photo Mechanic (it’s then called a “Code Replacement”) and now all you have to do is look at the number on the player’s jersey, type a shortcut and that number, and it automatically fills in all the team info, player’s name, position, and number. For example, if the player plays for Tampa Bay, I just type a backslash, “t” for Tampa Bay, his jersey number, and another backslash, and it instantly types in this for me:

Tampa Bay Buccaneers free safety Ronde Barber (20)

Then I type in “breaks up a screen pass intended for” and I type the other guy’s jersey number like this \n16\ and it writes

New Orleans Saints wide receiver Lance Moore (16)

and then the rest of the metadata about what week it is, and what kind of game it is and where it’s played is already there because I added that to the IPTC Stationary Pad before the game (mentioned above). So, the whole thing reads like this is all of 20-seconds:

“Tampa Bay Buccaneers free safety Ronde Barber (20) breaks up a screen pass intended for New Orleans Saints wide receiver Lance Moore during week seven of the 2012 NFL season in a game between the Tampa Bay Buccaneers and the New Orleans Saints. The Bucs lead the Saints 21-14 at the half.”

Those code replacements rock, and my hats off the guy who came up with the service. May he earn a millions bucks!
 
Senast ändrad:
Automatiskt metadatasätta med hjälp av GPS-koordinater

Däremot har jag metadatasatt en hel del bilder med GPS-koordinater i PhotoMechanic Plus och det är jag imponerad av på flera sätt. PM har ett jättebra verktyg för att pricka ut platsen där bilden är tagen. Dessutom kan man med "Reverse look up" exv. automatiskt få en massa metadatafält relaterade till koordinaterna ifyllda. Den tjänsten tog det ett tag för mig att upptäcka men nu använder jag den jämt. Det är till skillnad från den förra tjänsten något som verkligen verkar funka - men det är ju inte AI utan bara en smart databasbaserad tjänst.

Visa bilaga 169771

Här en bild från Temple of the tooth i Kandy Sri Lanka

Visa bilaga 169770

Om man vill läggs upp till 11 IPTC-fält med geodata in baserat på var markören sätts på kartan på alla bilder man markerat. I mitt fall underhåller jag bara fem av dessa fält via mina mallar men de andra fälten uppdateras också även om det inte syns i mina mallar. Kvaliteten blir också högre på detta data normalt än när jag skriver in denna data manuellt själv och det går klart fortare.
Är verkligen GPS inblandat i den process du beskriver?
 
Vill vi verkligen automatisera "keywording" med AI?
Jag är tveksam med nyttan av det. AI blir troligen med tiden allt bättre på att känna igen byggstenarna i bilder. Att låsa fast bilden med metadata av typen nyckelord gör att man har avhänt sig de framtida förbättringarna.

Istället för nyckelord (eller nyckelfraser) borde man använda bildigenkänning i realtid. Åtminstone i en snar framtid. (Enkel sådan kan man redan använda i Google Photos).
 
Är verkligen GPS inblandat i den process du beskriver?

Jaa, indirekt är det ju det. Det är en databas inblandad. Kalla det vad du vill men både PhotoMechanic och XnView använder sig av GPS-begreppet även om jag nu sätter ut markeringarna manuellt och det är koordinater för latitud och longitud som skrivs in i XMP och EXIF-fälten för dessa data. Jag gör ju inget annat än vad många GPS-applikationer gör idag när de gör look up på exv. vilka butiker och andra serviceinrättningar som finns runt en plats man råkar vara på med sin GPS-applikation.

Även Photolab använder rubriken GPS coordinates, oavsett hur de nu kommit in i dessa fält.

1683416852861.png

Rent praktiskt sätter man alltså manuellt ut GPS-positionen där man vill ha den mot den bild man arbetar med eller en hel grupp man markerat. Vill man låta Camerabits Reverse Geocoding Server skicka sina data för de 11 fält som underhålls, så väljer man allihop eller de man är intresserad av. Om de sedan köper dessa data från Google eller någon annan känner jag inte till.

Min poäng är att system som dessa som gör sin lookup mot en databas är väldigt mycket mer pålitliga än nåt AI-beroende som ska försöka bildtolka t.ex.


Det är dessa koordinater folk sedan kan mata in i sina telefoner i lämpligt program eller vad de nu använder vid behov. Antingen för att styra någon kartapplikation eller en robot mot något mål i Ukraina.

En gång åkte jag till Syd-Afrika och då var det en äldre kille som skulle ta en bild när han klivit upp på en stor sten. Han tappade balansen och föll så illa mot en annan sten att han bröt lårbenet på flera ställen. Genom att någon sedan skickade dessa koordinaterna för platsen kunde en helikopter efter ett tag hitta oss med hjälp av GPS-styrda "moving map"-hjälpmedel. Så GPS-inblandning kan ske på många sätt åt båda hållen eller hur?

Så nog är det GPS-relaterat så det räcker men det är klart att man alltid kan klyva hårstrån rent teoretiskt om man tycker det är intressant men GPS-systemen idag är praktik och inte teori. Jag fick min första GPS för 23 år sedan när jag fyllde 50 och körde ett Fugawi ett PC-program med den och Sjöfartsverkets BSB-sjökort. För mig är GPS-systemet oupplösligt kopplat till kartor och metadata åt båda hållen och det är även ett program som PhotoMechanic med dess "reverse lookup" mot geodataservern Camerabits har kopplad mot programmet över Internet.

Som du vet så finns det en uppsjö av kartprojektioner och förr hade vi i Sverige exv. "Rikets Nät" som koordinatsystem alltså inte latitud och longitud som GPS-systemet använder.

Skillnaden mellan latitud och longitud i GPS och Rikets Nät är att GPS använder sig av det globala referenssystemet WGS 84 medan Rikets Nät använder sig av det nationella referenssystemet RT 901. Enligt Lantmäteriet är skillnaden mellan latitud och longitud i RT 90 och globalt anpassade referenssystem (SWEREF 99, WGS 84 m.fl.) ca 100‑300 meter i Sverige.

GPS är latitud och longitud precis som dessa kartor och det sker ett oupphörligt växelspel mellan dessa format, så jag förstår nog egentligen inte din fråga. Det ena kan egentligen inte existera utan det andra idag.



1683415749419.png
 
Senast ändrad:
GPS är en förkortning för Global Positioning System, och är ett satellitnavigeringssystem som USA satte igång på 1970-talet och som var i full drift i början av 1990-talet. (1993 köpte jag min första GPS-mottagare, en Garmin GPS-95).

Det finns numera fler satellitnavigeringssystem än GPS. Latitud- och longitudkoordinater är oberoende av vilket satellitnavigeringssystem man har använt för att hitta sin position. Man kan faktiskt t.o.m. ta ut sådana koordinater på en karta helt utan hjälp av satelliter. :)
 
Det är lite kul hur vissa ord får ny innebörd i vissa sammanhang. Som GPS i det här fallet, och OCR på fakturor.
 
GPS är en förkortning för Global Positioning System, och är ett satellitnavigeringssystem som USA satte igång på 1970-talet och som var i full drift i början av 1990-talet. (1993 köpte jag min första GPS-mottagare, en Garmin GPS-95).

Det finns numera fler satellitnavigeringssystem än GPS. Latitud- och longitudkoordinater är oberoende av vilket satellitnavigeringssystem man har använt för att hitta sin position. Man kan faktiskt t.o.m. ta ut sådana koordinater på en karta helt utan hjälp av satelliter. :)

Ja men i fallet Photomechanic startar man faktiskt processen genom att skriva in namnet på platsen man söker i detta fall exv. "Kandy Sri Lanka" och sedan klickar man på knappen "GET GPS" då skickas ett meddelande till Camerabits server som skickar tillbaka en "street map" med positionsmarkör utsatt. Vill man kan man istället byta till en satellitbild. Sedan bestämmer man position slutgiltigt med mus eller flytta positionen med piltangenterna. Sedan kan man om man vill även be om att få dessa 11 geometadata ifyllda på de bilder man markerat.

Det här är ett enda system i grunden. Som jag ser det består det av tre delar idag. Själva satellitnavigeringssystemet med sina satelliter och någon firm av mottagare som kan ta emot signaletna och hantera dessa, kartsystem i latitud longitud och databaser med geometadata. Ibland går man in i systemet en väg och i andra fall sker det från ett annat håll. Alla delarna behövs som vi anvönderxsystemet idag.

Nu ägnar vi oss åt en hönan och ägget discussion som bara kommer förvirra. Latituder och Longituder har funnits i evigheter som begrepp och WGS 84 är en tredimensionell modell som är förutsättningen för GPS-systemet och två av dimensionerna är de tvådimensionella gamla kartenheterna, så vart är det du är på väg?
 
[…] GPS är latitud och longitud precis som dessa kartor och det sker ett oupphörligt växelspel mellan dessa format, så jag förstår nog egentligen inte din fråga. Det ena kan egentligen inte existera utan det andra idag.
Nä, jag måste hålla med Per. GPS är en teknik att hitta sin position på jorden. En form av triangulering mot geostationära satelliter. Att positionen går att peka ut på en karta är något annat. Att med hjälp av GPS plotta ut positionen i kartan är inte samma sak som att manuellt välja en punkt i kartan. Visserligen kan man i en GPS-navigator peka ut ett önska mål i kartan och be systemet att navigera mig fram till den punkten. Men att bara peka i kartan för att plocka ut koordinaterna och sedan kolla i databasen vad som finns i närheten är inte GPS. Det är GIS - Geografiskt InformationsSystem.
 
Nä, jag måste hålla med Per. GPS är en teknik att hitta sin position på jorden. En form av triangulering mot geostationära satelliter. Att positionen går att peka ut på en karta är något annat. Att med hjälp av GPS plotta ut positionen i kartan är inte samma sak som att manuellt välja en punkt i kartan. Visserligen kan man i en GPS-navigator peka ut ett önska mål i kartan och be systemet att navigera mig fram till den punkten. Men att bara peka i kartan för att plocka ut koordinaterna och sedan kolla i databasen vad som finns i närheten är inte GPS. Det är GIS - Geografiskt InformationsSystem.
GPS är ett system som använder den trianguleringstekniken. GLONASS är ett annat sådant system. Galileo och 北斗 (Beidou) är två ytterligare.
Satellitnavigeringssystem som fungerar i hela världen brukar betecknas med förkortningen GNSS, som står för global navigation satellite system.

Satelliterna i ett GNSS är oftast inte geostationära. Av ovanstående är det bara Beidou som har en handfull geostationära satelliter. Resten av de cirka 30 satelliterna är inte geostationära. De geostationära är till för att systemet ska vara bakåtkompatibelt med Beidou version 1 som bara hade geostationära satelliter, och därför inte var ett GNSS.
 
Jo. Ibland kopierar man ju helt enkelt OCR-numret från fakturan till betala-räkningen-programmet.

Det gäller att etablera en term för en bred publik så att den fastnar och används "fel" när sammanhanget ändras. :)
 
Jag var lite elak när jag testade med en bildlänk till en bild jag har på Fotosidan

Visa bilaga 169768

När jag klistrade in nedanstående länk till denna bild i ChatGPT kom följande text ut:

Fråga: What do you see in this picture? https://sten-ake-sandh.fotosidan.se/viewpic.htm?ID=3691317

"The picture at the link you provided appears to be a close-up photograph of a flower, specifically a pink peony. The image is focused on the center of the flower, which is composed of several layers of petals arranged in a circular pattern around a central core. The petals are a vibrant pink color with a delicate texture, and they are tightly clustered together in the center of the flower. The center of the flower is also interesting, with a cluster of yellow stamens and a green pistil in the middle. Overall, it's a beautiful and detailed photograph of a peony flower."

Min slutsats är att jag aldrig skulle låta Open AI grisa ner mina metadata hur smidigt det än kan vara vid en första påsikt.
Jag testade med din bild i ChatGPT 4, och frågade vad bilden föreställer:

"Bilden visar ett färgstarkt glasmosaikfönster som porträtterar olika figurer. Centralfiguren verkar vara en skelettgestalt klädd i rött, vilket kan föreslå en representation av döden eller en skelettfigur från en kulturell eller religiös tradition. Runt denna figur finns andra element som kan vara människor eller symboliska representationer. Färgerna är livliga och kontrastrika, vilket är typiskt för glasmosaik. Denna konstform är ofta använd för att skapa ett dramatiskt och beständigt uttryck, och är vanlig i platser för andlig reflektion såsom kyrkor eller minnesmärken. Detaljerna i verket är svåra att tolka utan ytterligare sammanhang, men verket ger ett intryck av att berätta en historia eller förmedla ett budskap."

Rätt imponerande, och uppenbarligen går tekniken frammåt. Snabbt...
 
Ja det kan säkert funka med en del motiv och känd konst kan säkett vara en sådan och visst är det galet bra ibland.

...... men keywords?? Aldrig i livet för min del. Det finns flera skäl till det. Det är dock säkert få idag som inte tror att det kommer bli vara lika vanligt som Mellanmjölk i lagom-Sverige.

Det största skälet är kvalitetsaspekten. Om man lagt ner många timmar på att bygga ett bildarkiv med PhotoMechanic, vilket jag har, så vill jag inte att vare sig bildtexter eller keywords väller in där utan kontroll.

Tänk er att ni lagt möda på att använda engelsk metadata generellt inklusive bildtexter och så häller ni in bilder tagna med er telefon som skulle få allt svenskt istället. Det skulle åtminstone inte jag gilla.

Det andra skälet är väl om man använder en s.k. "controlled vocabulary", som man exv. gör i många kulturarvssammanhang. Den vill man ju definitivt inte smutsa ner.

Möjligen kan man lösa allt detta genom att slå av "auto synch" eller "auto load" men det man riskerar då istället är att metadata i ens olika applikationers kataloger kommer ur synk med XMP-metadata i filerna som ju är masterdatat.

Jag har själv precis migrerat från DXO Photolab till Capture One och noterat att det blivit rätt bra med både visning och sökning både direkt och via keywordlistan i CO till skillnad från i Photolab där keywordlistan bara kan användas för taggning egentligen. Det fnns fler ineffektiviteter än så.

Jag förstår Tommys synpunkter kring metadataunderhållet och att man vill få det effektiviserat och helst automatiserat och jag skulle lika lite som att komma på tanken att använda CO för metadataunderhåll som Lightroom. Jag har testat det för längesedan även i Lightroom och då tog det inte länge innan jag helt gav upp. Det är därför både jag och många andra använder PhotoMechanic istället.
 
Jag tror det skulle bli så mycket fel så det blir i det närmaste oanvändbart. Hur ska programmet veta vad jag tycker är väsentligt i en bild? Många lättidentifierade saker som "ocean", "trees" osv funkar, men när ansiktsigenkänningen tolkar en blomkruka som ett ansikte så avstår jag åtminstone. :)
 
Jag kommer heller aldrig låta någon bildtolkningstelefonlogik grisa ner mina bilder och mitt keywordregister, även om det säkert är praktiskt. Kvaliteten är helt enkelt för dålig.

Låter som att en enkel fix är att skapa ett nytt fält för metadata som t.ex. döps till ai_keywords och autogenereras återkommande i takt med att teknikutvecklingen går framåt. Då kan du alltid falla tillbaka på din egen data när den existerar men fortfarande ha möjligheten att hitta bilder som du inte lagt hundratals timmar på att märka upp.

Vid sök så är det bara att markera vilka fält man vill söka i.

Det påminner lite om fluortantens föredrag i skolan om hur tandreperationer inte är en ersättning av tänder utan ett bättre alternativ än att inte ha några tänder. Dagens AI har fortfarande svårt att hävda sig mot mänskliga experter med personliga värderingar när de lägger ner hundratals eller tusentals timmar. Fördelen med AI:n är att det bara krävs ett knapptryck för att nå 90% av vägen och vi istället kan lägga dessa hundratals timmar på t.ex. vårt eget skapande.
 
ANNONS
Köp en spegellös systemkamera från Canon och få ett 50mm objektiv på köpet hos Götaplatsens Foto.