ChatGPT 近日發布用戶將不用再透過 DALL-E 進行繪圖,現在 GPT-4o 也加入了預設圖像生成工具的行列,據說能夠精準生成文字內容,AI 圖片中的文字亂碼問題也得到大幅改善,並且開放免費用戶使用 GPT-4o 生圖,還可以生成吉卜力風格的圖片!本篇要來測試 GPT-4o 的生圖能力與指令判別精準度!
GPT-4o 繪圖效果實測
首先先來測試看看 GPT-4o 的生圖能力,塔塔請 ChatGPT 協助生成一張逼真的的貓咪圖片,並指定貓咪的花色為三花,生成的過程中,很明顯可以感受的出來,生成的速度比起原本的 DALL-E 的 速度還要慢,但是文字指令的判讀比起之前的模型來說好上不少,無論是毛色的判讀,還是後續調整圖片比例的指令都能準確完成。
▼ 由 GPT-4o 所生成的三花貓咪圖片

更進一步測試 GPT-4o 對多種的文字指令能不能正確判斷,塔塔將這張貓咪圖片轉換成美式漫畫風格後又轉換為日式少女漫畫風格,背景要求從明亮變為有陽光光線,草地變為有蝴蝶並呈現生機蓬勃的感覺,從 GPT-4o 給出的效果來說,其實還不錯,對於一般人的繪圖需求來說,算是足夠了。
▼ GPT-4o 最終呈現圖片效果

不過 GPT-4o 還是有機率會出現錯誤的文字判斷與圖片,塔塔以上方圖片請 ChatGPT 將兩隻小老鼠分別替換為蝴蝶與小橘貓,轉換出來雖然是有達到指令所敘述的效果,但是在原本的松鼠與兔子上出現了錯誤,不該被替換的松鼠被蝴蝶所覆蓋,兔子的下半身也變成了橘貓的花紋與尾巴,還是需要多式幾次才能生成出一張正確的圖片。
▼ 圖片中的松鼠與兔子出現生成錯誤問題

GPT-4o 圖片合併生成功能實測
這次 GPT-4o 的功能不只是更好的理解文字指令,現在也可以把兩張圖片併在一起產生新圖片!接下來塔塔要來實測 GPT-4o 的合併生成能力如何,使用兩張人物姿勢差不多的梗圖,請 ChatGPT 把火柴人的構圖改成與火災狗相同的構圖,但要維持火柴人當主角,畫出來的效果跟火災狗原圖差不多,文字判讀也正確。

▼ 以火災狗當參考圖繪製出來的火災火柴人

將火柴人變成主角這種事情對 GPT-4o 來說可能簡單了點,塔塔又將火柴人的圖片換成了經典的翻桌火柴人圖片,並請 ChatGPT 讓火災狗學習翻桌火柴人的動作,背景維持火災狗原本的背景,轉換出來的效果不是很理想,雖然火災狗確實做出翻桌的動作,但是被掀飛的桌子卻沒有被完整呈現,轉換了兩次,一次變成電腦螢幕被掀飛,另一次卻沒被掀飛。
▼ 火災狗學習火柴人翻桌圖片轉換結果

為了更符合原本的火柴人翻桌梗圖,塔塔重新下了將桌子與電腦螢幕掀飛與微調火災狗表情的指令,ChatGPT 才將桌子被掀飛的感覺做出來,雖然電腦螢幕像是黏了強力膠一樣的立在桌子上,一點都沒受到掀桌的影響,在這部分可能還是得靠使用者自己下指令進行微調,ChatGPT 生成的圖片不一定能夠完全符合預想。
▼ 電腦螢幕被掀飛的狀態不合理

GPT-4o 文字生成能力實測
最後也是大家最關注的一項功能 — GPT-4o 可以在圖片中加入文字!有用過 AI 繪圖的使用者多少會遇到想要加文字進入圖片當中,但是生成出來的文字不是歪七扭八,就是不知道哪來的火星文根本看不懂,英文字體或許還好一點,像是繁體中文這類較複雜的字形就會出現明顯的變形問題,那麼新加入的 GPT-4o 真的能解決了嗎?
文字生成能力測試分成 2 種:
- 使用文字指令生成繁體中文
- 以圖片中現有的文字讓 ChatGPT 仿寫
- 使用文字指令生成繁體中文
首先提供 ChatGPT 一張梗圖作為模板,並請他重新繪製,完整的文字指令如下:
「請幫我將這張圖片以日本動漫風格重新繪製,並在圖片中加上「你看看他哈哈哈哈」文字,文字字形必須與繁體中文字形相同」
生成出來的文字效果還不錯,原本塔塔以為 ChaGPT 會無法準確生成「看」這個字,但是意外的他的看並沒有出錯,表現出乎塔塔的意料,雖然圖片中貓咪手掌跟乳牛貓的面向與原圖不同,但這部分主要針對文字生成,以這樣的文字生成表現,塔塔認為有達到預想中的效果。

▼ 以指令生成繁體中文的效果良好

- 以圖片現有文字仿寫
塔塔實際使用了文字較簡單的烏薩奇梗圖,並請 ChatGPT 將圖片風格轉換成日式卡通風格,圖片中的文字必須保留下來,第一次轉換結果差一點感覺,下方的文字應該要是「咦–呀–哈–」但是 ChatGPT 似乎沒辦法判定文字結構較複雜的「咦」,仿寫出來的結果也是看不出來那到底是什麼字。

▼ 第一次轉換出來的文字結果

塔塔重新請 ChatGPT 生成一張圖片出來,文字是大家都能看得懂的繁體中文,沒有變形也沒有神秘文字,但是第一個字仍然是錯誤的,針對第一個字進行調整,但是似乎還是無法將「咦」完整的仿寫出來,雖然第一個字還是能大概辨別它是「唉」,但還是出現了少部分字形變形的問題。
▼ 第一個字大約能看得出是個「唉」字

總結
這次 GPT-4o 的加入,讓 ChatGPT 生成出來的圖片都精細了多了,對文字指令的辨別、執行都比起之前的模型來的更加準確,文字也能夠正確的呈現出來,在文字生成的部分塔塔會建議大家直接使用文字指令告訴 ChatGPT 要生成什麼,如果要請它模仿圖片中的文字的話,文字出現錯誤的機率會比較高,且有可能跟塔塔一樣,改來改去都不對。
首圖來源:AI 生成