วิธีสร้างภาพด้วย AI ผ่าน Gemini — คู่มือใช้งานจริงปี 2026

มิ.ย. 29, 2026

"จะสร้างภาพด้วย AI ผ่าน Gemini ยังไง?" เป็นคำถามที่ฉันเจอบ่อยพอ ๆ กับเรื่องวิดีโอ และเหมือนกันตรงที่คนส่วนใหญ่เข้าใจผิดเล็กน้อย หลายคนนึกภาพว่ามีโมเดลเดียวชื่อ "Gemini" ที่วาดรูปให้ ความจริงคือมันคือกลุ่มโมเดลภาพหลายตัวที่อยู่เบื้องหลัง Gemini แต่ละตัวสร้างมาเพื่องานคนละแบบ พอรู้ว่ากำลังเรียกตัวไหนอยู่ คุณจะเลิกเดาสุ่มและเจนรูปที่ใช้ได้ตั้งแต่ครั้งแรก

ฉันจะเล่าทั้งเวอร์ชันตรงไปตรงมา และเวอร์ชันใช้งานจริง

อย่างแรก: Gemini คือสมอง โมเดลภาพคือพู่กัน

Gemini เป็นกลุ่มโมเดลแบบมัลติโมดัล มันคิด เขียน อ่านภาพ และตีความพรอมต์ของคุณได้ แต่ พิกเซลของรูปที่เจนออกมา มาจากโมเดลภาพเฉพาะทางของ Google ต่างหาก:

  • Imagen 4 — โมเดลเรือธงสำหรับ text-to-image คุณป้อนข้อความ แล้วมันสร้างรูปใหม่ขึ้นมาจากศูนย์ เป็นการเจนล้วน ๆ ไม่มีโหมดแก้ ไม่ต้องอัปโหลด แค่ข้อความเข้า รูปออก เก่งเรื่องความสมจริงและการจัดองค์ประกอบมาก
  • Nano Banana (Gemini Flash Image) — โมเดลสำหรับแก้ภาพ คุณอัปโหลดรูป บอกสิ่งที่อยากเปลี่ยนแบบสนทนา แล้วมันจะรักษาทุกอย่างที่คุณ ไม่ได้ พูดถึงไว้ ตัวนี้แหละที่คนหมายถึงเวลาพูดว่า "แก้รูปด้วย AI"

กฎสั้น ๆ: Imagen 4 ไว้สร้างภาพ Nano Banana ไว้แก้ภาพ ถ้ามีผืนผ้าใบว่าง ๆ ให้เจน ถ้ามีรูปอยู่แล้วและอยากเปลี่ยนแค่จุดเดียว ให้แก้ เลือกผิดประเภทเสียทั้งคุณภาพและเครดิต

สามทางที่จะเข้าถึงโมเดลภาพ

ทางเลือกก็เหมือนทุกอย่างในระบบ Gemini — แลกกันระหว่างราคากับความยุ่งยาก:

  1. แอป Gemini / Google AI Studio มีโควตาฟรี แต่จำกัดจำนวนครั้ง บางทีติดลายน้ำ และการเข้าถึงโมเดลบางตัวก็เปิด ๆ ปิด ๆ ตามแพ็กเกจและภูมิภาค เหมาะกับลองครั้งเดียว
  2. Google Cloud Vertex AI เป็น API ดิบ ควบคุมได้เต็มที่ ไม่มีลายน้ำ — แต่ต้องมีบัญชี GCP ตั้งค่าการเรียกเก็บเงิน และ API key พร้อมคิดเงินรายรูป เกินจำเป็นถ้าคุณไม่ได้สร้างระบบเอง
  3. เครื่องมือสำเร็จรูปที่ห่อโมเดลไว้ฝั่งเซิร์ฟเวอร์ แค่พิมพ์พรอมต์ มันเจนให้ จ่ายเท่าที่ใช้ ไม่ต้องมีคีย์ ไม่ต้องมี GCP ไม่มีบิลเซอร์ไพรส์ ฉันสร้าง เครื่องมือสร้างภาพของ GeminiOmni แบบนี้พอดี เพราะทางเลือกที่ 1 กับ 2 มันจำกัดเกินไปหรือพิธีรีตองเยอะเกินสำหรับคนที่แค่อยากได้รูป

เลือกตามความถี่ ถ้าเดือนละครั้ง แอป Gemini ก็พอ ถ้าบ่อยกว่าสัปดาห์ละครั้ง เครื่องมือสำเร็จรูปช่วยประหยัดทั้งเงินและความยุ่งยากของ GCP

ขั้นตอนจริง (ทำรูปจากข้อความ)

ไม่ว่าใช้ทางไหน กลไกเหมือนกัน:

1. เขียนฉากเป็นพรอมต์ ระบุตัวแบบ สไตล์ แสง และการจัดเฟรม ในหนึ่งถึงสองประโยค โครงสร้างอยู่ด้านล่าง

2. เลือกอัตราส่วนภาพก่อน 16:9 สำหรับแบนเนอร์และธัมบ์เนล 1:1 สำหรับโพสต์ฟีดและรูปโปรไฟล์ 9:16 สำหรับสตอรี ตัดสินใจ ก่อน เจน เพราะการครอปทีหลังทำให้ความละเอียดหาย

3. เลือกโมเดลตามงาน ตัวเร็วและราคาถูกสำหรับร่างและลองซ้ำ (โมเดลเบา ๆ อย่าง Z-Image Turbo ราคาแค่เศษเสี้ยวของตัวเรือธง) ส่วนตัวพรีเมียมอย่าง Nano Banana Pro ไว้ใช้ตอนต้องการภาพ 2K และตัวอักษรในภาพที่อ่านออก

4. เจนแล้วตรวจ โมเดลภาพสมัยนี้คืนผลในไม่กี่วินาที ดูทั้งเฟรม ไม่ใช่แค่ตัวแบบ — มือ ตัวอักษร และใบหน้า คือจุดที่โมเดลยังพลาดบ่อย

5. ปรับทีละตัวแปร ถ้าได้มา 80% แล้ว อย่าเขียนพรอมต์ใหม่ทั้งหมด เปลี่ยนแค่อย่างเดียว — แสง เลนส์ หรือช่วงเวลา — แล้วเจนใหม่

โครงสร้างพรอมต์ที่ได้ผลจริง

หลังเจนมาหลายร้อยรูป นี่คือโครงที่ฉันหยิบมาใช้ทุกครั้ง:

[ชนิดช็อต / สื่อ] ของ [ตัวแบบ] [กำลังทำอะไร], [สถานที่], [แสง / ช่วงเวลา], [อารมณ์], [สไตล์หรือรายละเอียดกล้อง]

ตัวอย่างที่กรอกแล้ว:

ภาพช็อตกว้างแนวภาพยนตร์ของประภาคารโดดเดี่ยวบนชายฝั่งหิน ช่วงโกลเดนอาวร์ เงาทอดยาว อารมณ์สงบและคิดถึง ถ่ายด้วยฟิล์ม 35mm ระยะชัดตื้น

ในนั้นมีอะไรบ้าง:

  • สื่อหรือชนิดช็อต ("ช็อตกว้างแนวภาพยนตร์", "ภาพถ่ายสินค้าในสตูดิโอ", "ภาพประกอบเวกเตอร์แบน") — ตัวนี้กำหนดลุคทั้งหมด โมเดลภาพเข้าใจคำศัพท์เรื่องสื่อดี
  • ตัวแบบที่ชัดเจนกำลังทำอะไรสักอย่าง — คำนามและคำกริยาที่เป็นรูปธรรมชนะการกองคำคุณศัพท์ "ประภาคารบนชายฝั่งหิน" ดีกว่า "วิวสวย ๆ"
  • แสงและช่วงเวลา — "โกลเดนอาวร์", "กลางคืนแสงนีออน", "เช้าฟ้าครึ้ม" วลีเดียวนี้ตัดสินอารมณ์ไปครึ่งหนึ่ง
  • สไตล์หรือรายละเอียดกล้อง — "ฟิล์ม 35mm", "ระยะชัดตื้น", "4K รายละเอียดสูง" สำหรับภาพสมจริง หรือ "เวกเตอร์แบน", "สีน้ำ", "ไอโซเมตริก" สำหรับงานกราฟิก

สิ่งที่ ทำลาย พรอมต์: กองคำคุณศัพท์สิบคำ คำสั่งที่ขัดกันเอง ("มินิมอลแต่รายละเอียดจัดเต็ม") และแนวคิดนามธรรมที่ไม่มีจุดยึดทางสายตา ("ภาพเกี่ยวกับอิสรภาพ") โมเดลเรนเดอร์สิ่งที่มันมองเห็น — ฉะนั้นให้สิ่งที่มันมองเห็นได้

ปัญหาที่เจอบ่อยและวิธีแก้

"ตัวอักษรในภาพเพี้ยน" โมเดล diffusion เขียนคำได้แย่มาแต่ไหนแต่ไร ให้ใส่ข้อความสั้น ๆ ใส่ในเครื่องหมายคำพูดในพรอมต์ และใช้โมเดลที่แรงกว่า — Nano Banana Pro เรนเดอร์ตัวอักษรให้อ่านออกได้ดีกว่าตัวเร็วเยอะ

"หน้าตาดูแปลก ๆ" ใบหน้าคือสิ่งที่ยากที่สุดสำหรับทุกโมเดลภาพในปี 2026 ดึงกล้องออกมา เลี่ยงโคลสอัปสุดขั้ว และเติม "ผิวมีเท็กซ์เจอร์ธรรมชาติ แสงสตูดิโอนุ่ม" แทนการคาดหวังพอร์เทรตเป๊ะ ๆ ในตัวเร็ว

"มันไม่สนใจพรอมต์ครึ่งหนึ่ง" คุณน่าจะบรรยายมากเกินไป หนึ่งตัวแบบ หนึ่งช่วงเวลา หนึ่งอารมณ์ ตัดครึ่งหลังทิ้ง

"มันดูไม่สมจริง" เติม "ถ่ายด้วยฟิล์ม 35mm", "ระยะชัดตื้น", "แสงธรรมชาติ" — และลดความคาดหวังเรื่องมือกับตัวอักษรเล็ก ๆ ที่ยังเป็นจุดอ่อนทุกที่

แก้ภาพแทนการเจนใหม่

ถ้าคุณมีรูปที่ชอบอยู่แล้ว — ภาพสินค้า ภาพประกอบ ตัวละคร — อย่าบรรยายใหม่จากศูนย์ ส่งรูปให้โมเดลแก้ภาพ แล้วพรอมต์เฉพาะ สิ่งที่อยากเปลี่ยน นั่นคือสิ่งที่คนต้องการจริง ๆ เวลาพูดว่า "แก้รูปด้วย AI" และเกือบทุกครั้งคุณภาพดีกว่าการทำรูปจากข้อความล้วน เพราะโมเดลไม่ต้องเดาองค์ประกอบ — คุณให้เฟรมมาแล้ว เครื่องมือสำเร็จรูปส่วนใหญ่ (รวมถึงของเรา) แยกตัวนี้เป็น โหมดแก้ภาพในบริบท

แล้วทางลัดที่เร็วที่สุดสู่รูปแรกคืออะไร?

ถ้าแค่อยากลองครั้งเดียวและไม่ติดลายน้ำ เจนในแอป Gemini ได้เลย ถ้าจะทำเป็นประจำ — คอนเทนต์ การตลาด ธัมบ์เนล — ข้ามการตั้งค่า GCP ไปเลย แล้วใช้เครื่องมือที่ห่อโมเดลไว้ฝั่งเซิร์ฟเวอร์และคิดเงินตามที่เจน นั่นคือช่องว่างที่ GeminiOmni เติมเต็ม: พิมพ์พรอมต์ แล้วได้รูปจริงกลับมาในไม่กี่วินาที บัญชีใหม่เริ่มต้นด้วยเครดิตฟรี — และเพราะรูปตัวเร็วใช้เครดิตแค่ไม่กี่หน่วย รูปแรก ๆ ของคุณจึงฟรีจริง ๆ ไม่ต้องผูกบัตรเพื่อดูว่ามันดีพอไหม

โมเดลดีพอแล้ว สิ่งที่ขวางระหว่างคุณกับรูปที่คุณภูมิใจ ไม่ใช่ Gemini หรือ Imagen — แต่คือพรอมต์ เริ่มจากโครงด้านบนแล้วเปลี่ยนทีละตัวแปร คุณจะคล่องเร็วอย่างน่าประหลาดใจ

Lena Hoffmann

Lena Hoffmann