PaintsChainerがすごすぎたので、ソースコードをダウンロードしてMacで動かしてみました。

paints_chainer


手順としては、PaintsChainerをCloneした後、学習済みデータをcgi-bin/paint_x2_unet/models/に置きます。

次に、Chainerをpip install chainerでインストールします。

PaintsChainerのPython 3.0に対して、MacのデフォルトのPythonは2.7なので、server.pyのhttp.serverをBaseHTTPServerに書き換える必要があります。


diff --git a/server.py b/server.py
index 52b37be..d6622a5 100644
--- a/server.py
+++ b/server.py
@@ -1,7 +1,11 @@
#!/usr/bin/env python

-import http.server
-import socketserver
+#import http.server
+#import socketserver
+#from urllib.parse import parse_qs
+
+import BaseHTTPServer
+import CGIHTTPServer

import os, sys
import base64
@@ -10,7 +14,6 @@ import json
import argparse

from cgi import parse_header, parse_multipart
-from urllib.parse import parse_qs


#sys.path.append('./cgi-bin/wnet')
@@ -19,13 +22,13 @@ import cgi_exe



-class MyHandler(http.server.CGIHTTPRequestHandler):
+class MyHandler(CGIHTTPServer.CGIHTTPRequestHandler):
def __init__(self,req,client_addr,server):
- http.server.CGIHTTPRequestHandler.__init__(self,req,client_addr,server)
+ CGIHTTPServer.CGIHTTPRequestHandler.__init__(self,req,client_addr,server)

def parse_POST(self):
ctype, pdict = parse_header(self.headers['content-type'])
- pdict['boundary'] = bytes(pdict['boundary'], "utf-8")
+ #pdict['boundary'] = bytes(pdict['boundary'], "utf-8")
if ctype == 'multipart/form-data':
postvars = parse_multipart(self.rfile, pdict)
elif ctype == 'application/x-www-form-urlencoded':
@@ -80,7 +83,10 @@ class MyHandler(http.server.CGIHTTPRequestHandler):
else:
paintor.colorize(id_str, blur=blur)

- content = bytes("{ 'message':'The command Completed Successfully' , 'Status':'200 OK','success':true , 'used':"+str(args.gpu)+"}", "UTF-8")
+ #content = bytes("{ 'message':'The command Completed Successfully' , 'Status':'200 OK','success':true , 'used':"+str(args.gpu)+"}", "UTF-8")
+
+ content = "{ 'message':'The command Completed Successfully' , 'Status':'200 OK','success':true , 'used':"+str(args.gpu)+"}"
+
self.send_response(200)
self.send_header("Content-type","application/json")
self.send_header("Content-Length", len(content))
@@ -102,7 +108,9 @@ print('GPU: {}'.format(args.gpu))

paintor = cgi_exe.Paintor( gpu = args.gpu )

-httpd = http.server.HTTPServer(( args.host, args.port ), MyHandler)
+#httpd = http.server.HTTPServer(( args.host, args.port ), MyHandler)
+httpd = BaseHTTPServer.HTTPServer((args.host, args.port ), MyHandler)
+
print('serving at', args.host, ':', args.port, )
httpd.serve_forever()


また、MacはAMDのGPUを搭載しておりCUDAが動かないので、GPUを切ります。cuda.と.get()をコメントアウトします。


diff --git a/cgi-bin/paint_x2_unet/cgi_exe.py b/cgi-bin/paint_x2_unet/cgi_exe.py
index 33c381b..86bc4d7 100755
--- a/cgi-bin/paint_x2_unet/cgi_exe.py
+++ b/cgi-bin/paint_x2_unet/cgi_exe.py
@@ -30,11 +30,11 @@ class Paintor:
self.gpu = gpu

print("load model")
- cuda.get_device(self.gpu).use()
+ #cuda.get_device(self.gpu).use()
self.cnn_128 = unet.UNET()
self.cnn = unet.UNET()
- self.cnn_128.to_gpu()
- self.cnn.to_gpu()
+ #self.cnn_128.to_gpu()
+ #self.cnn.to_gpu()
lnn = lnet.LNET()
#serializers.load_npz("./cgi-bin/wnet/models/model_cnn_128_df_4", cnn_128)
#serializers.load_npz("./cgi-bin/paint_x2_unet/models/model_cnn_128_f3_2", cnn_128)
@@ -56,7 +56,7 @@ class Paintor:


def liner(self, id_str):
- cuda.get_device(self.gpu).use()
+ #cuda.get_device(self.gpu).use()

image1 = cv2.imread(path1, cv2.IMREAD_GRAYSCALE)
image1 = np.asarray(image1,self._dtype)
@@ -64,16 +64,16 @@ class Paintor:
image1 = image1[:, :, np.newaxis]
img = image1.transpose(2, 0, 1)
x = np.zeros((1, 3, img.shape[1], img.shape[2] )).astype('f')
- x = cuda.to_gpu(x)
+ #x = cuda.to_gpu(x)

y = lnn.calc(Variable(x), test=True)
- output = y.data.get()
+ output = y.data#.get()

self.save_as_img( output[0], self.root + "line/"+id_str+".jpg" )


def colorize_s( self, id_str, blur=0, s_size=128):
- cuda.get_device(self.gpu).use()
+ #cuda.get_device(self.gpu).use()

dataset = ImageAndRefDataset([id_str+".png"],self.root+"line/",self.root+"ref/" )
test_in_s, test_in = dataset.get_example(0, minimize=True, blur=blur, s_size=s_size)
@@ -81,30 +81,30 @@ class Paintor:

x[0,:] = test_in_s

- x = cuda.to_gpu(x)
+ #x = cuda.to_gpu(x)
y = self.cnn_128.calc(Variable(x), test=True )
- output = y.data.get()
+ output = y.data#.get()

self.save_as_img( output[0], self.outdir_min + id_str + ".png" )

def colorize_l( self, id_str ):
- cuda.get_device(self.gpu).use()
+ #cuda.get_device(self.gpu).use()

dataset = ImageAndRefDataset([id_str+".png"],self.root+"line/",self.root+"out_min/" )
test_in, test_in_ = dataset.get_example(0,minimize=False)
x = np.zeros((1, 4, test_in.shape[1], test_in.shape[2] )).astype('f')
x[0,:] = test_in

- x = cuda.to_gpu(x)
+ #x = cuda.to_gpu(x)
y = self.cnn.calc(Variable(x), test=True )

- output = y.data.get()
+ output = y.data#.get()

self.save_as_img( output[0], self.outdir + id_str + ".jpg" )


def colorize( self, id_str, blur=0, s_size=128):
- cuda.get_device(self.gpu).use()
+ #cuda.get_device(self.gpu).use()

dataset = ImageAndRefDataset([id_str+".png"],self.root+"line/",self.root+"ref/" )
test_in_s, test_in = dataset.get_example(0,minimize=True)
@@ -117,20 +117,21 @@ class Paintor:
x[0,:] = line
input_bat[0,0,:] = line2

- x = cuda.to_gpu(x)
+ #x = cuda.to_gpu(x)
y = self.cnn_128.calc(Variable(x), test=True )

- output = y.data.get()
+ output = y.data#.get()

self.save_as_img( output[0], self.outdir_min + id_str +"_"+ str(0) + ".png" )

for ch in range(3):
input_bat[0,1+ch,:] = cv2.resize(output[0,ch,:], (test_in.shape[2], test_in.shape[1]), interpolation = cv2.INTER_CUBIC)

- x = cuda.to_gpu(input_bat)
+ #x = cuda.to_gpu(input_bat)
+ x = input_bat
y = self.cnn.calc(Variable(x), test=True )

- output = y.data.get()
+ output = y.data#.get()

self.save_as_img( output[0], self.outdir + id_str +"_"+ str(0) + ".jpg" )

diff --git a/cgi-bin/paint_x2_unet/img2imgDataset.py b/cgi-bin/paint_x2_unet/img2imgDataset.py
index d26f580..e98238e 100755
--- a/cgi-bin/paint_x2_unet/img2imgDataset.py
+++ b/cgi-bin/paint_x2_unet/img2imgDataset.py
@@ -41,11 +41,11 @@ class ImageAndRefDataset(chainer.dataset.DatasetMixin):
if minimize :
if image1.shape[0] < image1.shape[1]:
s0 = s_size
- s1 = int( image1.shape[1]*(s_size/image1.shape[0]) )
+ s1 = int( image1.shape[1]*(1.0*s_size/image1.shape[0]) )
s1 = s1-s1%16
else:
s1 = s_size
- s0 = int( image1.shape[0]*(s_size/image1.shape[1]) )
+ s0 = int( image1.shape[0]*(1.0*s_size/image1.shape[1]) )
s0 = s0-s0%16

_image1 = image1.copy()


後は、python server.pyで動作します。ブラウザからhttp://localhost:8000/static/などでアクセスします。

推論側はGPU無効でも数十秒で返ってくるため、クライアントサイドでも動かせそうな印象です。ただ、学習済みデータが134.3MBもあるので、これをそのままクライアントに転送するのが難しそうですね。負荷自体は低いので、アプリ化などは容易そうです。

テクノロジーは元記事が詳しいです。

学習側は、画像をYUV変換して、Yをベースに線に変換しているようです。また、乱数で2値化したり、左右反転したり、ノイズを足したりして、データ量を増やしていますね。

ネットワークの構造はU-netでした。Batch Normalization重要そうです。評価関数は元画像との二乗誤差+アドバイサリーロスを10:1で混合。アドバイサリーロスについては、生成した画像が偽物であると推定させることで、競わせるようです。ソースコードではtrain.pyでCNNが生成した画像をy_fake、正解画像をy_realとして、アドバイサリーネットに入力し、見分けられない画像を生成させようとしています。

ユーザによる色の入力はどう実装しているか不思議だったのですが、線画に元データからランダムに色付きピクセルを追加したものを学習データとしているようです。

いきなり512x512にしないで、128x128を経由しているのは過学習対策なんですかね。ノウハウがありそうです。

Chainerの係数列はNumPyのnpzフォーマットのようです。ダンプしてみたい。

これだけ少ないコード量で、これほどのサービスが作れるのは驚きです。ただ、ソースコードにうまく学習させるためのノウハウが散りばめられており、一朝一夕ではないなという印象です。