雲の上のクラスタ

ブログ移動しました

2013-01-13T12:36:00.001+09:00

今後はAbove the cloudsに書いていきます。
テーマはWeb全般です。

Google App Engine Python NDB を使ってみた。(7)

2012-12-02T17:54:00.002+09:00

NDB Transactions

トランザクションとは一連のオペレーションのセットについて完全に成功かまたは完全に失敗のどちらかにする制御のことである。アプリケーションは複数の計算とオペレーションを一つのトランザクションで行う事が出来る。NDBのAsynchronous APIを使用すると、独立している処理であれば、複数のトランザクションを同時に管理する事が出来る。Synchronous APIは@ndb.transactional()デコレータを使用する事によって簡単にTransactionを制御できる。
競合が発生した場合は、失敗するが、NDBはその失敗したトランザクションを何回か自動的にリトライを行う。従って、その関数はリトライによって複数回呼び出される事がある。リトライの回数はデフォルトで3回である。もしそれでもトランザクションが失敗する場合は、NDBがTransactionFailedErrorを送出する。リトライ回数はtransactional()のretries=Nで設定することが出来る。リトライ回数を０にすると、それは一回だけ試みる事になり、リトライは行わない。リトライ回数のNはトランザクションが試みるであるトータルのN+1回の事である。
トランザクションでは、先祖クエリだけを許している。デフォルトでは、トランザクションは同じエンティティグループに所属するエンティティにのみ作用する。（同じ先祖キーを持つエンティティ達）

また、xg=Trueを設定することで、cross-group("XG")transactionsも使う事が出来る（最大５エンティティグループまで）
もし関数が例外を送出した場合はトランザクションは即時に中断され、NDBはそれを見れるようにする為にもう一度例外を送出する。暗黙にトランザクションを失敗されるにはndb.Rollback例外を送出することで、可能である。（関数の戻り値はNoneになる）これはリトライの機構は持っていない。

常にトランザクション内の処理にしたくない場合もあるが、代わりにデコレート関数の@ndb.transactionalの代わりにcallback関数のndb.transaction()を使う事ができる。

コードがトランザクション内で実行されているかどうかをテストする場合はin_transaction()関数を使えば可能である。

関数が呼びだされた時のトランザクションの振る舞いをどのようにしたら良いかを指定する事が出来る。@ndb.non_transactionalデコレータを指定するとトランザクション内で実行しない方がいい処理となり、トランザクション内で呼び出された場合は、トランザクション外で実行される事になる。@ndb.transactionalデコレータとndb.transaction関数にpropagationキーワード引数をもった関数がある。例えば、関数が呼び出された場合に新しく、独立したトランザクションにしたい場合は、デコレータを下記のようにする。
propagationについては[Context Options and Transaction Options]にリストアップされている。

トランクションの振る舞いとNDBのキャッシュの振る舞いはどのようになるか分からない場合に混乱を招く事がある。例えば、エンティティをトランザクション内で更新しているが、コミットしていない場合に、NDBのキャッシュ上は更新されているが、Datastoreでは更新されていないのである。

今回は、トランザクションについて紹介した。
トランザクションの振る舞いをデコレータで制御できるのは便利である。

次回は、NDB Administrationについて。

Google App Engine Python NDB を使ってみた。(6)

2012-11-25T18:18:00.001+09:00

NDB Queries(2)

前回の続き。

・Structured Propertyに対するフィルタリング

QueryはStructed Propertyのフィールドの値に対して直接フィルタリングする事が出来る。

例えば、cityがAmsterdamのContactオブジェクトに対してQueryを定義すると下記のとおりになる。

複合したフィルタリングを用いたい場合は、以下のように定義する。
上記で抽出されるContactはcityがAmsterdamかほかのcityでadressがSpear Stになる。しかし、少なくとも等価のフィルターになる。もし単一の結果を返却したい場合は以下のように定義する。
このテクニックを使うと、プロパティのサブエンティティがNoneと等価の場合はクエリで無視される。プロパティがデフォルト値を持っている場合にQueryで無視したい場合は明示的にNoneを設定する必要がある。それか、Queryで指定しているフィルターをデフォルト値と一致させる必要がある。例えば、Addressモデルがcoutryプロパティのデフォルト値をdefault='us'と設定している場合、上記例では、countryが'us'のContactのみを返す事になる。他のcountryを持つContactを抽出したい場合は、filterをAddress(city='San Francisco', street='Spear St', country=None).のようにする必要がある。

サブエンティティのプロパティのどこかにNOneが設定されている場合はそれらは無視される。従って、Noneが設定されてるサブエンティティへのfilterは意味をなさない。

・Projection Queries

Queryにprojectionを指定することができる。これは検索したいプロパティのリストで、もしprojectionを指定した場合は、NDBはそれぞれのEntityから全ての値は取得しない。
projectionで指定したプロパティの値しか取得しない。これはQueryのindexより取得するものなので、indexされている必要がある。数個の大きいEntityから小さいプロパティのいくつかが抽出したい場合に有用であり、Fetchが効率的に行われる。もしprojectionを指定せずに行うとndb.UnprojectedPropertyError.例外を送出することになる。

データストアよりArticleを取得する例では、分類学者は彼らの記事に適用されているタグの作成者を知りたいと仮定すると、必要なのはauthorとtagsの情報だけなので、projectionを以下のように指定する。
Repeated Properties:例では、Aritcle.tagsはrelated propertyとなっている。これは、repeated property はインデックスされていて、(projectionはindexから取得する）projectionクエリは格納されたentityへ複数のentityをフェッチする。もしArticle(author='Guido', tags=['python', 'jython'])のようなEntityが存在した場合に、projectionクエリはArticle(author='Guido', tags=['python'])とArticle(author='Guido', tags=['jython'])の二つのEntityを返却する。

Structured Properties:インデックスされたstructured propertyのサブプロパティを射影する事ができる。下記のように射影を指定することができる。

・String値によってPropertyを指定する

時々String値によってフィルター、順序するプロパティをクエリーで指定したい場合があるが、例えば、ユーザーが指定したtags:pythonのようなサーチクエリを使いたい場合は以下のようにする。

もし、ModelがExpndo Modelの場合は、GenericPropertyを使ってフィルタリングする事ができる。Expandoは動的プロパティを使うので、
このGenericPropertyはExpando Modelでなくても使用する事ができるが、もし自分で確保したプロパティのみを指定させたい場合は、_properties属性を使用することもできる。
または、getattr()を使用する事もできる。
getattr()と_propertiesの違いは、getattr()はPython上のproperyの名前を使い、_propertiesはインデックスされたデータストアのプロパティの名前を使用する。下記のように定義した場合のみ、そのような挙動をする。

これは、Python上ではtitleだが、データストア上はtとなる。

以下のようなアプローチでも使用することができる。
・Query Iterators

Queryが処理されている間は、iteratorオブジェクトとして保持されている。(アプリケーションでこれらが使用される場合はほとんどない。fetch(20)のような方が普通かもしれない）基本的には以下の２点でiteratorオブジェクトを取得することができる。

・QueryからPythonのiter()関数を呼んで使う場合
・Queryオブジェクトのiter()メソッドを呼ぶ場合

一つ目は、 PythonのforループをつかってQueryが終わるまでループする方法
二つ目は、Queryオブジェクトのiter()メソッドを使用する方法で、iteratorの振る舞いに影響を与える為にiteratorにオプションを渡す事ができる。例えば、keyのみのクエリーをforループで使用する場合。
Query iteratorsは他に以下のような便利なメソッドがある。
__iter__(), next(), has_next(), probably_has_next(), cursor_before(), cursor_after()

・Query Cursors

クエリカーソルは、クエリ内の再開ポイントを表す小さな不透明なデータ構造です。これは、その時点での結果をユーザーに見せる場合に便利である。また、長いデータなどで、一時停止して処理したい場合などにも使える。典型的な方法では、Queryのfetch_page()メソッドを使用する方法で、fetch()と同じように動作するが、返却値としてresults, cursor, moreを返却する。moreフラッグは更に結果が存在する事を示し、UIはこれを、例えばNextPageボタンをリンクとして設置したりできる。後続のページをリクエストする場合は、返却値のcursorのfetch_page()を呼ぶ。

したがって、ユーザーにその時点の全ての検索結果を表示する場合に以下のようにコーディングすることができる。

urlsafe()とCursor(urlsafe=s)をシリアライズとでシリアライズに使用する場合には注意が必要。これは、クライアントに一回のリクエストでcursorを渡すことができるのと、後のリクエストにデシリアライズして使用することができる。

注意:fetch_page()メソッドは結果がそれ以上無い場合もcursorを返却するが、それは保証がない。Noneが返却されるだろう。moreフラッグも注意が必要でこれは、iteratorのprobably_has_next()を使用しているので、時々、Trueでも次のページが空の場合もある。

いくつかのNDB Queryは、cursorをサポートしていないが、これを解消することができる。QueryでIN,ORまたは!=を使用すると、キーで順序指定されない限りcursorとして動作しない。
もしアプリケーションで、順序を指定しないでfetch_page()を呼んだ場合は、BadArgumentErroが送出される。User.query(User.name.IN(['Joe', 'Jane'])).order(User.name).fetch_page(N)これではエラーになるので、User.query(User.name.IN(['Joe', 'Jane'])).order(User.name, User.key).fetch_page(N)とすれば問題ない。

pagingの代わりにqueryの結果を取得する場合は、queryのiter()メソッドを正確なポイントで使用するとよい。ただ、produce_cursor=Trueをiter()に渡して上げる必要がある。正しい場所で、iteratorを使用した後は、cursor_afterを呼ぶ必要がある。(または、同様に、cursor_beforeをcursorの前に呼ぶ）cursor_after()またはcursor_before()を呼び出すと、cursorを抽出する為に、クエリの一部を再実行すると、ブロックされるかもしれないので、
注意が必要。

cursorをさかのぼって結果取得する場合は以下のようにする。
・それぞれのEntityへ呼び出す関数をMappingする

Account Entityに関連するMessageをQueryによって取得したいと仮定すると以下のようにコーディングすることができる。
しかしながら、これは非効率である。以下のようにcallback関数を使用することができる。

このバージョンでは、並列化することができるので、forループよりすこし早くすることができる。しかし、get()メソッドでcallback()を使用しても同期処理になってしまうので、asyncronous getを使用するといい。

・GQL

NDBで以下のようにGQLを使用することもできる。

または、

bind()関数は元と同じ新しいqueryを返却する。

SQLに慣れている場合、GQLを使用して誤った仮定には注意。 GQLはNDBのネイティブクエリAPIに変換される。これは、それらがデータベース·サーバーに送信される前にAPIの呼び出しがSQLに変換され、典型的なオブジェクト·リレーショナル·マッパー（SQLAlchemyのか、Djangoのデータベースのサポートなど）とは異なる。 GQLは、データストアの変更（挿入、削除または更新）をサポートしていないので、クエリのみをサポートしている。

今回は、Queryについて２回にわたって紹介した。
しかし、翻訳がつたないのと理解不足があるので、
いずれは、実際に使用してみた例を紹介したいと思う。

次回は、Transactionsについて。

Google App Engine Python NDB を使ってみた。(5)

2012-11-18T16:43:00.000+09:00

NDB Queries

アプリケーションはクエリーを使用したフィルターの基準によって指定した検索にマッチするEntityをDatastoreから検索できる。

・概要
アプリケーションはクエリーを使用したフィルターの基準によって指定した検索にマッチするEntityをDatastoreから検索できる。例えば、アプリケーションはクエリーを使ってTrackとGuestbooksを一つのguestbookから日付順に検索できるようにしたままに出来る。

いくつかのクエリーは他より更に複合にできるが、Datastoreはインデックスを事前に構築しておく必要がある。これらの事前に構築するindexはindex.yamlというconfiguration fileで定義できる。開発サーバーでは、クエリーを実行する為に必要なindexを指定していなくても動作するのだが、これは開発サーバーが自動的にindex.yamlを追加するからである。しかし実際のWebSiteでは指定していないindexが必要になると失敗する。したがって、典型的な赤井発サイクルでは、開発サーバーで新しいクエリを試して自動的に更新されたindex.yamlをWebSiteのindex.yamlとして更新する。　
また、index.yamlをアプリケーションとは別に更新できる。
もしDatastoreにたくさんのEntityが存在するとき、インデックスを作成するのに長い時間がかかる。今回の場合、新しいindexを使用するコードをアップデートかける前に、index定義を更新するのが賢明。アドミンコンソールからindex構築の状況を確認することができる。

Datastoreは一致条件に (the==operator)と比較に(<,<=,> and >= operatros)をサポートしている。複数のフィルターをANDを使用する事によって結合できるが、いくつかの制限がある（以下を参照）

さらに、APIは!=とグループのフィルタリングをORで結合できるのと、INが使える。INはPythonのinのようにlistの中で一致する要素を検査する。これらは1対1でDatastoreのオペレーションではない。従って、相対的に少し風変わりで遅い。これらは結果のストリームをインメモリでマージする実装をしている。p!=vは実装上p<v OR p>vとなっている。

制限：データストアはいくつかの制限を強制している。これらを違反すると例外を送出する原因となる。例えば、複数のプロパティーに対する不等号のフィルタリングをたくさん結合したり、異なるプロパティーでソートを行う不等号の結合フィルターは現在全て禁止されている。複数のプロパティを参照するフィルターもまた時々セカンダリーindexの設定が必要になる。

非サポート：Datastoreは一部の文字を使用する検索、大文字小文字区別なし、また全文検索はサポートしていない。これらの大文字小文字区別なしと全文検索でさえ実装するにはcomputedプロパティーを使用する。

・Propertyの値でフィルタリングする
通常は与えられたkindの全てのEntityを検索したくない。だいたいはいくつかのプロパティーに対して範囲を指定したい。
プロパティはフィルタ
ーを表すクエリーによって操作できる。例えば、useridが42をもつEntityを抽出すると以下のような表現になる。

もしuseridがAccount内で一つである事が確実であれば、useridはキーとして扱うだろう。Account.get_by_id()にした方が早いからである。
NDBは以下のオペレーションをサポートしている。
不等のフィルタリングを行う場合は、以下のような文法を使える。
これはuseridが40以上のEntityを探すクエリーとなる。

!=とINは実装上、他のオペレーションとの複合である。また、これらは少し風変わりな説明である。

複合フィルターは以下のように指定する。

この複合フィルターの引数は、useridが40以上から50未満のEntityを返すクエリーとなるが、前述のとおりDatastoreは、複数のプロパティで不等号を使用したクエリーを拒否する。

代わりに全体のクエリーフィルターを一つで表現する。多分もっと便利にクエリーを積み上げることが出来る事を見つけるであろう。
qry3は前述の例のqrtと等価である。このクエリーオブジェクトは不変であり、qry2はqry1に影響を与えず、また、qry3もqry1とqry2に影響は与えない。

・!= と IN のオペレーション
!=(不等）とIN(メンバーシップ）オペレーションはORを使った他のオペレーションとの複合である。まずは以下。
は実装上
例えば、
これは以下と等価

Note:多分驚くであろうが、このクエリーは、perlタグを含まないEntityを探すよりむしろ最低でも一つのタグがperlでない全てのエンティティーを探している。例えば次のエンティティはそのタグの一つとしてperlを持っているのみも関わらず、結果に含まれるだろう。
しかしながら、これは含まれないであろう。
perlと同じタグが含まれていないエンティティを抽出する為の方法はない。
また、INオペレーションについては、以下の表現ができる。

これはリストの値のメンバーシップを検索する。実装上は以下の通り
例は下記
以下とも等価である。

ORをしようすると重複した結果は得られない。

・Repeated Propertiesへのクエリー
Articleクラスはrepeatedプロパティへのクエリの例としても先行したセクションとして定義した。特にフィルターのように、

上記Article.tagsはrepeatedプロパティにも関わらず、一つの値を使った。すると、このプロパティはlistオブジェクトと比べることが出来なくなる。また、フィルターのように、

この場合は、tagsのプロパティーがlistの['python','ruby','php']を持っているEntityを探す事とは全く違う。これはtagsの値が['python','ruby','php']のうち最低でも一つが含まれるEntityを探す。
Noneはクエリーで検索する事が出来ない。

・ANDとORを複合して使う
ANDとORオペレーションをネストして使う事が出来る。

ORの実装の為に、ORを複合しすぎたクエリーは例外とともに失敗するであろう。これらのフィルターは下記のように、一つのレベルのANDとネストされたクエリーの最上位にあるOR
を表現する為に正規化される。この拡張は、既に！=とINに与えられた拡張とともに、ブール式のための論理和標準形を得るための標準的な規則を使用する。要するに、上記の例の正規化された形は、（非公式の表記法を使用する）

注意：
この正規化は複合の爆発の可能性がある。

・ソート順序を指定する
order()メソッドを使用してクエリーの結果の順序を指定する事が出来る。このメソッドはlist引数を受け取り、それぞれ、プロパティーのオブジェクトかまたは、それの昇順降順を指定できる。

この検索は、messageプロパティーの値で昇順にしたGreeting Entityを検索する。
連続したmessageプロパティをuseridを降順にソートした結果を返却するためには、複合のorderを呼び出せば可能である。
order()でフィルタを組み合わせたとき、データストアは、特定の組み合わせを拒否する。特に、不等号フィルタで最初の並べ替え順序を（もしあれば）を使用した場合、フィルタと同じプロパティを指定する必要がある。また、時々セカンダリインデックスを設定する必要がある。

・先祖クエリ
先祖クエリはクエリの結果を先祖から制約する。
ソート順とフィルターの複合で使用できる。
同じ先祖のEntityへの操作となるので、これは特にtransaction内で便利である。

・Queryオブジェクトの属性
Queryオブジェクトは以下のような読み込み専用の属性を持っている。
kind str None Kind name (usually the class name)
ancestor Key None Ancestor specified to query
filters Filter Node None Filter expression
orders Order None Sort orders

str()とかrepr()を呼んで内容を表示するときに表現できる。

今回はQueriesについての前半を記載した。
ここまでは特にNDBに特化した機能などはほとんどなかったが、
次回もQueriesについてだが、NDB特有のmapなど登場する予定。

Google App Engine Python NDB を使ってみた。(4)

2012-11-11T14:42:00.001+09:00

プロパティーのサブクラスを書く(Writing Property Subclasses)

プロパティクラスはサブクラス化できるよう設計されている。しかし普通は既存のプロパティクラスの方が簡単にサブクラス化できる。
全ての特別なプロパティ属性とpublicと考えられる属性もアンダースコアから始まる名前を持っている。この理由はStructuredPropertyがネストされたプロパティーのアンダースコアの付いていない属性を使用するからで、これはサブプロパティにクエリを指定する為に不可欠である。

プロパティクラスと既存のサブクラスは構成可能な（またはスタッカブル）検証および変換APIを使用してサブクラス化する事が出来る。これらはいくつかの用語定義を必要とする。

・ユーザーの値(user value)は、アプリケーションが使用する標準の属性を持つエンティティに設定されるまたは、アクセスされるような値。
・基本の値(base value)はデータストアからシリアライズまたはでシリアライズされるような値。

シリアライズ可能な値とuser valueの間で特定の変換を実装する場合は二つのメソッドを実装した方がよい。to_base_type()と_from_base_type()がそれで、これらは構成可能なAPIという意味でsuper()メソッドは呼ばない方がよい。

APIは今までよりも洗練されたuser-baseな変換を行えるstacking classesをサポートしている。user-to-base変換はbase-to-user 変換でより洗練から更に洗練へ変換している間に更に洗練からより洗練へ行く。例えば、BlobProperty,TextPropertyとStringPropertyの関係や、例えば、TextPropertyはBlobPropertyを継承している。それは必要な動作のほとんどを継承しているので、そのコードは簡単なもの。
加えて、_to_base_type()と_from_base_type(),_validate()メソッドもまた、変換APIである。

バリデーションAPIはuser valuesへの緩い制約と厳密な制約とを区別する。緩い制約の値は厳密な値の集合の上位集合である。_validate()メソッドは緩い値をとり、また必要であれば、厳密な値へ変換する。これは、プロパティの値を取得する場合に、唯一厳密な値が返されるときにプロパティー値を設定するときは、緩い制約の値が受け入れられていることを意味する。もし変換が必要ない場合は、_validate()は多分Noneを返す。もし外部からの引数が、緩い値を設定した場合は、_validate()は例外を送出すべきでTypeErrorかdatasore_error.BadValueErrorが好ましい。

_validate(),_to_base_Type(),_from_base_type()の操作が必要が無い場合:
・None:これらはNoneと一緒に呼び出せない。(また、Noneを返却する場合、それは変換が必要ない事を意味する）
・Repeated values:基盤で_from_base_type()か_to_base_typeをそれぞれのアイテム毎に呼ぶ。
・base valuesからuservaluesを区別する場合:基盤では変換APIがよびだされる。
・比較する場合:比較演算は、オペランドに_to_base_type()を呼び出す。
・base valueとuser valueを区別する場合:基盤で_from_base_type()がbase valueと一緒に呼び出される事と、_to_base_type()がuser valueと一緒に呼び出される事を保証している。

例えば、本当に長いintegerを必要とすると仮定する。標準のIntegerPropertyは64bitのintegerしかサポートしていない。長いintegerを保存する場合はStringとして格納しなくてはならない。変換を操作するpropertyクラスが良い。アプリケーションでそのプロパティを使うと恐らくこのようになるであろう。

これはシンプルで素直だ。またこのデモは標準のプロパティのオプションも使用している。
LongIntegerPropertyクラスの所有者はこれらの作業を取得する任意の定型を記述するひつようがないので、喜んでいるでしょう。他のプロパティのサブクラスを定義するのは簡単だ。下記が例

例えば、ent.abc = 42をエンティティのプロパティに設定した際_validate()メソッドが呼びだされて、値はエンティティに格納される。また、エンティティをDatastoreに格納する際は_to_base_type()が呼び出され、string値に変換する。そして、その値はStringProperyによってシリアライズされる。Datastoreからエンティティを読み戻した場合に逆算が起こる。
StringPropertyとPropertyクラスはシリアライズやデシリアライズ、デフォルト値の設定、repeated propertyの値を操作するような他の世話を一緒にする。

不等号を扱うにはさらに仕事とが必要である。下記の例では、固定長文字列として整数を格納した値の最大サイズを課している。

これは、LongIntegerPropertyと同じ方法で使用され、整数をプロパティのコンストラクターで設定されることを期待している。BoudedLongIntegerProperty(1024)のように。

他のプロパティの型も同じような方法でサブクラスにできる。

このアプローチはstructured dataでも動作する。日付の範囲を表すPythonのFuzzyDateクラスを持っていると仮定する。それはfistとlastのフィールドを持っていて、日付の範囲を開始と終了で格納している。

StructuredPropertyから派生しているFuzzyDateProperyを作成することが出来る。しかし残念ながら、後者は昔ながらのPythonクラスでは動作しない。Modelのサブクラスが必要である。中間モデルとしてModelのサブクラスを定義しよう。

次に、FuzzyDateとFuzzyDataModelを変換する為にFuzzyDateモデルのmodelclassの属性のコードと、_to_base_type()と_from_base_typeメソッドを定義したSturucturedProperyのサブクラスを定義する。

アプリケーションでは以下のように使用する。

FuzzyDateProperyにFuzzyDateオブジェクトのようにdateオブジェクトを格納したいと仮定すると、_validate()メソッドは以下のように変更する。

以下のようにFuzzyDateProperyクラスの代わりに使用する事も出来る。

MaybeFuzzyDateProperyフィールドを割り当てるときにMaybeFuzzyDateProperty._validate()とFuzzyDateProperty._validate()が両方呼び出される。同じ事が_to_base_type()と_from_base_type()に適用される。スーパークラスとサブクラス内のメソッドは暗黙的に結合される。

今回は自前でプロパティを用意したい場合の方法を紹介した。
次回はNDBのQueryについて。

Google App Engine Python NDB を使ってみた。(3)

2012-11-03T19:39:00.002+09:00

【NDB プロパティについて】

NDBのエンティティはプロパティの定義ができる。

エンティティはデータを保持するために用いるPythonのクラスと似ている。

それらはデータベースのスキーマにも似ている。

・最初に

典型的なアプリケーションはデータモデルをModelクラスを継承したクラスにプロパティを定義する。

上記はusername, userid,emailがAccountのプロパティとなっている。
いくつか違う型のプロパティを用いているが、手軽に日付、時間を表す事が出来て、自動更新機能も付いるプロパティもある。
アプリケーションはプロパティに特別な振る舞いを指定でき、それらは簡易な検証や、デフォルト値設定、インデックスの変更などができる。
モデルは複合プロパティを持つ事が出来る。また、リストのようなRepeated propertiesも設定できる。構造体プロパティはオブジェクトのように、読み込み専用計算プロパティは関数により定義できる。プロパティに多方面の他のプロパティを定義することが簡単にできる。Expandoモデルは動的にプロパティを設定できる。

・プロパティの型

NDBは以下のプロパティの型をサポートしている。

IntegerProperty:64-bitのInteger型
FloatProperty:倍精度のfoating-point numberの型
BooleanProperty:Boolean値
StringProperty:Unicodeの文字列で500文字以内。インデックスされる。
TextProperty:Unicodeの文字列で長さに制限はないが、インデックスできない。
BlobProperty:byte配列を格納する。もし500文字以内の文字列であれば、インデックスされる。インデックスしないのであれば、長さに制限はない。圧縮もできる。
DateTimeProperty:日付や時間
DateProperty:日付
TimeProperty:時間
GeoPtProperty:位置情報。これはbdb.GeoPtオブジェクトでlatとlonをどちらもfloatで持っている。ndb.GeoPt(52.34, 4.88)やndb.GeoPt("52.37, 4.88")などで生成できる。
KeyProperty:DatastoreのKey、kind="カインド"を指定すれば、キーの割当にいつもカインドを示すことが必須にできる。それは文字列かModelのサブクラスであろう。
BlobKeyProperty:古いdb API(BlobReferenceProperty)に対応しているがプロパティの値はBlobKeyの代わりにBlobInfoとなる。BlobInfoは使用しているBlobInfo(blobkey)から構築できる。
UserProperty:ユーザーのプロパティ
StructuredProperty:値により内部的に別のモデルのカインドを含む
LocalStructuredProperty:StructuredPropertyに似ているが、ディスク上では不透明なblobとして表現され、インデックスはされない。圧縮可能。
JsonProperty:Pythonのjsonモジュールを使ってシリアライズしたオブジェクトを設定できる。JSONシリアライズしてblobとしてdatastoreに格納される。デフォルトでインデックスはされない。圧縮可能。
PickleProperty:pickleプロトコルを使ってシリアライズされたPythonのオブジェクトを設定できる。pickleシリアライズされたデータをblobとしてdatastoreへ格納する。デフォルトでインデックスはされない。圧縮可能。
GenericProperty:汎用的な値で、主にExpandoクラスで使われる。ただし、明示的に使用可能な型はint,long,float,bool,str,unicode,datetime,Key,BlobKey,GeoPt,User,Noneとなっている。
ComputedProperty:UDFによって他のプロパティより計算された値を設定できる。

いくつかのプロパティはオプションの引数のcompressedを使用する事ができる。もし、プロパティがcompressed=Trueで設定されていた場合はデータはgzip圧縮されてディスク上に格納される。これにより格納容量は小さくできるが、エンコードとデコードにCPUを消費する。

・プロパティのオプション

ほとんどのプロパティの種類は、いくつかの標準的な引数をサポートしている。

第一引数はDatastoreネームを指定する任意の引数。これによってカプリケーションの観点よりもデータストアに別の名前を与える事ができる。一般的な使用方法はデータストアのスペースを減らす目的で使う。データストアは短縮されたプロパティ名を使う。以下が参考。

意味を持つ一文字など設定するとよい。

これは特にrepeated property でEntityごとに多くの値を期待している場合
に有効。
さらに、ほとんどのプロパティはkeyword argumentsをサポートしている。

詳細はArgument&Typeを参照

・Repeated Properties

どのプロパティもrepeated = Trueにするとrepeated propertyになる。
そのプロパティは基クラスのリストの値になる。
下記が参考。プロパティの値はIntegerProperty のリストとなる。
データストアはそのようなプロパティに複数の値が表示される場合がある。独立したインデックスレコードは各値の為に作成されるこれはクエリセマンティクスに影響を与える。
以下が例。

以下がEntity

tagsプロパティの検索をする場合にこのEntityはpythonとrubyどちらも満たす。

もし、repeated propertyを更新する場合は、新しいリストを割り当てるかその場で既存のリストを変更する事が出来る。新しいリストを割り当てた場合は即時に型チェックが行われる。例えば[1,2]をart.tagsに割り当てると例外が起こる。もし、既存のリストを更新した場合は即時に型チェックは行われない。代わりにDatastoreへ書き込むときに型チェックが行われる。
データストアはrepeated propertyのリストの順番を保持する。

・日付と時間のプロパティ

日付と時間は３つのプロパティの型が有効である。

・DateProperty

・TimeProperty

・DateTimeProperty

これらの値はPythonのdatetimeモジュールのdata, time, datetime,クラスに対応する型である。3つの中で最も一般的なのはDateTimePropertyでカレンダーの日付と日付の時間を意味する。また時折便利な特別な使い方として、ちょうどの時間が必要な場合（例えば誕生日、ミーティングの時間）がある。技術的な理由としてDatePropertyとTimePropertyはDateTimePropertyのサブクラスである。ただこの継承関係に依存しない方がよい。また、この継承関係は基本になっているクラスdatetimeの継承関係とは違う。

Note:App EngineのクロックタイムはUTCで設定されている。もしPOSIX timestampsかtime tuplesに変換したデータで現在時間を使おうとする事に関係する。明白なタイムゾーンの情報をDatasotereに格納する際に与えられない。もし、ローカル時間などで現在時刻を使うときは注意が必要である。

それぞれのプロパティは下記のkeyword argmentを使う事ができる。

auto_now_add: Entityが作られた際に自動的に現在時刻が設定される。

auto_now: Entityが更新された際に自動的に現在時刻が設定される。

これらのオプションはrepeated=Trueと複合することができない。どちらもデフォルト値はFalseでもし両方Trueにした場合はauto_nowが優先される。auto_now_add=Trueは上書きすることが出来るが、auto_now=Trueはできない。自動的な値はEntityが書き込まれるまで設定されない。これらのオプションはdynamic defaultsを提供していない。

・Structured プロパティ

構造化されたプロパティを設定する事が出来る。以下が例である。

Contactモデルクラスは住所をリストで持っている。

以下のような一つのEntityが作成される。

Entityを読み直すとContactエンティティを正確に再構築する。しかし、Adressインスタンスはモデルクラスと同じ構文を使用して定義されているが、Entityではない。これらはKeyを持っていない。Contactエンティティから独立して取得することができない。個々のフィールドへのクエリーとしてならアプリケーションで可能である。(Structured プロパティへのフィルタリングを参照）adress.type, address.streedとaddress.cityはDatastoreの観点では並行だが、NDBはこの側面を隠している。NDBでは関連するAdressインスタンスのリストとして構築している。
プロパティオプションを指定する事も出来る(indexedなど）この場合は、第二引数にDatastoreの名前を指定している。
もしStruectureプロパティへのクエリが必要ない場合はLocalStructuredPropertyを代わりに使用する事が出来る。Pythonコードとしては同じであるが、データストアは各AdressのBlobを見ている。例で作成したEntityは以下のようになる。

Entityは正しく読み戻される。このタイプのプロパティは常にインデックスは無いので、Adressをクエリで検索することは出来ない。

・Computed プロパティ

Computedプロパティは読み込み専用で、アプリケーションが提供する関数で計算した結果を設定することが出来る。計算された値はクエリとDatastoreビュアーの為に書き込まれるが、格納された値はDatastoreから読み戻された際は無視される。値は、関数が呼びだされた際に再計算される。以下が例。

格納されたEntityのプロパティの値は以下のとおり

もしnameをNickieに変更した場合にname_lowerはnickieを返す。

Note:もしクエリーで計算した値を使いたい場合は、ComputedPropertyを使う。もし派生バージョンのPythonコードを使いたい場合はregular methodを定義するか@propertyを使うとよい。

・ProtoRPC Message プロパティ

ProtoRPC API は構造データの為にMessageオブジェクトを使用する。これらはRPCリクエスト、レスポンス、等を表現できる。NDBはMessageオブジェクトをEntityのプロパティとして定義できる。Messageサブクラスを定義すると仮定すると、

NDBのmsgprop APIを使用してDatastoreへEntityのプロパティとして格納できる。

もしクエリで検索したい場合はインデックスする必要がある。MessagePropertyへのindexed_fieldsを指定する事が出来る。
MessagePropertyは通常のプロパティオプションの全てはサポートしていない。
以下がサポートしているオプション
・name
・repeated
・required
・default
・choices
・validator
・verbose_name

Message プロパティはそれ自体にindexを使う事は出来ない。(フィールド名をしていすることで、indexできる）

ネストしたmessageも使用できる。

MessagePropertyは特別なオプションprotocolを指定できる。これはdatastoreへmessageオブジェクトをどのようにシリアライズして格納するかを指定できる。protocolの値はprotorpc.remote.Protocolsクラスの名前を使用できる。サポートするprotocolはprotobufとprotojsonでデフォルトはprotobuf
msgpropはEnumPropertyも定義できる。このプロパティはprotorpc.messages.Enumの値をエンティティとして格納できる。以下が例。

EnumPropertyはintegerとして格納される。事実としてEnumPropertyはIntegerPropertyのサブクラスである。また、既に格納されているEnumの名前を変更することは出来るが、再度採番することはできない。

EnumPropertyは以下のオプションをサポートしている。
・name
・indexed
・repeated
・required
・default
・choices
・validator
・verbose_name

今回はプロパティについて紹介した。
構造化されたプロパティをそのまま格納できるのは便利だと思った。
実は実際に使った事がないので、近いうちに使ってみたい。
次回は、プロパティのサブクラスについて。

Google App Engine Python NDB を使ってみた。(2)

2012-10-14T18:46:00.000+09:00

【NDBエンティティとキー】

Datastoreに格納されているオブジェクト（エンティティ）はndb.Modelのインスタンスで、アプリケーションではndb.Modelのサブクラスとして定義する。

エンティティはkeyで識別され、アプリケーションのDatastore内でユニークとなる。

・概要

以下のようなエンティティクラスを定義する。

それぞれのエンティティはアプリケーション内のDatastoreで一意のキーで識別される。
キーがカインドと識別子を構成しているのが最も簡単なフォームである。
普通はカインドの名前はモデルクラス名と同じにする。上記の例ではAccount
だが、method _get_kind()を上書きすることで、名前を変える事も出来る。
識別子は、アプリケーションまたはデータストアで自動的に生成された整数の数字IDか割り当てられたいずれかのキー名の文字列である。
エンティティのキーは他のキーを親のキーとして示す事が出来る。これを”エンティティのキーの親”と呼ぶ。よくエンティティーの親とも呼ばれる。
コンテキストに依存することはエンティティのキーの親を意味する事か、エンティティはキーのキーを持っている事になる。ルートのエンティティーを持っていないエンティティはそれは親のエンティティで再起的にそれは先祖である。
エンティティはデータストアにいるが、階層の構成はファイルシステムの階層と同様である。エンティティの連続処理はルートのエンティティから始まって、親から子へと続く。
特定のエンティティにつながる、そのエンティティの祖先パスを構成している。

完全な一意キーは、つまり連続するカインド識別子を自身のエンティティーまで指定したその先祖キーである。
Keyクラスのコンストラクターは連続するカインドと識別子を指定すすことを許可している。その返却値のキーがそのエンティティに対応するキーとなる。
下記の例はメッセージのリビジョンを示すもので、rev_keyが所有者に所属している事になる。
上記例で注意が必要なのがリストの最後で2という数字を使っているがこれは特殊で数字キーを使うことはできるが、これは少しトリッキーになる。詳細は数値キーを使うを参照。

ルートエンティティ用としては下記のよう先祖パスは空で、自身のカインドと識別子のみで構成されている。
代わり以下のようにモデルクラスを直接代入できる。
下記例では指定しているキーはすべて等価である。

・エンティティの作成

モデルクラスのコンストラクターを呼び出すことでエンティティを作成する事が出来る。
プロパティの設定はkeyword argumentsで指定する。
ここで作成したオブジェクトはput()メソッドを呼びだす事によりデータストアへ格納さる。返却値はkeyとなっている。
代わりに以下のようにプロパティを直接指定できる。
以下のようにpopulate()を使うこともできる。

また、プロパティのタイプはいろいろなタイプが使えるがタイプチェックが行われる。
下記の例だと、StringPropertyとIntegerPropertyである。

・キーからエンティティの取得

エンティティーのキーを与えれば、データストアからエンティティを取得できる。
キーのメソッドであるkind()とidはそれぞれカインドと識別子を返却する。
parent()メソッドはキーの親のエンティティを返却する。
また、URLに埋め込むためにキーをエンコードした形で取得できる。
この生成方法ではagVoZWxsb3IPCxIHQWNjb3VudBiZiwIMのようなキーを返却するが、そこからエンティティも取得できる。

注意：URL-safeは暗号化されない。以下のように簡単に複合化できてしまうので注意。
なので、e-mailアドレスとかは暗号化したもので使用する。

・エンティティの更新

エンティティの更新はデータストアから取得したエンティティの編集を行い、データストアに戻す。
この場合のput()の返却値は同じなので無視してよい。

・エンティティの削除

エンティティが必要なくなったらデータストアから削除する。keyのdelete()メソッドで
削除できる。
このメソッドは常にNoneを返却する。

・複数のキー、エンティティを処理する。

get(),put()はRPC呼び出しを行っているので、ループを使って処理するしかなく非効率だったが、下記のメソッドで速くできる。

【Expandoモデル】

時々事前にプロパティを指定したくないときがある。その場合に特別なクラスExpandoを使う。Expandoは、割り当てられた任意の属性（限り、それはアンダースコアで始まらないように）がデータストアに保存されるように、そのエンティティの動作を変更する。たとえば、以下のように。
このデータストアへの書き込みはfooプロパティはInteger値で1barプロパティはString値'blah'でtagsプロパティはString値の繰り返しで'exp','and','oh'となっている。プロパティはインデックスされそれを_propertiesで参照することが出来る。
データストアから値を取得する事によって作成されたExpandoはデータストアに保存されたすべてのプロパティーとプロパティー値を持っている。
アプリケーションはExpandoのサブクラスとして定義して前もってプロパティを持つ事もできる。
上記の例ではnameプロパティはSandyでageはNone、動的プロパティlocationは'SF'となる。
Expandoのサブクラスに_default_indexed = Falseを指定することでインデックスから外すことができる。
_default_indexedをExpandoエンティティにセットすることができる。この場合は事後に指定したプロパティすべてに適用される。
他の便利なテクニックとしてはクエリに動的プロパティを使う事ができる。
ただ、プロパティを持っていない場合もあるので、下記のように指定する。

【モデルのフック】

NDBは軽量なフック機構を提供している。フックを利用することで、形式の処理を実現する事ができる。例としてはModelはget()のあとで様々な処理をするが、それを同期的にまたは非同期、複数など特別なメソッドを作れる。以下の例では、フックで様々な取得方法を提供している。
フックは下記で便利
・クエリーのキャッシュ
・ユーザー毎のデータストア監視
・データストアへのトリガー
もし非同期APIをフックとして使う場合はcheck_result()かget_result()かTaskletによるyieldingメソッドを呼びだすことがトリガーになる。
事後フックはRPCが成功していることは確認しない。失敗しても実行される。
すべての事後フックはFuture属性を持つ。このFutureオブジェクトは動作の結果を保持している。get_result()メソッドを呼びだせば、結果を取得できる。フックが呼び出された時点でFutureは完了しているので、get_result()でブロックされない事を確認できる。
事前フックで例外が発生すると、その場所をとってから、要求を防ぐことになる。
フックは_asyncメソッド内でトリガされるが、事前にRPCフックでtasklets.Returnを上げることによって、RPCを先取りすることはできない。

【数値キーを使う】

キーはカインドとIDの直列だが、アプリケーションとネームスペースないで、一意のキーを持っているか確認したくなる。アプリケーションがID指定なしでエンティティを作成すると、自動で数値キーが割り当てられる。アプリケーションが手動でID（数値の）を取り出すと、データストアは自動でIDを生成するが、既に使用されているIDを選択する場合がある。
回避するためには、アプリケーションが予約した数値の範囲を使用するようにするとよい。
（数値IDを使わなければ問題ない）
下記のように予約IDの範囲を指定できる。下記は１００個のIDを割り当てている。
親キーと一緒に指定もできる。
キーの取り出し方は下記の通りで、first, lastの範囲でキーが割り当てられている。
これらのキーはデータストアの内部的なID生成で既に割り当てられていないIDである事は保証していない。また将来的に生成されるIDも同様である。しかし、allocate_ids()が返すIDは、データストア内で存在するかどうかは確認しない。代わりに下記のように最大値からID割り当てることもできる。このフォームはN以下のIDを確実に返す。返却されるfirstとlastは予約されたIDの範囲を示す。アプリケーションはトランザクション内でallocate_ids()を呼ぶことができない。まあ、数値IDはあんまり使わない方が良さそう（感想）
次回は、プロパティについて。

Google App Engine Python NDB を使ってみた。(1)

2012-10-01T14:25:00.001+09:00

今回は何回かにわたってGoogleAppEngineのNDBという
DatastoreのAPIを紹介する。
というかリファレンスに載っているExampleとともに
自分の理解のために使ってみようと思う。

Python NDB の概要

NDB APIは通常のDatastoreのアクセスモジュールと使い方はほとんど変わらないが、
いくつかの便利な機能が追加されている。
自動でキャッシュを使ったり、クエリーやトランザクションなど構造化された
データレコードを格納する事に適している。

NDBの基本的な使い方

●始めに

NDBは通常のDatastoreのオブジェクト同様に、一つまたは複数のプロパティーを持つエンティティーとしてデータを格納する。

NDBは一つのトランザクションで複数の処理をまとめることが出来る。

もし処理が失敗したらロールバックされる。

これらは複数のユーザーが同時にアクセスしたり操作したりできるとても有用なものである。

NDBはMemcacheサービスを使用してキャッシュを行う。

これは頻繁に同じエンティティーにアクセスする際に有用であり、高速で処理が行える。

NDBも通常のDatastoreと同様modelを定義する。

modelとはデータベースのスキーマのようなものである。

基礎となるDatastoreがこれらのデータオブジェクトを格納する方法は非常に柔軟である。

例えば、二つの異なるプロパティを持つエンティティーを同じカインドに格納する事ができる。NDBは型のチェックを行うが、それは必須ではない。

それぞれのエンティティはキーを持っていてそれらはアプリケーション内で一意である。

キーは親を持つ事ができて親子関係を作る事ができる。親の無いキーはルートと呼ぶ。

キーが同じルートを持つエンティティはエンティティグループまたはグループを形成することができる。

エンティティが別のグループに属している場合は、

これらのエンティティへの変更は、しばしば "順不同"が発生するように見えるかもしれない。

エンティティは、アプリケーションのセマンティクスとは無関係である場合、それは問題が、

それらを作成するときに、いくつかのエンティティの変更が一貫していなければならない場合、それらを同じグループの一部にする必要がある。

テストコードで実際に動作させてみた。

・データの格納と抽出

ここでは、カインドBookに一件エンティティ格納している。
格納した後にFetchを行って、抽出されたエンティティの検証を行っている。
Greetingオブジェクトのputメソッドを呼び出して格納している。
新たにGreetingオブジェクトを格納する場合は、すべて同じBookのエンティティグループ
となる。（親が同じ）すなわち、先祖クエリを使用している。
次にエンティティの抽出を行っている。
一般的にNDBのクエリーはカインドでエンティティーをフィルタする。
このサンプルではGreetingエンティティクラスにquery_bookというクラスメソッドを定義することにより、エンティティを返却する為のクエリーを生成している。
上記例では親のキーを指定することにより抽出するクエリーを実行している。
すべてのクエリは、インデックス、希望の順番でクエリの結果を含むテーブルを使用している。基礎となるDatastoreは、自動的にシンプルなインデックス（１つのプロパティのみを使用したインデックス）を維持する。
またこれらはindex.yamlで定義したインデックスも使用できる。

実行結果

・NDBのデータ書き込みについて
コミット段階では、基礎となるDatastoreサービスでは、変更をコミットする。
NDBは影響を受けるエンティティ/エンティティのそのキャッシュを無効にする。
したがって将来の（およびキャッシュ）からではなく、キャッシュから古い値を読んでの基礎となるデータストアを読み込む。
そして基礎となるデータストアは、変更を適用する。それがグローバルクエリには表示され、最終的には一貫性の変化を読み取ることができる。（結果整合性）

データ（例えば、put（）の）書き込みのNDB関数はキャッシュ無効化した後に返し、適用は非同期で行われる。

Commitフェーズ中に障害が発生した場合、自動再試行がありますが、障害が引き続き発生する場合は、アプリケーションが例外を受け取る。
コミット段階が成功して適用に障害が発生した場合、次のいずれかが発生したときに、適用フェーズは最後までロールフォワードされる。

・データストアは適用が不完全に終わったジョブを継続的に一掃し、エンティティへの変更をまだ受け取っていないインデックスとエンティティに対して、書き込みをロールフォワードします。
・次回このエンティティグループでトランザクションを書き込むか、トランザクションを開始する際に、データストアは最初にロールフォワードを行い、ログ内のデータに基づいて、このコミット済みで未適用の書き込みの適用を完了します。

このような振る舞いはアプリケーションにどのように影響するかというと、
変化は完全に数百ミリ秒かそこらのNDB関数が戻った後に、基礎となるデータストアに適用されない場合がある。（結果整合性）
つまり変更が適用されている間にクエリを発行すると矛盾した状態が表示される場合がありる。書き込みのタイミングとクエリの詳細については、アプリケーションEngine.readsのトランザクション分離を参照とのこと。

●Django
DjangoでもNDBは使える。

●QuotaとLimits
最大エンティティーサイズ：1 megabyte
最大トランザクションサイズ：10 megabytes
１つのエンティティへの最大インデックス数：20000
１つのエンティティへの複合インデックス数：2 megabytes

今回は、NDBの概要について紹介してみた。
次回はNDBのエンティティとKeyについて紹介する予定。

GoogleAppEngineのデータをGoogleBigQueryで扱ってみる

2012-09-09T18:32:00.002+09:00

今回は再びGoogleAppEngine。

今年の五月に正式版がリリースされたばかりのサービスBigQueryとGoogleAppEngineを連携させてみるのが今回のテーマ。
まず、今年のGoogle I/Oで発表された「Building data pipelines at Google Scale」を紹介する。

このデモンストレーションはGoogleAppEngineのDataStoreのデータをCSVに変換し、GoogleCloudStorageにファイル出力する。そのデータをGoogleBigQueryの解析に使う。
という流れになっている。

【手順】

１．プロジェクト作成
・まず必要な準備はGoogleBigQuery APIとGoogleCloudStorageを利用可能な状態にする必要がある。これはGoogle APIs Consoleから可能だ。
・TeamよりAccountSettingを行って、GoogleAppEngineからアクセスできるようにしよう。
・GoogleBigQueryのプロジェクトIDを覚えておこう。#project:以降の数字部分(https://code.google.com/apis/console/?pli=1#project:111111:bigquery)

２．テストデータの準備
・GoogleCloudStorageにbucketを作成しよう。ここではdatastore_csvoutputという名前で作成。
・BigQueryWebUIよりdatasetの作成も行おう。ここではdatasetという名前で作成。

３．MapReduceアプリケーションを作成
・今回のプロジェクトはMapReduceフレームワークを使用して、データの作成を行う。
・MapReduceのインプットデータとなるProductSalesDataのプロパティーは以下のとおりとなる。
・モックデータの作成・各種プロパティの設定・MapperPipelineを作成
MapperPIpelineのパラメータの説明をすると、
第一パラメータはpipelineの名前、第二パラメータはmap関数、次の２つのパラメータはinput_readerとoutput_readerリーダーの指定、input_readerとoutput_readerにはbucket名やACLなどのパラメータを設定することができる。最後にshard数。

続いてMap関数について
ここでは二つの事を行っている。一つはCSVフォーマットに整形しているのと、もう一つはGoogleBigQueryのdatasetとして扱う為にDateTimeのtimestampをPOSIXへと変換している。

・GoogleBigQueryへデータを格納
GoogleBigQueryのdatasetへと登録するpipeline処理は下記の通りとなっている。
GoogleBigQueryサービスのAPIを使用してdatasetを格納する。その際jobの定義を行うJSONオブジェクトが必要となる。
以上で準備は完了。
・デプロイ
下記のようなハンドラーを作成する。

【実行】

・モックデータをDatastoreへ格納、pipeline処理実行
http://your-app.appspot.com/add-dataにアクセスするとデータが格納される。
続いて、pipelineを実行する。
http://your-app.appspot.com/startにアクセスするとpipeline処理が実行される。

・GoogleCloudStorageに格納されたCSVファイル

このようなCSVファイルが確認できる。

・BigQueryWebUIよりQueryを実行

BigQueryWebUIでインポートされたデータが確認できる。

Queryを実行してみる。

【まとめ】
今回はGoogleAppEngineとGoogleCloudStorageとGoogleBigQueryを連携させてみた。
興味深いのはやはりGoogleCloudStorageとGoogleBigQueryの連携である。
今回はDataStoreに格納されているデータを一度GoogleCloudStorageに格納させてGoogleBigQueryにインポートという回りくどい（？）と思われる手法をとっているが、
効率的にGoogleAppEngine側のアプリケーションの出力を直接GoogleCloudStorageに行い、GoogleBigQueryにインポートの方が、効率的に思われる。
いずれにしてもアプリケーションの幅が広がることには違いない。
現在開発中のプロジェクトにも取り込みたいと思っている。
次回もGoogleAppEngine関連のエントリーにしようかな。
つづく。

Bixoを使ってみる。(2)

2012-08-20T21:10:00.000+09:00

今回はBixoを使ってWebマイニングをやってみる。
前回と同様に疑似分散環境で実行する。

まず、GettingStartに従って最新のディストリビューションファイルを
ダウンロードすると同封されているexampleパッケージ(モジュール）が
あるのでMavenでビルドする。

【WebMiningTool】

今回はWebMiningToolを起動する。
大まかな処理の流れを説明すると前回紹介したWebクロール処理の後に
クロール処理で取得したコンテンツをパースし、
外部リンクの一覧を抽出する処理と、コンテンツから抽出した
ページのテキストを構文解析して、リソースファイルとして
取り込まれるnagative-phrases.txtとpositive-phrases.txtに記載されている
それぞれの文言よりそのページのスコアを算出する処理が行われる。
最終的な出力は、ページのコンテンツ一覧(content)とクロール結果(crawldb)と
外部リンク一覧(results)とステータス(status)となっている。

【実行】

exampleには既にbixoの実行用シェルがbinフォルダに存在するので、
ターミナルから下記コマンドを実行する。

【実行結果】

今回も[ループ数-タイムスタンプ]という名前でディレクトリが作成されている。

各ディレクトリにはcontent, crawldb, results, statusが格納されている。

各ディレクトリの中には出力結果されたファイルが格納されている。
contentに格納されている内容は下記の通り。
こんな感じでクロールしたHTMLが入ってる。

続いてcrawldb
続いてresults
最後にstatus
見てみると分かる通り、スコアが0になってしまっている。
どうもフレーズの抽出に失敗しているようで、原因は調査中。

実はこのExampleでページランクのアルゴリズムを実装しているのかと
思っていたのだが（ただの先入観）
実際はコンテンツのフレーズをポジティブフレーズ、ネガティブフレーズの
出力確率によってページのスコア付けをするというとても単純なアルゴリズムで
スコアを算出していた。

まあ、いずれにしろWebクローリングが手軽にできて、
なおかつCascadingで実装されているので、機能を付加して
データマイニングもできるという素晴らしいツールにはほかならない。
確率スコアのSubassemblyだけでなく、クラス分類のSubassemblyなど
応用してみても面白そう。
実装できたらいいなー。と希望的観測ですが。。
また次回はGAEに戻るかなー。

Bixoを使ってみる。(1)

2012-08-12T21:47:00.001+09:00

今回は、Cascading関連のプロダクト、Bixoについて。

Bixoとは

BixoとはHadoop上で動作するCascadingのPipeにより構成される

Webマイニングツールキットである。

カスタマイズされたCascadingのPipeAssemblyを構築することによって、

ユースケースに適用したWebマイニングアプリケーションを作成することが

出来る。

Bixoのアーキテクチャ

BixoはいくつかのCascadingのOperationとSubassembiesによって構成されていて、

HTMLのWebページをフェッチする為にこれらが組み合わされている。

HTMLのWebページをパースした結果が出力される。

FetchSubassemblyはURLよりWEBページのフェッチを行い、

StatusDatums(フェッチの状況を保持している）とFetchedDatum(フェッチしtWebページの情報を保持している）が出力される。

Parse SubassemblyはWebページをフェッチした結果のコンテンツを処理するSubAssemblyで、HTMLからテキストを抽出するのが典型的

Fetch処理の流れ

FetchSubassemblyは効率的にWebページのフェッチを行う為に、

いくつかのフェーズによって成り立っている。

ケースによって異なるが一般的には下記のとおり。

1.ホスト名でグループ化

2.ホスト名IPアドレスに解決する処理と、robots.txtよりURLをフィルターする。

3.フィルタリング、グループ化したIPアドレスをさらに制限する（オプション）

4.URLの数と、クロールの遅延に基づいてフェッチ時間を割り当てる。

5.グループ化されたURLによってReducerを振り分ける

6.並列にFetch処理を行う。

疑似分散環境で実行

GettingStartに従って、最新のディストリビューションファイルを
ダウンロードする。そして実行。

【実行】

【出力結果】
下記のように[ループ数-タイムスタンプ]という名前でディレクトリが作成されいてる。

各ディレクトリには以下のようにcrawldb,status,content,parseが格納されている。

今回はここまで。
次回は出力情報についてと、フェッチしたデータをもとに
データマイニングを行うところまでやる予定。

GoogleAppEngine MapReduceとGoogleCloudStorageを連携させてみた

2012-08-06T11:44:00.000+09:00

また久しぶりのエントリになってしまったが、
実はひそかにPythonを勉強していたのだ。

GAE MapReduceはJava版を以前紹介したが、Mapperのみの実装だったので、
なんだか物足りなさを感じていた。
しかし、Python版はなんとShuffle,Reduceまでフル実装だった！
Pythonに乗り換えた理由である。

ただ、実際に動作させてみると分かるが、中間ファイルの読み書きの多さが欠点に感じる
（Shard数を16で動作させるとDatastore Write Operationsが一気に60%くらいになった）
ここで、GoogleCloudStorageに入力ファイル、中間ファイル、出力ファイルを格納してみてはどうだろうか。と考えた。
※実際はPipelineAPIでバンバン読み書きしてるからっぽいけど。。^^;

GAE MapReduceのソースをみる限り出力ファイルはGoogleCloudStorageに対応しているように見えたが、入力ファイルについては対応していないようだった。
早速作ってみた。
GoogleStorageLineInputReaderというGoogleCloudStorageより入力ファイルを読み込むクラスを作成した。
ちょうど本家Hadoop MapReduceのTextInputFormatのように値はテキストファイルの1行、キーはその値の開始位置というレコードを出力する。

中間ファイル、出力ファイルはGoogleCloudStorage向けに出力するようにパッチを当てた。

ソースはGitHubに公開してあるのでそちらで参照して欲しい。

早速動かしてみよう。

今回もWordCountだ。w

入力ファイルはGoogleCloudStorageにアップロードしておく必要がある。

それと、中間ファイル、出力ファイルが格納されるバケットも予め用意しておく必要がある。

入力ファイルは以下の内容

Mapper,Reducer,MapreducePipelineの実装

そして実行。

Shuffleフェーズ

完了。

うん、結果バッチリ。

今回はまだ小規模なデータしか扱ってないので、
まだ課題は見つからなかったが、これから中規模、大規模と
チャレンジしていきたい（クラウド貧乏にならないように注意が必要だがw）

あと、Pythonもまだ触りたてなので、磨いていきたい。
次回も引き続きGAE MapReduceで遊んでみようかな。
（Google Compute Engineも気になる。。）乞うご期待。

GAE Python urlfetchサービスを用いたテストについて

2012-07-29T16:21:00.000+09:00

今回は、GAEでアプリケーションを開発する際のTipsを紹介。

・目的

GAE Pythonでurlfetchサービスを用いて通信で外部のコンテンツを取得する
処理のテストを行う場合、
外部への接続が切断されている、または外部のデータが変更された等で
テストが失敗するという事態が起こる事を避ける為、
実際の通信はせずにローカルのコンテンツ（ファイルなど）を使用してレスポンス
する。

・方法

GAEでは各種サービスをRPC経由で呼び出している。
開発環境では、RPCをフックしているstubを使用して実際の通信を行う処理を
行っている。
今回はそのstubの実装を変更し、レスポンスを独自に組み立てて返却する。

下記がコード

テストで使い回しが効くようにベースクラスとして作成した。
まず、apiproxy_stub_mapに各種サービスの独自に実装したstubを設定する。
今回はurlfetchなので、サービス名は"urlfetch"とする。
設定したstubクラスには_Dynamic_Fetchというメソッドが実装されているが、
RPCが実行されると使われるAPIProxyStub#MakeSyncCallで動的呼び出しが
行われているメソッドである。
このメソッドをオーバーライドし、独自のレスポンスを組みたてて返却する。
このようにモックを使用したテストを行いたい場合は、どのサービスでも
応用が効くはず。お試しあれ。

GoogleAppEngine MapReduceとGoogleCloudStorageを連携させてみた(2)

2012-07-16T17:47:00.000+09:00

今回も前回に引き続きGAE MapReduce。
前回GAEとGCSで連携してMapReduceを実行してみたが、
今回は性能評価として、以下を実施してみた。

実施内容

10MB(MegaByte)のテキストファイル※に対してWordCountを行い性能評価を行った。
※妥当かどうかは微妙です。。決してビッグデータとは言えない。。

●評価環境

【Google App Engine】
Runtime:Python
SystemStatus:Normal
Latency:Normal

●計測で使用したWordCountプログラム

前回のエントリで紹介したGCS上のファイルを読み込むInputReaderと
中間ファイル、出力ファイルをGCS上に出力するMapreducePipelineを使用した。
※バグがあったので修正したものをコミットしました。

計測結果

【WordCount処理時間】

上記結果から見て取れるようにshard数４〜８で処理時間は大幅に減少している。
また、shard数１６から３２は収束状態となった。
この結果からファイルサイズ10MB程度であれば、shard数８から１６程度までが
妥当な数となり、８以下だと処理時間が増加し、１６以上だとオーバーワーク気味に
なってしまう。
(pipeline処理が行うDatastoreへのRead/Writeオペレーションがshard数に比例して増加する為。shard数32以上で実施したらあっという間にOverQuotaになった。）

【Instance数】

上記結果から見て取れるようにshard数４〜16まではshard数に比例して
スケールしている事がわかる。
また、shard数16〜32はほぼ収束状態となった。

【Memory Usage(MB)】

これはあまり参考にならなかった。。

【shard数に於けるMap処理】

１Task(約15sec)で処理するMap数についてまとめてみた。

■shard数４
・Overview
Elapsed time: 00:04:46
・Counters
io-write-bytes: 30277632 (105865.85/sec avg.)
io-write-msec: 8140 (28.46/sec avg.)
mapper-calls: 93762 (327.84/sec avg.)
mapper-walltime-ms: 565100 (1975.87/sec avg.)
（平均処理数：2391Map処理/Task)

■shard数８
・Overview
Elapsed time: 00:03:53
・Counters
io-write-bytes: 30474240 (130790.73/sec avg.)
io-write-msec: 6602 (28.33/sec avg.)
mapper-calls: 93762 (402.41/sec avg.)
mapper-walltime-ms: 591540 (2538.8/sec avg.)

（平均処理数：2256Map処理/Task）

■shard数16
Overview
Elapsed time: 00:01:55
Counters
io-write-bytes: 30408704 (264423.51/sec avg.)
io-write-msec: 4249 (36.95/sec avg.)
mapper-calls: 93762 (815.32/sec avg.)
mapper-walltime-ms: 667741 (5806.44/sec avg.)
（平均処理数：2000Map処理/Task)

■shard数32
Overview
Elapsed time: 00:01:55
Counters
io-write-bytes: 30539776 (265563.27/sec avg.)
io-write-msec: 5755 (50.04/sec avg.)
mapper-calls: 93762 (815.32/sec avg.)
mapper-walltime-ms: 712984 (6199.86/sec avg.)
（平均処理数：1706Map処理/Task)

上記のとおりmapper-callsを見る限り、shard数に応じて1秒間に処理するMap数は
増加しているように見える。
しかし、shard数によって１Task(1MapperTaskが15秒間に行うMap処理数）
のMap処理の処理数にあまり変化がないようだ。
よってshard数によってGCSの読み書きレイテンシに影響はなく、
１Taskだいたい決まった数のMap処理を行う事ができる。
すなわちMap処理に関してだが、純粋にshard数に応じて、処理数が
比例するであろうと分かる結果であった。
※shard数32だけ例外だが、10MB程度だと１Mapperで数Taskほどしか
動かなかったので、妥当な結果が得られなかったためであろう。。(^^;)

おまけ

【appengine-mapreduce VS appengine-mapreduce2GCS 】

GCS連携版のappengine-mapreduce2GCSとappengine-mapreduceのBlobLineInputReaderを使用したもので、WordCount対決を行ってみた。

・WordCount処理対象
10MB(MegaByte)のテキストファイルをshard数16でWordCount

●結果
【WordCount処理時間】
・appengine-mapreduce: 00:09:53.225
・appengine-mapreduce2GCS: 00:07:42.04

【Instance数】
・appengine-mapreduce:最大30Instances
・appengine-mapreduce2GCS:最大24Instances

【Map処理】
・appengine-mapreduce:
Overview
Elapsed time: 00:02:23
Counters
io-write-bytes: 30900224 (216085.48/sec avg.)
io-write-msec: 9142 (63.93/sec avg.)
mapper-calls: 93762 (655.68/sec avg.)
mapper-walltime-ms: 822627 (5752.64/sec avg.)
（平均処理数：1762Map処理/Task）

・appengine-mapreduce2GCS:
Overview
Elapsed time: 00:01:44
Counters
io-write-bytes: 30277632 (291131.08/sec avg.)
io-write-msec: 3940 (37.88/sec avg.)
mapper-calls: 93762 (901.56/sec avg.)
mapper-walltime-ms: 662981 (6374.82/sec avg.)
（平均処理数：2012Map処理/Task）

なんと！GCS連携しているMapReduce処理のほうが早いという結果になった。
(Outputが正しいか検証したが、両者とも問題なかった。）
上記から見て取れるようにio-write-bytesに関してGCSの方が、
高速であることが分かる。
（ただし、GCSのほうはバケットに溜まったファイル群をリフレッシュしていた。
これが要因だとすると、不要なファイルは出来るだけ消しておくほうが良い？）

【まとめ】

今回は10MBというビッグデータとは決して言えないファイルを対象とした
検証であったので、妥当とは言えないかもしれない。
ただ、GAEで手軽に並列処理を行えるというのはとても画期的で、
有用であると考えられる。(中規模のデータであれば十分）
今後はさらに発展させたMapReduceのアプリケーションをGAEで
作っていけたらと考えてる。
また、この計測結果も更新していこうかな。

Cascading使ってみた

2012-06-24T16:36:00.000+09:00

久々の更新になってしまった。前回Google App Engine Pipeline APIを紹介したが、
その中でCascadingというキーワードが出てきたと思う。
今回はずっと気になっていたCascadingとやらHadoopの関連プロジェクトについて触れてみたい。
ただWordCountをやってみるのはもう飽きたのでw
今回はより実用的にApacheログの解析をやってみたい。

下記のログファイルを解析に使う。

Cascadingアプリケーションのソースは下記

処理の内容について、細かく説明するのはまた次回以降。（まだ調査、勉強中です。。）
大まかに処理の流れを追うと入力データ（ソース）から必要な部分を抽出し、

"ip", "time", "method", "event", "status", "size"という項目をもつタプル（データベースの行やレコードとよく似ている）に整形する。
更に"ip","event"でグループ化、カウントを行い出力データ（シンク）を生成する。

今回は疑似分散環境で動作させてみる。

結果はこのとおり

"ip", "event"でグループ化され、カウントを算出できている。(※単純にIPアドレス毎のアクセス数）
今回のサンプルのようにログやWebクロールした結果などをパースしたりフィルタリングを行い、出力されたデータを使って、例えばMahoutの入力データにするなど面白いかもしれない。
今回はSubAssembly（再利用可能なパイプ）やCascade(複数のFlowを連結する)などCascadingにおいて特徴的とも言える柔軟性を利用しなかったが、今後それらについても調査し、紹介したいと思っている。
次回は、最近興味を持っている機械学習のエントリでもしてみるかな。

Google App Engine PipelineAPI (1)

2012-05-27T21:38:00.000+09:00

前回に引き続き、PipelineAPIについて。

なぜPipeline処理？

Hadoop Cascading(Apacheプロジェクトではない)でも用いられている。Cascadingは、HadoopのMapReduceを隠蔽（抽象化）するライブラリー。CascadingではMapReduceタスクをPipeという単位で記述し、Pipeをつなげて処理を行う。MapReduceの複合ジョブを効率的に行う事が出来る。
基本的なMapReduceではReducerの結果をMapperに渡すなどは出来ない。
GoogleAppEngine PipelineAPIでもMapperとの複合を主な用途として紹介している。

Pipeline処理とは

コンピュータにおける処理要素を直列に連結し、ある要素の出力が次の要素の入力となるように配置して処理することである。コンピュータ等の高速化技術の一つである。パイプラインの各要素は並列またはタイムスライス化して実行される。
(出典:Wikipedia パイプライン処理）

GoogleAppEngine PipelineAPIの処理概要

PipelineAPIでは、Jobクラスを実装する事により、Pipeline処理を記述していく。
並列したJobはバリア同期によって統合される。
各Job(Record)は自Taskの状態とOutputSlot(出力)とバリア同期の為の情報を持っている。
処理のおおまかな流れは下図の通り(Google I/O 2011より)

Multiply、AddはJobで、SlotA、SlotB、SlotCは出力スロットとなっている。

Barrierはバリア同期を行っている処理でSlotA,SlotBが埋まる事(Fill)によって、

Addが実行(Run)される事を示している。

Taskの状態遷移

【FAN_OUT】Jobの入力処理(Task)を起動させるTask

【HANDLE_SLOT_FILLED】入出力スロットが埋められたら動くTask

【RUN_JOB】バリア同期によるロックが解放されたら動くTask(Jobを実行する)

【FINALIZE_JOB】出力スロットを埋める。

【DELETE_PIPELINE】PipeLine処理終了

処理の詳細について

(次回以降にまた調べてみたところを紹介する予定）

・バリア同期について

バリア同期が行われているTaskはRUN_JOBとFINALIZE_JOB。

バリア同期の情報はwaitingOnMeKeysとして、自Jobが実行するための

埋め待ちSlotの情報を保持している。

・FutureValue,ImidiateValueについて
FutureValueは処理待ちのJobのOutPutSlotの情報を保持している。
ImidiateValueは言葉の通り即値であり、HANDLE_SLOT_FILLEDのTaskが直後に行われる。

・Slotの配置(Keyの採番)について
同期化されたメソッドによって採番されている。（Slotの競合は起きない）

課題、その他

・非同期パイプライン、人間のジョブを挟むパイプライン処理
・各ステージの分割の仕方、最適化について
・どれだけスケールするか、Quotaについて等
・AppEngineMapperとの複合（ここはあまり興味なくなってきたかも）

引き続きGoogleAppEngine PipelineAPIをいじくってみる。
でも気になるから、Cascadingもさわってみるかな。

続く。

Google App Engine Pipeline APIを使ってみた。

2012-05-20T21:10:00.000+09:00

先日Google App EngineのMapReduceを使ってみた記事を書いてみたが、
関連してPipelineAPIの存在を知った。
今回はPipelineAPIについて使ってみた感想を書く。

まず、PipelineAPIについて、
PipelineAPIは、複雑で時間を消費するワークフローを接続し処理する。
APIの主要な使用ケースはGoogle App Engine MapReduceとの接続である。
(訳：筆者※英語力低）

こんな図形まで載っている。

この図形の示す意味は、下記のとおり。

フレームワークは、ユーザが1つの仕事の出力が1つ以上の仕事の入力になる多数の仕事の準備を表現することを可能にします。
これらの準備は、最もAの出力がBの入力スロットに向けられるべきであることを仕事Aから仕事Bの中の入力スロットのうちの1つまでの有向辺が示す一種の有向グラフと評することができます。
例えば、私たちは、3つの整数入力をとる仕事、x、y、zを構築するようにDiffJobとMultJobを使用し、次の計算[(x -y)*(x -z)]を行ないます-2．
その計算は次の仕事グラフとして表現されるかもしれません。
(グラフは右から左まで読みます。)
(Powered by Excite.翻訳)

なるほど、要は処理を分散並行させる事ができるんだな。（ん、分かりづらい？；）

ま、やっぱり実際に触ってみる方が早い。

GettingStartに従って、プロジェクト作成してみよう。

サンプルでは文字の出現回数について集計を行うサンプルがあったが、

ヒヨッコHadooperとしてはWordCountがやりたい。

早速作ってみた。

PipelineAPIの詳細については追って調査し、紹介しようと思う。
MapReduceっぽく実装してみただけで、本家のMapReduceとは
かけ離れているので注意。
Exampleで使用してるViewをそのまま使って、Let's Deploy!

文字列を適当に入力。そして実行。

処理中…。

完了。ちゃんと数えられている。

管理コンソール。今回は子のプロセスが３つ。

子のプロセスの詳細も見れる。

使ってみた感想。正直面白い。これはMapReduceも夢じゃない。はず。
（処理時間は正直早いとは言えないが、少量データだし。）
Google App Engine PipelineAPIの中身までまだ追いきれていないが、
これはMapReduceとはまた違ったアプローチで大量データの処理も
できるのではなかろうか。うん、なんか面白そう。

今度は、 PipelineAPIの中身に迫ってみるか。
（Google App Engine MapReduce…、とりあえず、頭の片隅には入れておこう）

Twitter Ambroseを使ってみた。

2012-05-13T19:49:00.000+09:00

GitHubを眺めていたら気になるプロダクトがあったので、
早速使ってみた。

Twitter Ambroseとは、
MapReduceジョブをリアルタイムにビジュアル化してモニタリングするツール。
要は、MapReduceジョブを見える化して最適化のお手伝いをするツールである。

こんな感じ。

Bootstrapを使ったUIで洗練されていてカッコいい。
このグラフの意味するものは、下記の通り。（直訳）

円の上の弧セグメントはそれぞれMapReduceジョブを表わします。
ジョブ同士の依存性は、セグメントを接続する弦によって表わされます。
灰色のジョブはまだ走っていません。明るいグリーン・ジョブは走っています。
また、ライトグリーン仕事は終わります。
ジョブがそれぞれ二分されることに着目してみてください。
弧の2分の1の上の弦は先行ジョブに接続します。その一方で他方の半分上の弦は後継者仕事に接続しています。
例えば、仕事より下の図形では、10と13は前任者を持っていません。
また、仕事8および18はブタ・ワークフローでの最終仕事です。
示された弦図形が私たちの最初であることに注目する、
ワークフローの視覚化で通過する、また、改良の余地があります。
私たちは、ワークフローDAGのグラフのように、同様に他のビジュアル化を支援したい。
改善されたビジュアル化を開発する場合は、必ず私たちに引くことリクエストを送ってください!
(powered by Exceite.翻訳）

で、早速使ってみた。
今回は、Hadoopの疑似分散環境で実行してみる。
また、実行環境はPigを選択した。

テストデータとして以下のような入力データを準備

a A 1
b B 2
c C 3
a AA 11
a AAA 111

実行するPigスクリプトは

one = load 'input/one.txt';
grouped = GROUP one BY $0;
summed = FOREACH grouped GENERATE group, SUM(one.$2);
DUMP summed;

そして、実行してみた。

んー、実にシンプル。疑似分散環境(対象データの量が少ない）だから仕方ない。
でもすんなり導入できそう。

現在、サポートしている実行環境はPigだけで、
今後、サポートする実行環境を増やしていくそう。

Twitter AmbroseをGAEで動かすぞ。と意気込んではみたが、
課題が。(まずはMapReduceをなんとかせんと、そしてPig…orz)

ってまあ僕自身もまだ生まれたてのヒヨッコHadooperなので、
まずは、見た目重視ってことで。

ではでは、次回はGAEのMapReduceの続きでも。

Google App EngineのMapReduceを使ってみた。

2012-05-12T22:26:00.001+09:00

遅ればせながら GoogleAppEngine MapReduce を使ってみた。

まずは、GettingStartに従って、Jarファイルを生成する。

生成されたJarファイルは６つ。これらを使ってExampleを動かしてみるのが今回の目標。

続いて、プロジェクトの作成を行う。

個人的にGoogleAppEngine(以後、GAE)のアプリケーションを作るときは、

Slim3ベースのプロジェクトを使うのが楽チンなので、今回もSlim3で。

Exampleでは、"PBFVotes"というKindに400件のEntityを挿入してそのうち"skub"プロパティーの値で"pro"と"anti"、それぞれ設定されている件数を数えるというもの。
ちなみに付属のExampleではMapper処理完了のコールバックを登録していないものなので、
最終的な集計結果は得られない。Mapper処理完了のコールバックを登録して、実行しよう。

実行結果。めっちゃログ吐くし。。

でも結果バッチリ。

さらに管理コンソール付き。なんかかっこいい。

使ってみた感想。
今回は少ないデータ量だったので、あまり分散された感と処理が速くなった感はない。
しかもMapフェーズまでは本家Hadoop MapReduceっぽいのだが、
以降、Shuffle,Sort,Reduceフェーズがなく、尻切れとんぼ（言葉が悪いが）感が否めない。
ただ、Mapperを独自実装したり、Shard数を増やしてみたりといろいろ試しがいはある。
グーグル、フル機能のMapReduceをGoogle App Engineで提供へ　記事でもあるように、
Python版はフル機能が実装されているらしい。Javaの近いうちにフル機能が実装されるのだろうか。
期待して待っていよう。
それかShuffle以降の実装も独自にすすめてみるのも。
AppEngineReducerという呼ばれる気配のないクラスがあったし。
次回も引き続きGAE Mapreduce。中身に迫る。（予定）

Ohlohj Ver1.0.0リリース

2012-05-06T12:17:00.001+09:00

Ohlohj Ver1.0.0をリリース致しました。
OhlohjはOhlohというオープンソースソフトウェア開発を見通すことを目的とした、Webサービススイートとオンラインコミュニティプラットフォームを擁するウェブサイトで、サポートするREST APIのJavaラッパがOhlohj となります。
Ohlohj はOhloh非公式ライブラリです。
XMLの解析やOAuth認証など面倒な作業はすべてOhlohj が処理します。
まずはohlohj.OhlohAPIインターフェースのJavadocを見るのが早いです。
また、Google APP Engine上でも動作し、標準で非同期処理をサポートしています。

使い方
・標準のWebアプリケーションの場合
ohlohj-core-1.0.0.jarをDownloadページよりDownloadし、クラスパスに通すだけ。後は好きなAPIを呼び出してください。
・Google APP Engine上で動作させる場合
lohloh-core-1.0.0.jarとohlohj-appengine-1.0.0.jarをDownloadページよりDownloadしクラスパスに通せば、非同期処理が行えます。
（上記標準のWebアプリケーションと同じ手順でも動作いたしますが、非同期処理はできません）

ライセンス
Ohlohj は Apache License 2.0 に基づいてリリースされています。