2024年6月2日日曜日

【PROC FORMAT】数値フォーマットの落とし穴



FORMATプロシジャの「FUZZ=オプション」のデフォルト設定が悪さをすることがあります。
まずは「FUZZ=オプション」の説明を交えて紹介していきます。



落とし穴①

proc format;
value x (fuzz=1)
3 - 5  = "aaa"
;
run;

data test;
 format x x.;
 do x=1 to 7;
  output;
 end;
run;


「3~5」の値を  "aaa" と表示するフォーマットですが、「fuzz=1」というオプションも指定しています。
この「FUZZ=」に指定した値を誤差として「- ~ +」して範囲を拡張することが出来ます。
今回だと「3~5」に「-1 ~ +1」した範囲なので、「2~6」の範囲を "aaa" と表示するフォーマットになります。


では次。ヘンテコな結果になります。

proc format;
value x (fuzz=1)
3 <-< 5  = "aaa"
;
run;

data test;
 format x x.;
 do x=1 to 7;
  output;
 end;
run;


「3より大きく、5より小さい」値に対して "aaa" と表示するフォーマットですが「fuzz=1」によっておかしな結果になります。
FORMATプロシジャで範囲の指定に使う「<」は「大なり、小なり」の意味ではなく「除外」の意味合いがあるようですね。
つまり今回の例では「3<-<5」と「fuzz=1」の組み合わせによって、「2~6」の範囲で「3」と「5」を除く値に "aaa" と表示するフォーマットになっているようです。



📝 まとめ
「FUZZ=」と「<」の組み合わせは危険。




落とし穴②


まず、前提知識として「浮動小数点誤差」の理解から。
以下、2オブザベーションとも値が「0.1」になるはずなのに、、

data test;
 x=0.1; output;
 x=0.3-0.2; output;
run;

data test2;
 set test;
 if x=0.1 then y=1;
run;


「if x=0.1 then y=1」の結果、2オブザベーション目の値が何故か「0.1」ではない事が分かります。
これが有名な浮動小数点誤差ってやつで、2オブザベーション目は「0.09999999...」みたいな値が格納されてしまっているわけですね。


データステップ100万回や私の過去記事でも紹介済です。


そしてここから本題。
FORMATを定義した時の浮動小数点誤差の取り扱いを見てみます。

proc format;
 value x
 0.1 = "0.1です"
 0.2 = "0.2です"
 0.3 = "0.3です"
 ;
run;

data test;
 format x x.;
 x=0.1; output;
 x=0.3-0.2; output;
run;


あれ?浮動小数点誤差のデータも「0.1」としてフォーマットをあてられてる??
実は、VALUEまたはPICTUREフォーマット、かつ数値フォーマット(1 = "aaa"のような左辺が数値のフォーマット)では「fuzz=1E-12」という非常に小さな値がデフォルトで設定されています。
浮動小数点誤差で「0.09999999...」みたいに格納されてる値が「0.1」のプラスマイナス「1E-12」の中に入っているため「0.1です」と表示することが出来たわけです。

いい感じじゃん!と思いきや、非常にヘンテコな挙動をする場合があります。



例1

「0.1以上、0.2未満」の範囲のFORMATを作って、それを今回の浮動小数点誤差が起きているデータに割り当てると、、

proc format;
 value x
 0.1 -< 0.2 = "0.1以上、0.2未満"
 ;
run;

data test;
 format x x.;
 x=0.1; output;
 x=0.3-0.2; output;
run;

これは想定通りですね。フォーマットの範囲「0.1 -< 0.2」と「fuzz=1E-12」の組み合わせによって浮動小数点誤差で「0.09999999...」みたいに格納されてる値も「0.1以上、0.2未満」として表示することが出来ました。



例2

例1のフォーマットに「0 -< 0.1」という範囲を追加してみます。

proc format;
 value x
 0 -< 0.1 = "0以上、0.1未満"
 0.1 -< 0.2 = "0.1以上、0.2未満"
 ;
run;

data test;
 format x x.;
 x=0.1; output;
 x=0.3-0.2; output;
run;

あれ?今度は「0以上、0.1未満」の値としてフォーマットがあてられてる??
これは今回フォーマットに追加した「0 -< 0.1」による範囲に、浮動小数点誤差が起きている「0.09999999...」が入ってしまうため。先にこのフォーマットが適用されてしまったというわけですね。



例3

今度は、例2のフォーマットに「0.2 -< 0.3」という範囲を追加してみます。

proc format;
 value x
 0 -< 0.1 = "0以上、0.1未満"
 0.1 -< 0.2 = "0.1以上、0.2未満"
 0.2 -< 0.3 = "0.2以上、0.3未満"
 ;
run;

data test;
 format x x.;
 x=0.1; output;
 x=0.3-0.2; output;
run;

あれ?また「0.1以上、0.2未満」の値としてフォーマットあてられてる??
実は変数値がどのフォーマットの範囲に入っているか内部で検索する際、特殊な順番で検索が行われています。
今回は1個目の「0 -< 0.1」ではなく、2個目の「0.1 -< 0.2」の方が先に検索されたためです。



📝 まとめ
範囲を指定するフォーマットは「FUZZ=」の挙動に注意!
「fuzz=0」とすれば範囲の拡張がされなくなりますが、浮動小数点誤差が考慮されなくなってしまうので、そこのケアが必要になります。
解決策は時と場合によって異なるので、適宜ご留意下さい。



2023年5月7日日曜日

「PROC REPORT」の「COMPUTE」がうまく動かないんだけど②



以下記事の続き。



失敗例1

data test;
input x y;
cards;
. 10
. 20
1 30
1 40
2 50
2 60
;
proc report data=test missing spanrows;
  column x y z;
  define x / order order=internal;
  define y / display;
  define z / computed;
  compute z / character length=1;
    if x=. then z="Y";
  endcomp;
run;
😕


  • まず、XをORDER変数にしています。またORDER変数が欠損値のオブザベーションも出力対象とするため、MISSINGオプションを指定。
  • 次にCOMPUTEで「if x=. then z="Y"」として、Xが欠損値のオブザベーションに"Y"のフラグを立てたんですが、、想定では1、2オブザベーション目だけに"Y"が入るはずなのに、4、6オブザベーション目にも"Y"が入っている?!


XをORDER変数にしたことが影響してると思うんですが、リファレンスにこの辺の挙動の説明見つけられませんでした。

ORDER変数(GROUP、ANALYSIS、ACROSS変数とかも?)を参照した処理(IFステートメントや関数など)は想定通りの結果にならないことがあるので、使用は避けたほうが良さそうです。




失敗例2

proc report data=test missing spanrows;
  column x y;
  define x / order order=internal;
  define y / display;
  compute x;
    if x=. then x=2;
  endcomp;
run;
😕


「if x=. then x=2」として、「Xが欠損値」の場合は「X=2」のオブザベーションとして以下のように一塊で出力したかったのに、、


あと、失敗例①を知っちゃうと、なんとなく以下のようになるのでは?と思っちゃいません?(失敗例①で「X=.」と判定されたオブザベーションが、今回「X=2」になると思ってしまった)



ORDER変数(GROUP、ANALYSIS、ACROSS変数とかも?)に対して、COMPUTEで値をいじると、うまく絡み合ってくれなくて、想定外の結果になる場合があるのでご注意ください。

そもそも元の変数値をPROC REPORT上でいじるのって、あまりやらない、というか良くないのかも?




あと未検証ながら


以下リファレンス内の「Restriction」の記載によると、、

よく分からないですが、LAG, DIF, RANUNI, DATETIMEなどの「non-deterministic関数」については、特定条件のときに使わない方が良いらしいです。


COMPUTE、難しいよーー!



2023年5月4日木曜日

PROC SQLでの変数ラベルの挙動


あまり知られていない&需要があるのか分からん機能。
まず例から。

data test;
 label x="AA#AA" y="#BB#BB";
 x=1;
 y=2;
run;

proc sql;
 select * from test;
quit;




PROC SQL限定で働く機能で、
ラベルの先頭をアンダーライン「_」以外の半角記号にすると、その文字をその変数ラベルの改行用文字にできるようです。

📝ポイント
  • ラベルだけで、データ部分には影響しない
  • PROC SQLで見たときに改行されてるように見えているだけで、実際のデータセットの変数ラベルに改行が入るわけではない。
  • 日本語等のマルチバイト文字は改行用文字に設定出来ないと思いますが、リファレンスに書かれていないため不明。

2023年4月22日土曜日

サブセット化IFでありがちな落とし穴


SASプログラマ歴が長いと、みんなこれ経験してるんじゃなかろうか。


「サブセット化IF」自体は以下記事で解説しています。


😕失敗例1: 「_N_」と組み合わせて失敗しがち


各オブザベーションに1~連番をふった変数を作りたくて、以下のように書いたのですが、、

data dt1;
 set sashelp.class;
 if age=12;
 x = _n_;
 keep age x;
run;


変数Xに1~連番を入れたいのに、なんかおかしい。


解説

  • まずデータステップは内部の動きとして、
オブザベーションの数だけ、データステップをぐるぐるとループ(反復)させています。
ループのたびに1オブザベーションずつ読み込んでいるイメージで、「_N_」はそのループ毎に「+1」した番号が入ります。

  • 次に「_N_」は内部の動きとして、
まずSET文・WHERE文で読み込むオブザベーションに対して、データステップがループ(反復)されますが、自動変数「_N_」は、各反復内でいち早く番号がふられます

番号をふった後で、サブセット化IFにより処理が継続されずに出力もされなかったオブザベーションがあると、番号が連番にならなくなります。



📝特に「IF _N_=1 THEN なんかの処理;」みたいな書き方で失敗しがち。

例えば、以下プログラム(中身はめっちゃ意味のないことやってるのであんまり見ないでください)

data dt2;
 set sashelp.class;
 if age=12;
 if _n_=1 then do;
  dcl hash hs(dataset:"sashelp.class");
  hs.definekey("name");
  hs.definedone();
 end;
 if hs.check()=0 then x2=1;
run;


_N_=1 のオブザベーションがたまたまサブセット化IFによって「処理継続・出力」の対象外になっているので、「IF _N_=1 THEN DO; ~END;」の中の処理も動いていません。

上の例ではエラーが出て分かりやすいですが、書き方によってはエラーが出ない場合もあって失敗に気づかない可能性もあるので要注意です。


😕失敗例2: 「END=オプション」と組み合わせて失敗しがち


最後のオブザベーションにフラグを立てたくて、以下のように書いたのですが、、

data dt3;
 set sashelp.class end=_eof;
 if age=12;
 if _eof then y=1;
 keep age y;
run;


フラグ立ってないじゃないか!


これは「END=オプション」の挙動を勘違いしていると起こりやすいです。

「END=オプション」はSET文・WHERE文で読み込まれる最後のオブザベーションに作用しますが、その最後のオブザベーションがサブセット化IFによって「処理継続・出力」の対象外になっているためです。


あと思いつくのが、以下で紹介している「FIRST.BY変数」「LAST.BY変数」も、サブセット化IFと組み合わせると、同様の原理で意図しない結果になりやすいですね。

「FIRST.BY変数」と「LAST.BY変数」で、グループ毎の最初と最後のオブザベーションを特定する。


2023年1月1日日曜日

SASで年賀状2023

 



SASで年賀状をつくりました(ほぼ「SASで年賀状」の焼き直し)
2023年もどうぞよろしくお願いいたします!





年賀状をつくるプログラム (SAS9.4M7で動作確認)

*** 描画用のパーツ ;
data rabbit;
  x1= 0;     y1= 0;
  x2= 0;     y2=-6.5;
  x3=-0.31;  y3= 1.2;
  x4= 0.31;  y4= 1.2;
  x5= 0;     y5= 0.15;
  x6= 0;     y6= 0.7;
  x7=-0.5;   y7= 5;
  x8= 0.5;   y8= 5;
  x9=-0.5;   y9= 5.5;
  x10=0.5;   y10=5.5;
  x11=-0.8;  y11=0.1;
  x12=0.8;   y12=0.1;
run;

*** 描画 ;
title ;
ods graphics on / height=10cm width=14.8cm;

proc sgplot data=rabbit noautolegend;
 styleattrs wallcolor=khaki;
   
 /* Text */
 inset "HAPPY NEW YEAR"  /  position=top textattrs=(color=brown size=31cm);
 inset "20"  /  position=bottomleft textattrs=(color=brown size=140cm );
 inset "23"  /  position=bottomright textattrs=(color=brown size=140cm );
   
 /* rabbit */
 scatter x=x1 y=y1  /  markerattrs=(symbol=circlefilled  size=3cm color=white);
 scatter x=x2 y=y2  /  markerattrs=(symbol=circlefilled  size=4cm color=white);
 scatter x=x3 y=Y3  /  markerattrs=(symbol=circlefilled  size=0.2cm color=black);
 scatter x=x4 y=Y4  /  markerattrs=(symbol=circlefilled  size=0.2cm color=black);
 scatter x=x5 y=y5  /  markerattrs=(symbol=ArrowDown  size=0.5cm color=black);
 scatter x=x6 y=y6  /  markerattrs=(symbol=TriangleDownFilled  size=0.2cm color=black);
 scatter x=x7 y=y7  /  markerattrs=(symbol=CircleFilled  size=1cm color=white);
 scatter x=x8 y=y8  /  markerattrs=(symbol=CircleFilled  size=1cm color=white);
 scatter x=x9 y=y9  /  markerattrs=(symbol=CircleFilled  size=1cm color=white);
 scatter x=x10 y=y10  /  markerattrs=(symbol=CircleFilled  size=1cm color=white);
 scatter x=x7 y=y7  /  markerattrs=(symbol=CircleFilled  size=0.7cm color=mistyrose);
 scatter x=x8 y=y8  /  markerattrs=(symbol=CircleFilled  size=0.7cm color=mistyrose);
 scatter x=x9 y=y9  /  markerattrs=(symbol=CircleFilled  size=0.7cm color=mistyrose);
 scatter x=x10 y=y10  /  markerattrs=(symbol=CircleFilled  size=0.7cm color=mistyrose);
 scatter x=x11 y=y11  /  markerattrs=(symbol=CircleFilled  size=0.4cm color=pink);
 scatter x=x12 y=y12  /  markerattrs=(symbol=CircleFilled  size=0.4cm color=pink);

 xaxis min=-3 max=3  display=none;
 yaxis min=-5 max=1  display=none;
run;


2022年11月29日火曜日

SQLプロシジャのINTO句の注意点


SQLのINTO句を使用する際の注意点を2つ紹介したいと思います。

 

1. 変数にフォーマットが割り当てられている場合

data DT1;
  format X yymmdd10.;
  X=1;
run;

proc sql noprint;
  select X into :X trimmed
  from DT1;
quit;
%put &X;

ログ
1960-01-02

マクロ変数にはフォーマットをあてた値が格納されるようです。この挙動、SASのリファレンスに書いてない気がする。。


もし、フォーマット値ではなく、変数値をマクロ変数に格納したい場合、
事前にフォーマットを除いておくか、もしくは数値変数ならデータに応じた適切な長さのBESTフォーマットを「FORMAT=」で便宜的にあてるなどの対応が必要になります。

proc sql noprint;
  select X format=best16. into :X trimmed
  from DT1;
quit;
%put &X;

ログ
1


2. 数値変数かつフォーマットが割り当てられていない場合

data DT2;
  X=123.456789;
run;

proc sql noprint;
  select X into :X trimmed
  from DT2;
quit;
%put &X;

ログ
123.4568

デフォルトの挙動として「BEST8.」の出力形式で格納されるようです。

状況によっては、もとの数値がだいぶ削られちゃいますね(これはINTO句に限ったことではないですが。。)


2022年7月9日土曜日

【PROC FORMAT】CNTLIN=オプションの落とし穴



まず、前提知識として「PROC FORMAT入門9 : CNTLIN=オプション 」をご参照下さい。


そして、ここから本題。以下の例をご覧ください。


失敗例

①まず「データセット」から「フォーマット」を生成

data FMT;
input FMTNAME:$10. START:$10. LABEL:$20.;
cards;
$TEST_ OTHER その他
;


proc format cntlin=FMT;
run;


②実データに先ほどのフォーマットを当ててみる。

data TEST;
input X:$20.;
cards;
OTHER
.
;


data TEST2;
 set TEST;
 format X $TEST_.;
run;


あれ?!

フォーマット当てた結果、2行目の欠損値に「その他」が当てられてしまってる?!


解説

「CNTLIN=」に使用するフォーマット生成用のデータセットに注目


実は上の "OTHER" が、範囲指定としての「OTHER」として解釈されてしまってます(範囲指定?という方は「PROC FORMAT入門3 : 範囲の指定」を参照)

要は、以下のようにFORMATプロシジャで①みたいな定義をしたつもりが、②の定義をしてしまった、ということ。

proc format; /* ① */
 value $TEST_
 "OTHER" = "その他"
 ;
run;

proc format; /* ② */
 value $TEST_
 OTHER = "その他"
 ;
run;

余計なことをしてますね。。


ちなみに、"OTHER" 以外にも、FORMATプロシジャの予約語的なキーワードは気を付けた方が良いです(色々実験してみたところ、"LOW", "HIGH" なども同様に範囲指定の意味として解釈されてしまいました。たぶん他にもあると思います)



解決策

今回の例では "OTHER" を範囲指定の意味ではないと明示してあげる必要があります。
なので、以下のようにHLOという変数を作ってNullに設定しておけば良いはず。
(HLO?という方は「PROC FORMAT入門9 : CNTLIN=オプション」を参照)

data FMT;
input FMTNAME:$10. START:$10. LABEL:$20. HLO:$1.;
cards;
$TEST_ OTHER その他 .
;


proc format cntlin=FMT;
run;



上でフォーマットを作り直したので、再度このフォーマットをあてたデータセットを見てみましょう。

はい!さっきまで2行目の欠損値が「その他」になっちゃってましたが、今度は問題なさそうです。


最後に

私が把握しているのは "OTHER", "LOW", "HIGH" のみで、その他にFORMATプロシジャの予約語的なキーワードに引っかかるものがあるかもしれません。

今回の場合だと"OTHER"に対してHLOという変数を作ってNullに設定することで解決しましたが、その他の私が把握していないキーワードに対して、各自SASのリファレンスや「PROC FORMAT入門9 : CNTLIN=オプション」などを参考にして、他の必要な変数を設定してあげる必要があります。