2017年11月30日木曜日

【SAS QUIZ】第1問:関数を無効にする。




たいした答え用意してるわけじゃないし、SASマスターにとっては簡単なクイズかも。



問題

以下「???」にプログラムを追加することによって、SUM関数の結果をERRORにさせて、データステップを中止させて下さい。

data TEST;
   ???
   Y = sum(1,2,3);
run;








回答例










私の思いつく正解としては、「ARRAYを使う」です。
以下をご覧ください。

data TEST;
   array sum(1) _temporary_;
   Y = sum(1,2,3);
run;

ログ
NOTE: 配列sumの名前がSAS提供またはユーザー定義関数の名前と同一です。この名前の後ろのかっこは、関数の参照ではなく、
      配列の参照として処理されます。

ERROR: 配列sumに指定した添字の数が多すぎます。
NOTE: エラーが発生したため、このステップの処理を中止しました。



(ARRAYの構文は例なので適当です、やりたい事が出来ていればOK)

ログに出てるメッセージの通り、sumという配列を定義しちゃって、sum関数を認識できないようにしちゃってます。


他に方法ってあるのかな?
思いついた方いたら、コメントお願いします。


2017年11月20日月曜日

共有マクロを作る【MSTORED, SASMSTORE編】



以前、共有マクロについて、以下の記事を書きました。
共有マクロをつくって、プログラミングを効率的にする1


上の記事では、「sasautos=」を使ってマクロプログラムを呼び出す方法を紹介しました。
今回は、「sasmstore=」を使ってコンパイル済みのマクロを呼び出す方法を紹介します。





コンパイルしたマクロを保存する構文

options mstored sasmstore=コンパイルしたマクロを格納するライブラリ;

%macro マクロ名 / store;
  マクロの中身;
%mend;


store」をつけたマクロは、「sasmstore=」に指定したライブラリに保存されます。






libname mymac "C:\MyMacro";
options mstored sasmstore=mymac;

%macro test1 / store;
  data aa;
  run;
%mend;

%macro test2 / store;
  data bb;
  run;
%mend;

C:\MyMacro の中に、コンパイルしたマクロ test1, test2 を格納しています。
(マクロの中身は適当)



ではここで、一旦SASを再起動します。
普通はSASを閉じるとマクロも消えてしまいますが、上のように保存したマクロは mstored・sasmstore=オプションを指定するだけで、また使えるようになります。

libname mymac "C:\MyMacro";
options mstored sasmstore=mymac;

%test1;




注意①


以下の例をご覧ください。

libname mymac2 "C:\MyMacro";
options mstored sasmstore=mymac2;

%macro test1;
   %put ----- macro (1) ----;
%mend;

%macro test1 / store;
   %put ----- macro (2) ----;
%mend;

%test1;

ログ
----- macro (1) ----

同名のマクロ test1 を2つ作っています。
1つ目はライブラリ work に、2つ目はライブラリ mymac2 に作っています。

この状況下で「%test1;」でマクロを呼び出すと、work のほうのマクロが実行されてしまいました。
内部でマクロを検索する順番が決まっていて、今回は work のほうが優先されてしまったわけですね。
他にもSAS側で用意しているマクロや、ユーザー側で設定した自動呼出しマクロとかの名前と被るようなマクロを作ってしまうと、優先的に実行されるマクロがどれなのか分からん!ってなってしまうので、ご注意ください。



注意②


注意①のプログラムを実行した後、以下を実行したらERRORが出てしまいました。

libname mymac2 "C:\MyMacro";

ログ
ERROR: ライブラリMYMAC2は使用中のため、クリアまたは再割り当てはできません。 ERROR: LIBNAMEステートメントのエラーです。

これは注意①で「sasmstore=」に指定したライブラリ mymac2 内のコンパイル済マクロカタログが開いた状態になっているため。


これを以下で閉じる事が出来ます。

%sysmstoreclear;


ただし、閉じるだけで「sasmstore=」の設定が消されるわけではありません。
引き続き「sasmstore=」に指定したライブラリにマクロを保存したり、呼び出すことが可能です(保存・呼び出し時にまたマクロカタログが開く)



2017年11月16日木曜日

【小ネタ】INDEX関数 vs FIND関数




以下のプログラムをご覧ください。

  Y1 = index( trimn(X), "SAS");
  Y2 = find( trimn(X), "SAS" );


どちらも、変数X に "SAS" という文字が何バイト目にあるかを取得しています。
(なんでTRIMN関数も使ってるの?という疑問は、最後に注意点として解説しています。ちなみに今回の例ではTRIMN関数なしでも問題なし)



この2つの関数の違いですが、FIND関数は、INDEX関数の進化版というイメージです。
(FIND関数には第3引数と第4引数があり、これらの引数を使うとちょっと便利)


たとえば、
変数X から大文字・小文字区別せずに "SAS" という文字が何バイト目にあるかを取得したいとします。
この場合、FIND関数では、第3引数に "i" を指定すると大文字・小文字区別せずに検索してくれます。

  Y2 = find( trimn(X), "SAS", "i" );



INDEX関数が使われがちだけど、FIND関数の方もレパートリーに加えてあげて下さい。
(「INDEX」は5文字タイピングしないといけないけど、「FIND」は4文字で済んで、ちょっとだけ楽だし)



注意点

  • 日本語などのマルチバイト文字を含む場合は、以下記事の通りうまく動作しないのでご注意ください
  • 以下で解説している通り、場合によって「TRIMN関数」を併用する必要があります。
    • 文字値の末尾にある空白問題
    • 上記リンク記事で解説している通り、変数値の長さがLENGTHより短い場合、末尾に半角スペースが入るので、想定外の結果を返す場合があります。

2017年11月14日火曜日

【変数属性の変更】ALTER TABLE vs PROC DATASETS



(※今回は「ALTER TABLE」が主役なので、PROC DATASETS の説明はあんまりしてません)




PROC DATASETS を使うと、オブザベーションを読み込むことなく直接データセットの変数属性を変えることができますが、PROC SQL の「ALTER TABLE」を使っても同様のことができます。



構文
PROC SQL;
    ALTER TABLE データセット名
    MODIFY  変数属性を変更する文
    ADD       追加する変数と属性を指定
    DROP     削除する変数を指定
    ;
QUIT;

📝 注意
文字変数を元の LENGTH より短く変更してしまい文字切れしてしまったり、変数を誤って削除してしまったり、という事があり得るので取扱い注意。適宜バックアップをとっておく等ご対応下さい。




* Sample Data ;
data DT1;
   V1 = 1;
   V2 = 2;
   V3 = 3;
run;

* ALTER TABLE ;
proc sql;
   alter table DT1

   modify  V1 label="aaa" format=yymmdd10.  ,
               V2 label="bbb"

   add      V4  char(10)  label="xxx" ,
              V5  num        label="yyy"  format=yymmdd10.

   drop    V4, V5;
quit;



一応、ADDでやっていることを少し補足しておきます。

   add      V4  char(10)  label="xxx" ,
              V5  num        label="yyy"  format=yymmdd10.

・V4 という文字変数を長さ10で、変数ラベルを"xxx"で追加
・V5 という数値変数で、変数ラベルを"yyy"、formatをyymmdd10で追加




ALTER TABLE でしか出来ない事
「変数追加」や「変数削除」は ALTER TABLE だけ。PROC DATASETS は出来ない(はず)

proc sql;
   alter table DT1
   add  V4 char(10)
   drop V4;
quit;

また、LENGTH の変更も ALTER TABLE でしか出来ません。



PROC DATASETS でしか出来ない事
「変数名の変更」は PROC DATASETS だけ。PROC SQL の ALTER TABLE は出来ない(はず)

proc datasets lib=WORK nolist;
   modify DT1;
   rename V2=V10;
run;
quit;


ちなみに、どちらの方法も変数の型(数値・文字)を変更することはできないのであしからず。




2017年11月8日水曜日

DATAステップビューの作成と落とし穴②




DATAステップビューの作成と落とし穴①」の続き。




落とし穴①


DATAステップビューで参照しているデータセットは、途中で変数を増やしたり減らしたり、属性情報(LENGTHや変数ラベル等)を変更したりするのはNGです。

以下の例では、データセットDT2をSETするという単純なDATAステップビューDSVIEW2を作成しています。

data DT2;
   length X $2.;
   X = "aa";
run;

data DSVIEW2 / view=DSVIEW2;
   set DT2;
run;


ここで、DT2を以下青文字の通り、作り直してみます(変数XのLENGTHを5に増やして"bbbbb"という値を格納)
そして、このDT2を参照しているDATAステップビューDSVIEW2をPROC PRINTで出力してみます。

data DT2;
   length X $5.;
   X = "bbbbb";
run;

proc print data=DSVIEW2 noobs;
run;


あれ?Xには "bbbbb" が格納されているはずなのに、"bb"と出力されていて文字切れを起こしている??

原因として、DATAステップビューには「変数の型やLENGTHといった属性情報」も保存されており、ビューが参照された時にその属性情報が適用されるためです。
(DATAステップビューが作成された時の変数XのLENGTHは「2」だったのでそれが適用された)




落とし穴②

DATAステップビュー参照時にシステムオプションが2回適用されてしまうケースがあります。
例えば、システムオプション「FIRSTOBS=」や「OBS=」がそれにあたります。


まずは、システムオプションの「FIRSTOBS=」・・・ではなくデータセットオプションの「FIRSTOBS=」を使った場合の例。

data DSVIEW3 / view=DSVIEW3;
   set SASHELP.CLASS;
run;

proc print data=DSVIEW3 (firstobs=10) noobs;
run;


データセットオプションで「firstobs=10」としてるので、PROC PRINTでの出力時にオブザベーション=10から処理が開始されています。これは想定通りです。


では次、システムオプションの「FIRSTOBS=」を使った場合。

data DSVIEW3 / view=DSVIEW3;
   set SASHELP.CLASS;
run;

options firstobs=10;
proc print data=DSVIEW3 noobs;
run;
options firstobs=1;





「options firstobs=10;」で以降の処理の開始をオブザベーション=10からにしています。

  • まずはPROC PRINTでDATAステップビューを参照した際、ビューに保存されたプログラムが動くので、その時にオブザベーション=10から処理が行われます
  • そのビューの結果に対してPROC PRINTを実行する際にも、オブザベーション=10から処理が行われます


つまり、FIRSTOBS=システムオプションが2回適用されちゃったわけですね。。
(話それますが、FIRSTOBS=オプションは以下の落とし穴もあって、取り扱い注意)




その他の落とし穴


  • 「DATAステップビューはデータセットと違い実態がない」という事に起因して、一部のデータセットオプションが効かない事もあるので、動作について検証が必要です

  • DATAステップビュー内に記述した「&X」みたいなマクロ変数は展開された上で保存されます


DATAステップビューの作成と落とし穴①




まずはDATAステップビューについて説明して、次の記事で落とし穴を紹介(記事の最後にリンク貼ってます)
ミスを起こしやすい仕様があるので落とし穴の記事も必ず参照下さい!



以下をご覧ください

data DSVIEW / view=DSVIEW;
   set SASHELP.CLASS;
   keep NAME AGE;
run;

proc print data=DSVIEW noobs;
run;


上で作成した DSVIEW は一見データセットに見えますが、「DATAステップビュー」というもので以下が保存されます。
  • コンパイルしたDATAステップのプログラム
  • 変数の型やLENGTHといった属性情報

このDATAステップビューを開いたり、参照すると、コンパイルしたプログラムが実行されて結果のデータが返ってくる仕組みになっています。


構文

   DATA  ビュー名 / VIEW = ビュー名;
      ~ プログラム ~
   RUN;



ビューの定義を見たい場合は以下のように書きます。

data view=DSVIEW;
   describe;
run;

ログ
NOTE: DATAステップビューWORK.DSVIEWの定義:

data DSVIEW / view=DSVIEW;
   set SASHELP.CLASS;
   keep NAME AGE;
run;




DATAステップビューのメリット


たとえば、以下のようにデータセット MYLIB.DT1 を参照している MYLIB.STAT1 というビューを作ったとします。

data MYLIB.STAT1 / view=MYLIB.STAT1;
   set MYLIB.DT1;
   C = A + B;
run;


そしてこのビューを使って翌日 PROC MEANS を実行したいとします。

proc means data=MYLIB.STAT1;
   var C;
run;


しかし翌日、ビューが参照している MYLIB.DT1 に値の変更が発生したとします。 この場合、再度ビューを作り直す必要はありません。

なぜなら以下のように、

proc means data=MYLIB.STAT1;
   var C;
run;


ビューを参照するだけで、内部で最新の MYLIB.DT1 に対してビューに保存されたデータステップのプログラムが実行され、その結果に対してMEANSが実行されるからです。



またメリットとして、ビューの中身は定義なのでファイルサイズは小さいです。
ただし、プログラム中に何回も同じ中身のビューを参照するような状況では、参照するたびに内部でデータステップのプログラムが実行される事になるので、処理効率が悪くなります。



次回は「落とし穴編



2017年11月6日月曜日

SQLビューの作成と落とし穴②




SQLビューの作成と落とし穴①」 の続き。



落とし穴①

以下は「TEST.PITFALL」というSQLビューを作成しています。

data DT1;
   A=1; output;
   A=2; output;
run;

libname TEST "C:\Myfiles";

proc sql;
   create view TEST.PITFALL as
   select *
   from DT1;
quit;


続いて、このSQLビューをPROC PRINTで出力してみます。

proc print data=TEST.PITFALL;
run;

ログ
ERROR: ファイルTEST.DT1.DATAは存在しません。
ERROR:  直接的または間接的に参照されたデータセット、ビューの 1 つがオープンできなかったため、SQL ビュー TEST.PITFALL を処理できませんでした


ERRORが出ました。実はSQLビューの性質として、
FROM句のデータセットは、デフォルトでSQLビューと同じライブラリを参照しにいきます。

つまり、SQLビューがTESTライブラリにあるので、「from DT1」は「from TEST.DT1」と置き換えて実行されます。


今回の例では、FROM句に WORK.DT1 を適用したいので、以下のように明示的に指定する必要があります。

proc sql;
  create view TEST.PITFALL as
  select *
  from WORK.DT1;
quit;




落とし穴②

SQLビュー参照時にシステムオプションが2回適用されてしまうケースがあります。
例えば、システムオプション「FIRSTOBS=」や「OBS=」がそれにあたります。


まずは、システムオプションの「FIRSTOBS=」・・・ではなくデータセットオプションの「FIRSTOBS=」を使った場合の例。

proc sql;
   create view MYCLASS as
   select *
   from SASHELP.CLASS;
quit;

proc print data=MYCLASS (firstobs=10) noobs;
run;


データセットオプションで「firstobs=10」としてるので、PROC PRINTでの出力時にオブザベーション=10から処理が開始されています。これは想定通りです。


では次、システムオプションの「FIRSTOBS=」を使った場合。

proc sql;
   create view MYCLASS as
   select *
   from SASHELP.CLASS;
quit;

options firstobs=10;
proc print data=MYCLASS noobs;
run;
options firstobs=1;





「options firstobs=10;」で以降の処理の開始をオブザベーション=10からにしています。

  • まずはPROC PRINTでSQLビューを参照した際にクエリ(SELECT文)が動くので、その時にオブザベーション=10から処理が行われます
  • そのクエリの結果に対してPROC PRINTを実行する際にも、オブザベーション=10から処理が行われます


つまり、FIRSTOBS=システムオプションが2回適用されちゃったわけですね。。
(話それますが、FIRSTOBS=オプションは以下の落とし穴もあって、取り扱い注意)





その他の落とし穴

  • その他にも「SQLビューはデータセットと違い実態がない」という事に起因して、一部のデータセットオプションが効かない事もあるので、動作について検証が必要です

  • SQLビュー内に記述した「&X」みたいなマクロ変数は展開された上で保存されます

  • 他の落とし穴についても別記事で書きました



2017年11月2日木曜日

SQLビューの作成と落とし穴①


まずはSQLビューについて説明して、次の記事で落とし穴を紹介(記事の最後にリンク貼ってます)。
ミスを起こしやすい仕様があるので落とし穴の記事も必ず参照下さい!


以下をご覧ください

proc sql;
   create view MYVIEW as
   select NAME, AGE
   from SASHELP.CLASS;
quit;

proc print data=MYVIEW noobs;
run;



SQLプロシジャの CREATE VIEW で作成した MYVIEW は一見データセットに見えますが、「SQLビュー」というものです。
「SQLビュー」には、データセットではなく、定義したSELECT文が保存されます。
SQLビューを開いたり、参照すると、定義したSELECT文が実行されて結果のデータが返ってくる仕組みになっています。



構文

   PROC SQL;
          CREATE VIEW ビュー名 AS  SELECT文
   QUIT;





ビューの定義を見たい場合は DESCRIBE VIEW を使います。

proc sql;
   describe view MYVIEW;
quit;

ログ
NOTE: SQLビューは WORK.MYVIEW は次のように定義されています :

        select NAME, AGE
          from SASHELP.CLASS;




ちなみにビューを削除したい場合は DROP VIEW を使います。

proc sql;
   drop view MYVIEW;
quit;





SQLビューのメリット


便利なのが
たとえば、以下のようにデータセット MYLIB.DT1 を参照している MYLIB.VW というビューを作ったとします。

proc sql;
   create view MYLIB.VW as
   select A+B as C
   from MYLIB.DT1;
quit;



そしてこのビューを使って翌日 PROC MEANS を実行したいとします。

proc means data=MYLIB.VW;
   var C;
run;



しかし翌日、ビューが参照している MYLIB.DT1 に値の変更が発生したとします。
この場合、再度ビューを作り直す必要はありません。

なぜなら、以下のように

proc means data=MYLIB.VW;
   var C;
run;


ビューを参照するだけで、内部で最新の MYLIB.DT1 に対してSELECT文が実行され、その結果に対してMEANSが実行されるからです。



またメリットとして、ビューの中身は定義なのでファイルサイズは小さいです。
ただし、プログラム中に何回も同じ中身のビューを参照するような状況では、参照するたびに内部でSELECT文が実行される事になるので、処理効率が悪くなります。



次回は「落とし穴編