感谢你访问我的网站,我是狷盦。创建此网站的初衷一端是希望通过记录平时学习和项目过程中的感悟,作为鞭策自己进步的动力;另一端是希望藉此平台与诸位交流技术心得,结识更多志同道合的朋友。

目前将长期更新维护两个项目:CuPy for Machine Learning和Causal Inference。前者旨在利用CuPy——一个基于Nvidia CUDA实现与NumPy兼容的开源库——重写(Overwrite)主流的机器学习算法;后者则更偏向计量理论层面,旨在结合Stata回顾因果推断领域的经典和前沿方法。此外,我也将不定期地更新其他关于数据科学或者编程开发的文章。我深知水平有限,文中舛误错漏之处在所难免,所以千万不要吝惜你的意见或建议。无论褒贬,均可在文章最后留言评论。

CuPy for Machine Learning

之所以编写CuPy for Machine Learning项目,最主要的原因是感觉大多时候我们通过scikit-learning、Keras、PyTorch、Tensorflow等框架实现某种机器学习方法仅仅是“实现”而已,对于方法背后的原理和逻辑却不甚了了。重写算法的过程本质上是一种回溯的过程,将机器学习的理论与编程实现相结合,以达到“知其然,亦知其所以然”的目的。于我而言,可以通过坚持更新该项目巩固曾经学过的知识,“温故而知新”将是极好的事情。另外,选择CuPy的原因一定程度上是出于实务性的考虑,毕竟GPU加速对于高维数据或深度学习模型训练效率的提升是极其显著的。项目已开源至GitHub,你可以将之克隆到本地仓库运行,并在项目更新之后随时检出最新版本的程序。如果你愿意与我一同维护该项目,可以创建派生仓库对源码加以优化,我将第一时间处理你的pull request。项目更新进度:

1. 线性模型

  • 线性回归
  • 岭回归
  • Logistic回归

2. 评价指标

  • 平均绝对误差
  • 均方误差/误差均方根
  • 对数均方误差
  • 决定系数

14/10/2021

Causal Inference

因果推断一直以来是我个人的研究兴趣之一,所以Causal Inference系列完全是出于私心——希望加深自己对于相关研究领域的了解。项目中涉及的程序通过Stata编写。我所使用的版本为14.0,而目前最新的版本为17.0。一般只要版本不是过于老旧,运行项目中的程序代码便没有问题,所以你可以安装任意你能获得的版本。

Dict of Data Science

最近为网站添加了新的功能,即位于右侧边栏的Dict of Data Science,一个数据科学名词术语词典。缘起是考虑到经常阅读外文文献,其中难免遇到陌生的学科领域专有词汇,而各类在线英汉词典往往是机械地翻译,结果有时令人不知所云。再者,部分术语的中文译名繁多,长期混用也导致有时理解上的混乱。例如,Autoregressive integrated moving average model (ARIMA model)这一术语,仅我所见过的中文译名就有单积自回归移动平均模型、单整自回归移动平均模型、综合自回归移动平均模型、求和自回归移动平均模型等;再例如,Censored model这一术语,中文译名有删失模型、删截模型、审查模型、归并模型等,特别是审查模型这一译名,我第一次遇到时简直是一头雾水。因此,我计划整理比较中文权威文献,构建一个数据科学的名词术语英汉“无解”词典,涉及机器学习、计量经济学、统计学、结构方程模型、元分析等领域。目前已添加近百词汇,后续也将持续更新完善。当然,因个人学力有限,加之何为更优的中文译名也无一定之规,想必难以做到尽善尽美。功成不必在我,而功力必不唐捐。欢迎诸位使用体验!

13/09/2021

 

如果你希望和我打个招呼,欢迎在任意文章下方留言。