NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

我花了 14 个小时,终于找到了长春长生们究竟卖到了哪里去

  • 2019-10-30
  • 本文字数:2881 字

    阅读完需:约 9 分钟

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去

需要说明的是这次数据是涵盖所有的疫苗数据,并不是针对此次问题疫苗定向搜集的数据,所有数据皆来自于政府相关网站的公开数据。

数据采集源

因为有一些数据实在太难找了,只能来看一下近两年的数据,并且不考虑疫苗增补名单数据(太零碎了)。


所以这次整理的数据并不完善,所以把所有搜集到的数据全部同步到了 GitHub,有需要可以自取或者提 issue 和 pr。


因为时间跨度较大,所以没有把批次的信息纳入本次的统计范围。本文主要从技术层面搜集了此次问题疫苗事件相关企业生产的各类疫苗在各省份的销售情况。

采集关键词

  • 省名 第二类疫苗 采购

  • 省名 第二类疫苗 公示

  • 省名 第二类疫苗 产品及价格

  • 省名 第二类疫苗 供应商

  • 省名 第二类疫苗 中标目录

  • 省名 第二类疫苗 参考价

  • 省名 第二类疫苗 入围结果


采集结果整理如下


  • 北京市,来源:北京市 2018-2019 年免疫规划用第二类疫苗采购项目

  • 天津市,来源:天津市 2018-2020 年第二类疫苗集中采购项目拟中标/拟中选结果

  • 上海市,来源:2018 年度上海市第二类疫苗集团采购项目中标目录

  • 重庆市,来源:重庆市第二类疫苗供应商入围采购-采购结果预公示

  • 河北省,来源:河北省疾病预防控制中心 2018 年度第二类疫苗省级集中采购项目中标公告

  • 山西省,来源:2018 年度山西省第二类疫苗集中采购入围企业产品及价格

  • 辽宁省,来源:辽宁省第二类疫苗平台招标采购公告

  • 吉林省,来源:2017 年度吉林省第二类疫苗集中采购企业产品议价结果名单

  • 黑龙江省,来源:黑龙江省 2018 年第二类疫苗挂网采购中标企业产品及价格审核结果

  • 江苏省,来源:江苏省第二类疫苗集中采购中标产品

  • 浙江省,来源:浙江省 2018 年第二类疫苗中标目录

  • 安徽省,来源:安徽省 2018 年第二类疫苗集中采购目录

  • 福建省,来源:福建省 2018 年第二类疫苗集中采购目录_湄洲岛

  • 江西省,来源:1228 江西省 2018 年度第二类疫苗入围品种目录

  • 山东省,「找不到」

  • 河南省,来源:2017 年河南省二类疫苗供应商入围资格采购项目中标结果公告

  • 湖北省,来源:2017 年湖北省第二类疫苗集中采购成交产品

  • 湖南省,来源:湖南省第二类疫苗集中采购文件

  • 广东省,来源:2018 年度广东省第二类疫苗成交品种目录

  • 海南省,来源:海南省第二类疫苗品种目录(第一批)

  • 四川省,来源:2017 年度第二类疫苗挂网阳光采购结果

  • 贵州省,来源:贵州省第二类疫苗集中采购报价解密结果

  • 云南省,来源:云南省疾病预防控制中心二类疫苗公开招标入围项目入围公告

  • 陕西省,来源:陕西省 2018 年二类疫苗集中采购项目入围供应商磋商结果

  • 甘肃省,来源:甘肃省第二类疫苗供应资格采购项目中标公示

  • 青海省,来源:所有的第二类的价格信息全部转到:223.220.250.135:8038 无法查看

  • 台湾省,暂无

  • 内蒙古自治区,2018 年内蒙古自治区第二类疫苗集中采购入围企业产品及价格

  • 广西壮族自治区,2017 年度广西壮族自治区第二类疫苗直接挂网采购拟入围产品目录(电子版)

  • 西藏自治区,实在找不到

  • 宁夏回族自治区,2016 年宁夏回族自治区第二类疫苗公开招标预中标结果

  • 新疆维吾尔自治区,《自治区 2017 年第二类疫苗入围品种及价格目录》20170828.xls

  • 香港特别行政区,暂无

  • 澳门特别行政区,暂无


综上,除去港澳台 ,山东,青海以及西藏以外,只搜集到了 28 个省级行政区的二类疫苗数据公示情况。


单单是检索,下载的过程,就花了 7 个多小时,主要遇到了一些问题:


  • 某些网站需要注册登录才可以查看

  • 有些网站缺乏维护被挂了黑链

  • 搜索框有,但是实际并不能搜索

  • 有些只有图片,没有文字

  • 有些只在纯公告但无具体数据

  • 找不到信息的有

  • 山东省,只看到新闻说建了可追溯的展示平台,但本次暂未找到

  • 青海省,所有的第二类的价格信息需要账号登录进相关系统才能访问

  • 西藏,暂时没能搜索到相关数据


如图,最终获取到 28 个省份的数据,(图中漏掉了河北)。



*

数据整理

由于本人不是专业的医学行业人士,所以统一把数据整理成以下的 csv 格式。


通用名,来源,生产企业,申报企业,省,中标年份


name,src,create_company,report_company,prov,year


各项含义如下:


  • 通用名 :药名 -> name

  • 来源:国产/进口 -> src

  • 生产企业 -> create_company

  • 申报企业:如果为空再填充为生产企业 -> report_company

  • 省 -> prov

  • 中标年份 -> year


期间因为整理非 XLS 的文件消耗了大量的时间,暂时只能先把成型的数据集提取出来。



目前处理结果如下:


  • 数据标准 csv(14)

  • 吉林省,四川省,天津市,宁夏回族自治区,安徽省,山西省,广东省,新疆维吾尔自治区,江苏省,江西省,海南省,贵州省,辽宁省,黑龙江省,

  • 等待整理的数据(13)

  • 上海市,云南省,内蒙古,北京市,广西省,河南省,浙江省,湖北省,湖南省,甘肃省,福建省,重庆市,陕西省,


如图所示



  • 亮绿色是容易获取的数据

  • 暗绿色的可以获取的数据

  • 黑色的是没有获取到数据

数据分析

直接采用 pandas+echart 进行处理,首先把所有的 csv 整合,共有 1529 条数据,对所有的生成企业进行统计分析:


count    167.000000mean       9.143713std       15.839281min        1.00000025%        1.00000050%        3.00000075%        9.000000max       98.000000
复制代码


共 167 个厂家,其中中位数是 3,最高是 98,很明显这是一个偏态分布。 顺手看一下箱线图:



也就是说,绝大多数的药,都由大厂生产。我们输出前 10 个看看,长春长生位列第 2。



我们再来看看各个省份中,长春长生等占据的百分比


[{'name': '天津', 'value': 14.0625}, {'name': '辽宁', 'value': 17.647058823529413}, {'name': '黑龙江', 'value': 13.274336283185843}, {'name': '安徽', 'value': 9.75609756097561}, {'name': '新疆', 'value': 16.94915254237288}, {'name': '江苏', 'value': 14.563106796116504}, {'name': '江西', 'value': 12.179487179487179}, {'name': '山西', 'value': 16.52173913043478}, {'name': '吉林', 'value': 17.857142857142858}, {'name': '贵州', 'value': 14.17910447761194}, {'name': '广东', 'value': 13.445378151260504}, {'name': '四川', 'value': 16.93548387096774}, {'name': '宁夏', 'value': 17.5}, {'name': '海南', 'value': 14.285714285714285}]
复制代码


长春长生等在 14 个有数据的省份供应商中均占有一席之地:


  • 亮红色 接近 20%

  • 暗红色 接近 10%

  • 黑色的是没有获取到数据



对比下从官网下载的公司销售策略图



做到这里已经到了晚上 11 点,从早上 9 点做到现在,花了整整 14 小时,才将将整理了一半的省份,所以目前的数据并不完整,仅供参考,后面空了可能会继续整理更新到 Github 上。

后记

除了在朋友圈和微博刷屏表达我们的愤怒,或许我们还能做点什么,这也是我的出发点。最初的文章里面有些措辞不是太中性,抱歉,本只想在自己能力范围内做一点事情。


如果说有什么建议的话,希望相关部门在数据公示方面后续能继续加强吧。


本文首发于个人的公众号和 v2ex,事先也没想到会有这么多人关注。在这边重新编辑一下,去掉了原先前言中对此次疫苗事件背景的描述及部分不严谨的措辞。全文的观点从技术讨论出发,尽量客观中立,观点及行为为员工自发,不代表本人所在公司及团队。


本文转载自公众号云加社区(ID:QcloudCommunity)。


原文链接:


https://mp.weixin.qq.com/s/lnHA5kRsc9oHPDiY6LEm5A


2019-10-30 11:42576

评论

发布
暂无评论
发现更多内容

新思科技解析导致汽车无钥匙进入系统易受攻击的漏洞及缺陷

InfoQ_434670063458

嵌入式软件架构设计之分层设计

cdhqyj

架构 软件 嵌入式 分层

金三银四,冰河为你整理了这份20万字134页的面试圣经!!

冰河

面试 面经 offer 金三银四 我要进大厂

模仿Activiti工作流自动建表机制,实现Springboot项目启动后自动创建多表关联的数据库与表的方案

朱季谦

建表

近万字原创长文,以追忆2020年:《请回答,2020》

朱季谦

随笔杂谈

压抑了五个月的我终于可以放声呐喊了!阿里是真的难进,Java四面面经+面试题

Java架构追梦

Java 阿里巴巴 架构 面试 金三银四

区块链如何应用到食品?区块链食品安全溯源

13530558032

EGG Network阿凡提的模式是怎么样的?早点了解别错失这个机会!

币圈那点事

区块链

策略枚举:消除在项目里大批量使用if-else的正确姿势

朱季谦

枚举 策略模式

Knativa 基于流量的灰度发布和自动弹性实践

Serverless Devs

Serverless Kubernetes 运维 云原生 Knative

web前端面试题详细解析

yumibgt

面试

Kylin安装部署

五分钟学大数据

kylin 3月日更

区块链数字版权保护--为数字版权保护赋能

13530558032

Python OpenCV 图像平移,取经之旅第 10 天

梦想橡皮擦

3月日更

v01.12 鸿蒙内核源码分析(双向链表) | 谁是内核最重要结构体 | 百篇博客分析 HarmonyOS 源码

鸿蒙研究站

鸿蒙 HarmonyOS 鸿蒙内核源码分析 百篇博客分析鸿蒙 百万汉字注解鸿蒙

2021最新分享Java面试全套合集!

比伯

Java 编程 架构 面试 计算机

基于NB-IoT的智慧路灯监控系统(NB-IoT专栏—实战篇5:手机应用开发)

不脱发的程序猿

物联网 28天写作 3月日更 NB-IoT智慧路灯 手机应用开发

Activiti工作流自动生成28张数据库表的底层原理分析

朱季谦

Activity 工作流引擎

spark性能调优之JVN调优

大数据技术指南

spark 3月日更

vue项目中使用tinymce富文本编辑器实现图片上传/粘贴格式

yumibgt

tinymce

微信扫码登录技术实现的简单思考

朱季谦

redis

统一日志管理方案:Spring项目logback日志与logstash和Elasticsearch整合

朱季谦

ELK

阿里P7大牛整理!对Android开发的现状和未来发展的思考,吊打面试官系列!

欢喜学安卓

android 程序员 面试 移动开发

是谁拖(慢)了 Redis 的后腿?

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

Rust从0到1-基础概念-函数

rust 函数

从开源的历史与今天,聊聊为什么要期待HDC.Cloud 2021

脑极体

visualvm工具远程对linux服务器上的JVM虚拟机进行监控与调优

朱季谦

JVM GC 调优

智慧党建平台建设--开拓新时期党建系统

13530558032

android开发经典实战!我的移动开发春季历程,大厂直通车!

欢喜学安卓

android 程序员 面试 移动开发

深入理解Spring Security授权机制原理

朱季谦

security

什么?都1202年了还不懂k8s和容器的关系?!这份k8s指南快拿走不谢!

观测云

云计算 k8s 云服务 知识星球

我花了14个小时,终于找到了长春长生们究竟卖到了哪里去_文化 & 方法_云加社区_InfoQ精选文章