Rudolf is available for hire

鲁道夫Eremyan

验证专家 in 工程

数据科学开发人员

Location

第比利斯,格鲁吉亚

至今成员总数

2018年8月2日

鲁道夫是一名数据科学家，在该领域有8年的Experience. 他为格鲁吉亚语言开发了第一个聊天机器人框架, 格鲁吉亚最大的银行是哪家. Rudolf为财富500强公司设计了基于云技术的大数据处理管道和分析解决方案. 他被邀请担任国际黑客马拉松和会议(如PyData)的演讲者和评委, 谷歌DevFest, 以及NASA的国际太空应用挑战.

数据抓取工程数据 Python Pandas ETL Jupyter PostgreSQL GitHub Docker Selenium MySQL Apache气流网页抓取数据分析数据分析

Portfolio

北美大陆

Python，数据科学，Plotly，数据工程，亚马逊网络服务(AWS)...

美的-主营

Python，数据科学，数据抓取，情感分析，敏捷数据科学...

Staude资本

数据工程、Excel VBA、SQL、数据科学、亚马逊网络服务(AWS)...

Experience

Python - 8年 SQL - 6年熊猫- 6岁数据科学- 5年亚马逊网络服务(AWS)——5年数据工程- 4年统计- 4年 PySpark - 1年

Availability

Full-time

首选的环境

亚马逊网络服务(AWS), Python, Big Data, PostgreSQL, SQL, PySpark, 数据建模, 数据管道, Pandas, 数据抓取

最神奇的...

...我开发了一个格鲁吉亚语的聊天机器人框架.

工作Experience

数据工程师

2023 - 2023

北美大陆

开发用于分析社交媒体平台数据的脚本, 有助于简化数据分析和信息检索过程.
实现主题建模解决方案，从复杂数据集中提取有价值的见解, 提高数据分析过程的深度和效率.
使用Streamlit和Plotly库设计交互式仪表板原型, 提升数据可视化功能，增强用户参与度和理解力.
在AWS上实现和部署自动化数据管道, 优化数据工作流以提高效率和可扩展性.

技术:Python，数据科学，Plotly，数据工程，亚马逊网络服务(AWS), GraphQL, Selenium, JavaScript, 机器学习, 自然语言处理(NLP), Docker, 网页抓取, ETL

数据科学家

2023 - 2023

美的-主营

开发用于从电子商务平台收集数据的脚本.
使用云服务提供商进行计算和基于人工智能的数据分析.
使用AWS QuickSight设计高级洞察分析仪表板.

技术:Python，数据科学，数据抓取，情感分析，敏捷数据科学, 网页抓取, ETL, 机器学习

数据工程师

2021 - 2023

Staude资本

根据客户提供的需求和业务需求设计数据模型.
开发投资者CRM系统，用于管理对冲基金交易、订单和其他操作.
创建自动报告工具，并将其部署到Amazon Web服务上.
建立内部沟通和通知系统.

Technologies: 数据工程、Excel VBA、SQL、数据科学、亚马逊网络服务(AWS), 对冲基金, Python, Pandas, 数据建模, Docker, ETL

数据科学家

2020 - 2022

ATH Digital LLC

创建数据摄取脚本，用于从谷歌广告和Facebook广告等广告平台提取数据.
开发基于AWS服务的CSV和Excel文件数据自动上传到数据库.
搭建数据处理管道的营销流云基础架构.
根据数据科学团队的需求，设计了数据库模型.
创建了一个模型，用于预测和可视化平衡燃烧率指标.

技术:码头工人, Plotly, PostgreSQL, Jupyter笔记本, Pandas, AdWords API, Facebook API, Cron, Python, 亚马逊运动, Amazon EC2, 码头工人组成, Jupyter, 谷歌分析API, Apache气流, Big Data, 亚马逊网络服务(AWS), ETL

高级数据科学家

2019 - 2020

Zelos.AI

在AWS EMR上使用PySpark处理和分析了超过1亿个运动成绩数据.
根据公司业务需求设计了数据模型.
制作了一个由气流编排的批量数据处理管道.
使用Scrapy, Selenium, lxml创建了一个数据抓取工具，用于解析动态和静态网页.
开发了基于蒙特卡罗方法的田径比赛模拟.

技术:Amazon Elastic MapReduce (EMR), PySpark, Jupyter, 亚马逊网络服务(AWS), 统计数据, 数据科学, 亚马逊DynamoDB, Amazon EC2, lxml, 数据建模, 数据库建模, 代码架构, 马尔可夫模型, 马尔科夫链蒙特卡罗(MCMC)算法, Scrapy, DB, 数据抓取, Selenium, 工程数据, 机器学习, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, ETL, Docker, Python, Apache气流, Pandas, Big Data, 网页抓取

数据科学家

2018 - 2019

Windsor.AI

优化了现有的SQL查询，使其更简单，性能更高.
使用SQL获取见解，检测收集数据中的异常和问题.
为不同数据库管理系统之间的数据迁移创建了一个工作流.
开发脚本，用于从不同的在线广告平台获取数据.
根据分析团队的需求设计新的数据库表.

技术:Jupyter, DB, Marketing, 谷歌分析, PostgreSQL, SQL, 统计数据, R, Pandas, Python, Docker, Facebook API, AdWords API, Big Data, 亚马逊网络服务(AWS), ETL

数据科学家

2018 - 2019

边疆数据公司

开发了Twitter流趋势检测模型.
开发基于ai的应用架构.
将内部机器学习模型与IBM BlueMix和Google cloud NLP等云服务集成.
使用Google BigQuery处理大数据集.
为新的ML模型评估创建了自定义模块.
训练机器学习模型用于文本分类.
为现有应用程序创建测试.

技术:Jupyter, DB, 时间序列分析, R, 生成预训练变压器(GPT), GPT, 自然语言处理(NLP), Big Data, Python, Pandas, Docker, PostgreSQL, 亚马逊网络服务(AWS)

数据科学家

2016 - 2018

Pulsar AI

应用机器学习和自然语言处理(NLP)技术为格鲁吉亚语言开发了聊天机器人框架.
训练并部署了一个机器学习模型，用于对来自格鲁吉亚媒体网站的新闻和文章进行自动分组.
设计了一个基于社交网络文本的情感分类工具.
运用自然语言处理对大量用户对话数据进行分析, 统计并给出了精确的结果.
使用时间序列分析和预测加密货币价格.
管理一个语言学家团队，负责数据收集和标注.

技术:Jupyter, DB, MongoDB, Git, Docker, NumPy, Pandas, SpaCy, fastText, 自然语言工具包(NLTK), Gensim, Scikit-learn, Python, PostgreSQL, 亚马逊网络服务(AWS), 网页抓取, ETL, 机器学习

软件开发人员实习

2016 - 2016

Virtuace公司.

Fixed bugs.
扩展现有应用程序的功能.
测试过的新模块.

技术:XML, Java, Git, Linux, Docker

全栈软件工程师

2014 - 2016

格鲁吉亚技术大学

开发管理和使用语言语料库的前端.
创建了用于操作语言语料库数据的web服务.
有组织的数据库结构，用于存储和操作语言语料库.
使用NLP工具分析文档，并以清晰的方式呈现结果.

技术:数据库, Python, 自然语言工具包(NLTK), 语言学, MySQL, REST, JavaScript, CSS, HTML, PostgreSQL

Experience

消费者洞察分析

通过开发数据收集工具创建交互式客户洞察仪表板, 对收集到的数据集进行情感分析, 并使用AWS QuickSight构建一个引人入胜且用户友好的仪表板.

社交媒体监控

在AWS上设计和实施自动化数据管道，用于从各种社交媒体平台收集信息，作为内部社交媒体监控服务的一部分. 开发见解、提取分析指标，并通过为产品团队量身定制的交互式仪表板呈现.

多资产对冲基金管理系统

作为一家对冲基金的数据工程师, 我通过翻译财务Excel表格和业务需求创建了一个数据模型. 我在一个广泛使用的云服务上实现了一个多用户界面，以有效地管理数据库中的资产和数据. 我还建立了数据管道，从不同的银行和金融服务收集金融数据. 另外, 我制定了报告机制和内部沟通服务，以加强组织内部的数据可及性和沟通.

趋势检测在推特流

我使用自然语言处理算法和时间序列分析技术来创建一个模型，用于在Twitter流中进行早期趋势检测. 我还编写了脚本，利用Twitter API从Twitter流中提取和分析数据. Then, 我通过各种图表将分析结果可视化，增强了结果的可解释性.

营销优化的归因建模

我实现了归因建模, 一种评估沟通对关键业务目标(如销售)的财务影响的技术, 客户保留, revenue, 和利润. 我还广泛使用SQL进行数据操作和分析, 以及Python和R库.

开发数据迁移和客户端通知脚本，并实施数据完整性测试，确保现有数据的完整性和准确性. 在这个项目中, 我和一个分布在不同地理位置的国际团队之间进行了有效的合作.

高级新闻过滤器

使用Google BigQuery分析新闻大数据集.

训练了用于文本过滤机制的文本分类机器学习模型. 集成云机器学习服务，如IBM BlueMix和谷歌云NLP与现有的应用程序.

格鲁吉亚语聊天机器人框架

http://www.facebook.com/TBCTIbot/

Ti-Bot，有史以来第一个会说格鲁吉亚语的聊天机器人.

自动新闻文章分组工具

新闻文章分组工具将词向量化技术与聚类算法相结合，对从新闻网站解析的相似文章进行自动分组.

社交媒体情感分析工具

社交媒体情绪分析工具是自然语言处理技术和机器学习算法的结合，用于预测评论和帖子的情绪, 从Facebook和Instagram等社交网络收集的数据.

格鲁吉亚语拼写检查器

拼写检查工具使用经典算法，结合强大的机器学习和自然语言处理方法来检测和纠正句子中的错误. 该产品被格鲁吉亚最大的公司用于检测和纠正文件中的错误.

格鲁吉亚方言自动识别的自然语言处理工具

用于自动识别来自不同来源(如论坛)的文档中的格鲁吉亚方言的工具, 社交网络, etc. 它基于机器学习分类方法和自然语言处理方法. 在开发过程中, 我和一群语言学家一起工作，他们为分类模型准备训练和评估数据.

该项目荣获“第比利斯国立大学第76届学生大会最佳科研成果”。

加密货币价格监控工具

加密货币价格监控工具使用时间序列分析算法和Tweeter API与情感分析等NLP工具相结合, 用于监控和预测比特币和其他加密货币的价格走势.

语料库管理系统

开发了一个用于存储、操作和分析语言数据的web应用程序.

用于制药行业数据的ETL管道

与客户团队合作，为制药行业建立新的数据库, 通过收集, 清理和管理来自不同来源的数据. 使用AWS服务实现ETL、存储日志等.

模拟2020年东京奥运会

解析分析大量运动员成绩数据. 应用蒙特卡罗统计方法对运动员成绩数据进行模拟田径比赛. 使用AWS云服务运行计算并存储生成的结果.

出版

情感分析准确性的四个陷阱

http://gmzg.ngskmc-eis.net/deep-learning/4-sentiment-analysis-accuracy-traps

出版

规模效率:AWS成本优化的故事

http://gmzg.ngskmc-eis.net/aws/aws-cost-optimization-at-scale

Skills

Languages

Python, SQL, XML, JavaScript, Java, HTML, CSS, R, Bash, Excel VBA, GraphQL

框架

Selenium, Flask, Scrapy, Spark

库/ api

Pandas, 美丽的汤, REST APIs, XGBoost, SciPy, NumPy, SpaCy, Scikit-learn, 自然语言工具包(NLTK), Twitter API, PySpark, 谷歌AdWords, Matplotlib, 谷歌云API, AdWords API, Facebook API, 谷歌分析API, Node.js

Tools

Trello, Jupyter, GitHub, Gensim, Apache气流, pgAdmin, Bitbucket, Git, Cron, Plotly, Amazon Elastic MapReduce (EMR), 谷歌分析, 码头工人组成, Spark SQL

Paradigms

数据科学，ETL, Scrum, REST，数据库设计，异常检测

Platforms

Jupyter笔记本、Docker、亚马逊网络服务(AWS)、Linux、Amazon EC2

Storage

PostgreSQL, MySQL, DB, MongoDB, 数据库建模, 亚马逊DynamoDB, Redshift, Data Lakes, 数据管道, Elasticsearch

Other

数据抓取, Big Data, 工程数据, 文本分类, 文本挖掘, 数据分析, 数据分析, 批处理文件处理, 预测分析, Apache超集, 正则表达式, 网页抓取, 聚类算法, 主题建模, Web服务, 数据挖掘, 归因建模, 数据可视化, Reporting, Trading, 自然语言处理(NLP), 马尔科夫链蒙特卡罗(MCMC)算法, 马尔可夫模型, 代码架构, 数据建模, lxml, fastText, 语言学, 时间序列分析, SSH, 机器学习, 计算语言学, 统计数据, 数据结构, Algorithms, IBM Cloud, 亚马逊运动, 对冲基金, GPT, 生成预训练变压器(GPT), 情绪分析, 敏捷数据科学, OpenAI, HubSpot的CRM, Dash, 财务数据, Appsmith

行业专业知识

营销、医疗

Education

2013 - 2017

计算机科学学士学位

第比利斯国立伊凡·贾瓦希什维利大学-格鲁吉亚第比利斯

认证

2022年6月至今

数据分析

Udacity

2020年5月至今

AWS认证解决方案架构师协会2020

CloudGuru

2019年8月至今

营销分析与R

Datacamp.com

2018年12月- 2019年12月

谷歌分析个人资格

数字广告学院

2017年7月至今

深度学习暑期学校

Deusto大学

2017年1月至今

深度学习

Udacity

2016年2月至今

机器学习在线课程

斯坦福大学

2016年2月至今

语言与现代技术

法兰克福歌德大学/美因

有效的合作

如何使用Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

分享你的需求

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

选择你的才能

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

开始招聘